收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向微博的自动文摘研究

孟威  
【摘要】:在新生代的今天,微博的出现,打通了手机沟通的平台,越来越多的资源被上传到网络上可供用户进行交流,信息量的急剧增长,加快促进了用户之间的交流与沟通,微博不仅联通了移动通信网与互联网的桥梁,更方便用户消息的传递与沟通,为社会进步做出了巨大的贡献。微博数据是庞大的,人们想找到自己所需要的信息也很困难,并且在发表微博的时候评论过多,无从看起,这样就给自动文摘技术在微博领域中带来新的挑战。 本论文针对新浪微博真实数据和自动文摘技术进行研究之后,在计算句子权重方法考虑了八类特征主题,并结合k-means聚类方法和FarthestFirst主题模型对子主题进行深入探讨,设计并实现了一个面向微博形式的自动文摘原型系统BMS(Based MicroBlog Summarization)该系统分为文档预处理、噪声过滤、子主题划分、特征选择、句子抽取、文摘句重排序六大功能模块。本论文主要工作有 (1)以K-means聚类方法,FarthestFirst聚类方法,进行对比试验,最后采用K-means聚类算法对子主题进行划分。 (2)对于噪声处理,本论文提出了小概率事件去除法,我们对微博评论字数做了统计,统计评论字数与主题相关度比较,发现评论字数小于5时,内容相关度几乎为0,所以针对这一点我们过滤掉字数小于5的评论再结合上下文相关性回复过滤算法,来处理噪声。 (3)在句子权重计算时,文章利用传统的计算方法,在结合微博的特点,综合计算句子的权值。特征选择过程主要考虑到子主题、标题、关注、分享数与评论数,粉丝,评论句长,位置,标签等特征,来进行权重计算。在相关实验中,本论文提出的特征能够有效提高摘要质量。 (4)在系统评测部分,通过对比实验数据表明,本论文系统较其它系统在召回率、准确率和F-measure值上都有所提高,生成的文摘有较高的质量。 最后,在以上工作后,得出八个特征对面向微博自动文摘的质量有所提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
2 郭燕慧,钟义信,马志勇,姚均勇;自动文摘综述[J];情报学报;2002年05期
3 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
4 郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期
5 郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期
6 黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期
7 沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期
8 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
9 陆和健;李祝启;;网络信息自动文摘研究[J];情报科学;2008年10期
10 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
11 汤晓鲁;李旎;;手工文摘的评价与自动文摘的产生[J];贵图学刊;1998年02期
12 孙春葵,钟义信;关于自动文摘系统中文摘句式的一种机器学习方法[J];计算机工程与应用;2000年05期
13 杨建林;中文自动文献系统研究[J];情报学报;2001年04期
14 王开铸,李俊杰,李秀坤,吴岩,张军;自动文摘系统的历史和现状[J];电脑学习;1995年04期
15 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
16 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
17 黄长伟;;自动文摘技术研究现状分析[J];中外企业家;2011年14期
18 吴岩,李秀坤,王开铸;HIT-97Ⅰ型英文自动文摘系统[J];情报学报;1998年05期
19 朱爱群;自动标引和自动文摘对机器翻译的影响[J];现代图书情报技术;1997年01期
20 杨建林;一种使用自动聚类思想的自动文摘方法[J];情报学报;2001年05期
中国重要会议论文全文数据库 前10条
1 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
5 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 王萌;王晓荣;李春贵;唐培和;;基于局部与全局信息的自动文摘算法[A];广西计算机学会2007年年会论文集[C];2007年
7 刘德喜;姬东鸿;;基于基本要素的文摘内容连贯性评测模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
3 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
4 陈清才;基于粗集的汉语建模及其应用研究[D];哈尔滨工业大学;2003年
5 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
6 周文;基于概念的若干知识表示模型及相关方法研究[D];上海大学;2007年
7 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
8 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
9 陈莉萍;英汉语篇结构标注理论与实践[D];上海外国语大学;2007年
10 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
中国硕士学位论文全文数据库 前10条
1 孟威;面向微博的自动文摘研究[D];昆明理工大学;2012年
2 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
3 谢静芝;面向循证医学的多文档自动文摘技术研究[D];大连海事大学;2010年
4 桂卓民;基于事件的多文档自动文摘系统的研究[D];华中师范大学;2010年
5 乔小斐;中文自动文摘关键技术的研究与实现[D];西安电子科技大学;2010年
6 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
7 张明慧;基于主题模型的中英文多文档自动文摘[D];苏州大学;2011年
8 刘福君;基于指代消解的自动文摘研究[D];安徽大学;2012年
9 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
10 张佳培;基于子主题划分和句子特征的中文文档自动文摘研究[D];重庆大学;2012年
中国重要报纸全文数据库 前10条
1 ;浙江天宇信息技术有限公司[N];中国计算机报;2009年
2 通讯员 彭云 袁龙刚;袁仁国荣膺改革开放30年酒界领军人物[N];经理日报;2009年
3 记者 万宁;业绩增长仍是主流[N];中国证券报;2005年
4 李倩;多种价格国债招标方式有望推出[N];金融时报;2004年
5 本报记者 汪涛 ;证监会再下严令 迫货币市场基金软着陆[N];21世纪经济报道;2005年
6 张雪峰;信息检索技术的新视角[N];中华读书报;2005年
7 市财政局办公室提供;市财政研究所得税改革政策[N];玉溪日报;2008年
8 本报记者 张泰欣;并购贷款操作指引或首季公布[N];中国证券报;2009年
9 记者 周科竞;上交所推出超大盘指数[N];北京商报;2009年
10 本报记者 安仲文;上证超级大盘指数授权博时开发ETF[N];上海证券报;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978