面向微博的自动文摘研究
【摘要】:在新生代的今天,微博的出现,打通了手机沟通的平台,越来越多的资源被上传到网络上可供用户进行交流,信息量的急剧增长,加快促进了用户之间的交流与沟通,微博不仅联通了移动通信网与互联网的桥梁,更方便用户消息的传递与沟通,为社会进步做出了巨大的贡献。微博数据是庞大的,人们想找到自己所需要的信息也很困难,并且在发表微博的时候评论过多,无从看起,这样就给自动文摘技术在微博领域中带来新的挑战。
本论文针对新浪微博真实数据和自动文摘技术进行研究之后,在计算句子权重方法考虑了八类特征主题,并结合k-means聚类方法和FarthestFirst主题模型对子主题进行深入探讨,设计并实现了一个面向微博形式的自动文摘原型系统BMS(Based MicroBlog Summarization)该系统分为文档预处理、噪声过滤、子主题划分、特征选择、句子抽取、文摘句重排序六大功能模块。本论文主要工作有
(1)以K-means聚类方法,FarthestFirst聚类方法,进行对比试验,最后采用K-means聚类算法对子主题进行划分。
(2)对于噪声处理,本论文提出了小概率事件去除法,我们对微博评论字数做了统计,统计评论字数与主题相关度比较,发现评论字数小于5时,内容相关度几乎为0,所以针对这一点我们过滤掉字数小于5的评论再结合上下文相关性回复过滤算法,来处理噪声。
(3)在句子权重计算时,文章利用传统的计算方法,在结合微博的特点,综合计算句子的权值。特征选择过程主要考虑到子主题、标题、关注、分享数与评论数,粉丝,评论句长,位置,标签等特征,来进行权重计算。在相关实验中,本论文提出的特征能够有效提高摘要质量。
(4)在系统评测部分,通过对比实验数据表明,本论文系统较其它系统在召回率、准确率和F-measure值上都有所提高,生成的文摘有较高的质量。
最后,在以上工作后,得出八个特征对面向微博自动文摘的质量有所提高。
|
|
|
|
1 |
刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期 |
2 |
郭燕慧,钟义信,马志勇,姚均勇;自动文摘综述[J];情报学报;2002年05期 |
3 |
王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期 |
4 |
郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期 |
5 |
郭庆琳,樊孝忠,柳长安;文本聚类在自动文摘中的应用研究[J];计算机应用;2005年05期 |
6 |
黄河笑,郭俊文;中文科技文献自动文摘系统的研究[J];现代情报;1996年03期 |
7 |
沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期 |
8 |
金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期 |
9 |
陆和健;李祝启;;网络信息自动文摘研究[J];情报科学;2008年10期 |
10 |
高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期 |
11 |
汤晓鲁;李旎;;手工文摘的评价与自动文摘的产生[J];贵图学刊;1998年02期 |
12 |
孙春葵,钟义信;关于自动文摘系统中文摘句式的一种机器学习方法[J];计算机工程与应用;2000年05期 |
13 |
杨建林;中文自动文献系统研究[J];情报学报;2001年04期 |
14 |
王开铸,李俊杰,李秀坤,吴岩,张军;自动文摘系统的历史和现状[J];电脑学习;1995年04期 |
15 |
刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期 |
16 |
李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期 |
17 |
黄长伟;;自动文摘技术研究现状分析[J];中外企业家;2011年14期 |
18 |
吴岩,李秀坤,王开铸;HIT-97Ⅰ型英文自动文摘系统[J];情报学报;1998年05期 |
19 |
朱爱群;自动标引和自动文摘对机器翻译的影响[J];现代图书情报技术;1997年01期 |
20 |
杨建林;一种使用自动聚类思想的自动文摘方法[J];情报学报;2001年05期 |
|