收藏本站
《武汉科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于维基百科的多文档自动摘要系统研究

余博  
【摘要】:互联网技术的快速发展使得网络信息井喷式地增长,虽然搜索引擎技术的发展使人们可以方便地从网络上获取想要的内容,但随着网络信息的快速增多,人们花费在搜寻有用信息上的时间也越来越多了。在这种情况下,单纯地使用搜索引擎技术已经越来越难以满足人们准确捕捉信息的需求。面对这种困境,多文档自动摘要技术被提出来,多文档自动摘要是自然语言领域中的一个重要研究方向。多文档摘要可以将多篇同一主题的文档进行汇总,提供给人们简洁,全面的信息,将人们从繁琐、冗余的信息中解脱出来。 本文以TAC2009的Update Summarization子任务为实验背景,设计并实现了一个研究基于维基百科的抽取式多文档自动摘要系统。系统首先对文档进行句子分割、词性标注等预处理,然后依据句子TF*IDF、句子位置、句子与主题相似度以及句子长度四个特征的组合对句子排序.然后基于维基百科这种外部资源来进行句子过滤,最后抽取句子生成摘要。本文使用ROUGE评测工具对使用维基百科前后的摘要进行对比实验,实验结果表明维基百科能较大程度上提高多文档摘要质量。
【学位授予单位】:武汉科技大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前8条
1 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
2 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
3 刘挺,王开铸;自动文摘的四种主要方法[J];情报学报;1999年01期
4 刘挺;车万翔;李生;;基于最大熵分类器的语义角色标注[J];软件学报;2007年03期
5 刘海涛;老松杨;韩智广;;自动文摘系统中的段落自适应聚类研究[J];微计算机信息;2006年18期
6 许敏,王能忠,马彦华;汉语中指代问题的研究及讨论[J];西南师范大学学报(自然科学版);1999年06期
7 刘茂福;李淑君;金可佳;张晓龙;;多文档自动文摘中的特征组合优化[J];计算机系统应用;2008年08期
8 王厚峰;汉语篇章的指代消解浅论[J];语言文字应用;2004年04期
【共引文献】
中国期刊全文数据库 前10条
1 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
2 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
3 骆正华,樊孝忠,刘林,龚永罡;基于E-Chunk的问句实例分析系统[J];北京理工大学学报;2005年01期
4 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
5 王智强;李蕾;王枞;;基于决策树的汉语代词共指消解[J];北京邮电大学学报;2006年04期
6 张素香;李蕾;谭咏梅;;特定领域下关系模板的研究[J];北京邮电大学学报;2006年05期
7 王青林;;法学文摘编辑选稿初探[J];中国编辑;2010年02期
8 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期
9 王青林;;从文摘发展史看文摘出版物的功能[J];出版史料;2010年04期
10 赵鸣;吴磊;;改进性的文本聚类算法研究[J];长江大学学报(自然科学版)理工卷;2009年02期
中国重要会议论文全文数据库 前10条
1 郭燕慧;王枞;钟义信;;语言认知与主题内容识别[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
2 孙涌;韦小丽;;领域本体构建研究及在专利信息服务中的应用[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
3 张莹莹;段翔;周彬;王晓云;;移动通信网络中的内容安全[A];2007年中国通信学会“移动增值业务与应用”学术年会论文集[C];2007年
4 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 王萌;何婷婷;王晓荣;;基于hownet概念获取的中文自动文摘系统[A];第二届全国学生计算语言学研讨会论文集[C];2004年
6 秦兵;刘挺;高晔;;多文档集合中逻辑主题的确定[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 梅铮;王厚峰;;汉语人称代词消解的前端处理[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 叶正;林鸿飞;杨志豪;;基于问句相似度的中文FAQ问答系统研究[A];第三届学生计算语言学研讨会论文集[C];2006年
9 王灿辉;金奕江;马少平;;基于文档中心内容快速提取的Web监控辅助系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前10条
1 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
2 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
3 冯晶晶;面向软件测试领域的自动问答系统[D];河南理工大学;2010年
4 王有权;基于Web的智能答疑技术研究与实现[D];南京财经大学;2010年
5 杨朝玉;基于知网的受限域问答系统原型的设计与实现[D];华南理工大学;2010年
6 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
7 张宜浩;基于最大熵模型的中文实体关系自动抽取研究[D];昆明理工大学;2010年
8 孟祥燕;问答对自动获取的研究[D];昆明理工大学;2008年
9 龚华明;旅游本体知识库的构建及推理应用研究[D];昆明理工大学;2009年
10 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
2 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
3 徐延勇,周献中,井祥鹤,郭忠伟;基于最大熵模型的汉语句子分析[J];电子学报;2003年11期
4 钟义信;知行学引论——信息 知识 智能的统一理论[J];中国工程科学;2004年06期
5 刘挺,吴岩,王开铸;自动文摘综述[J];情报科学;1998年01期
6 沈洲,王永成,许一震,方澈;自动文摘系统评价方法的研究与实践[J];情报学报;2001年01期
7 王永成,许慧敏;OA中文文献自动摘要系统[J];情报学报;1997年02期
8 刘挺,吴岩,王开铸;基于信息抽取和文本生成的自动文摘系统设计[J];情报学报;1997年S1期
9 刘挺,王开铸;自动文摘的四种主要方法[J];情报学报;1999年01期
10 陈文珍;;高校思想政治理论课教师应如何迎接新课程的改革[J];清华大学学报(哲学社会科学版);2006年S2期
中国硕士学位论文全文数据库 前1条
1 吴思;聚类分析及其在农业物种信息自动提取中的应用[D];湘潭大学;2001年
【相似文献】
中国期刊全文数据库 前10条
1 史磊,王永成;英文文献自动摘要系统研究[J];情报学报;1999年06期
2 张雷生,万绍俊,许鹏文;简单中文自动摘要系统研究[J];装备指挥技术学院学报;2004年03期
3 谭种;陈跃新;;自动摘要方法综述[J];情报学报;2008年01期
4 张筱丹;胡学钢;;基于向量空间模型的自动摘要冗余处理研究[J];合肥工业大学学报(自然科学版);2010年09期
5 李蕾,孙春葵,杨晓兰,钟义信;一种特定领域中文自动摘要系统[J];北京邮电大学学报;2000年01期
6 刘洋,王永成;基于Web服务自动摘要系统的安全实现方案[J];计算机工程与应用;2005年15期
7 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
8 王永成;刘功申;刘传汉;胡佩华;孙展;;论文本的自动摘要[J];中国索引;2003年02期
9 刘郑;杜祝平;;浅析英文自动摘要技术[J];魅力中国;2008年28期
10 阿热帕提·尕依提;维尼拉·木沙江;;基于统计的维吾尔文网页自动摘要提取研究[J];电脑知识与技术;2011年01期
中国重要会议论文全文数据库 前10条
1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 苗家;马军;陈竹敏;;一种基于HITS算法的blog文摘方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 宋锐;林鸿飞;;面向中文新闻领域的移动摘要系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
7 胡珀;何婷婷;张勇;;基于网络化数据挖掘策略的中文多文档自动文摘研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
8 胡珀;;基于图模型的多文档自动文摘(英文)[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
9 王慧芳;张勇;邢春晓;张文珂;杨吉江;;文本摘要算法集成与实现[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
10 俞昊旻;张玥;张奇;黄萱菁;;基于Low-IDF-SIG的句子重复检测[A];第六届全国信息检索学术会议论文集[C];2010年
中国重要报纸全文数据库 前10条
1 马海兵;网络舆情及其分析技术[N];光明日报;2007年
2 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
3 睢县殷楼小学 轩孝英;充句子教学三步曲[N];学知报;2010年
4 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
5 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
6 ;朗读长句子有益健康[N];卫生与生活报;2008年
7 海门市三星中心小学 刘培;语文教学中如何引导学生质疑[N];成才导报.教育周刊;2007年
8 丁文曦;说话连“嗯”带“啊”,口头语后面的另类道理[N];新华每日电讯;2007年
9 刘共华;金钱使人变自私[N];卫生与生活报;2007年
10 加州圣玛利学院教授 徐贲;诚实的政治,清晰的语言[N];南方周末;2009年
中国博士学位论文全文数据库 前10条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 金锋;文档摘要算法的研究与应用[D];清华大学;2011年
5 耿焕同;范例推理与互联网文本信息处理研究[D];中国科学技术大学;2006年
6 贺瑞芳;时序多文档文摘相关技术研究[D];哈尔滨工业大学;2009年
7 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
8 张友华;面向智能服务的Web内容计算研究与应用[D];中国科学技术大学;2006年
9 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
10 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 余博;基于维基百科的多文档自动摘要系统研究[D];武汉科技大学;2011年
2 商玥;面向概念查询的生物医学多文档摘要技术研究[D];大连理工大学;2011年
3 阿热帕提·尕依提;基于统计的维吾尔网页自动摘要提取研究[D];新疆大学;2011年
4 许旭阳;网络新闻多文档自动摘要技术研究[D];解放军信息工程大学;2011年
5 李阜;基于滑窗取词的单文档自动摘要技术研究[D];国防科学技术大学;2010年
6 章芝青;基于语义的单文档自动摘要研究[D];浙江大学;2010年
7 熊芝;中文网页自动摘要系统的设计与实现[D];华南理工大学;2011年
8 张文静;搜索引擎返回结果的自动摘要研究[D];中国石油大学;2010年
9 鲁凡;基于分形理论的自动摘要[D];吉林大学;2004年
10 王麒;基于领域本体的Web文档自动摘要关键技术研究与实现[D];华东师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026