收藏本站
《国防科学技术大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于话题的多文档文摘技术研究

岳大鹏  
【摘要】:互联网技术的飞速发展,使得现存的文献与知识呈几何式增长。多文档文摘技术能够帮助人们从大量文本中获取重要的信息,同时能有效缩减用户阅读所花费的大量时间和工作量,因而在这个信息爆炸的时代有非常重要的应用价值。目前,新闻报道往往是以专题的形式展开,即以一个事件为引子,把一系列与之相关的或类似的事件报道组织在一起展现在读者面前。这种基于话题的文档组织方式能够清晰地交代一系列新闻事件的前因后果和来龙去脉,方便用户的查询和阅读,因而受到了大家的欢迎和广泛使用。本文研究的是针对这种基于话题的多文档集的文摘技术。 和普通文档集相比,基于话题的文档集有信息重复度高,无关信息少,文档间内容联系紧密等特点。在提取文摘时,如果能充分利用这些在一般文档集上不具备的性质,就可以在基于话题的文档集上得到更优秀的文摘。 本文着眼于基于话题的文档集的话题特性以对普通文摘算法做改进。改进工作主要有两点:区分对待种子事件和非种子事件、文摘句的抽取和组织上充分考虑时间属性。 在实现上,本文以基于话题的新闻报道为处理对象,在MMR(maximal marginal relevance)文摘提取算法的基础和架构上提出和实现了一种基于话题的多文档文摘方法。在从文档集中提取话题的关键字时,本文考虑到种子事件和非种子事件在摘取文摘时所处的地位不同,于是分别处理两种事件。在进行句子的相似度比较时,本文考虑到新闻语料时间性强的特点,对每个句子赋予一定的时间属性,于是能够在时间的量度上计算句子间的相似度。在文摘句的排序上,本文利用句子的时间属性,并针对两种不同的文档组织结构设计了不同的排序方法。 本文利用TDT4的新闻报道语料对上述文摘方法进行了实验评价,将基于话题的文摘系统和两个baseline文摘系统进行比较,取得了较好的实验结果。
【学位授予单位】:国防科学技术大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
2 张姝;赵铁军;郑德权;杨沐昀;;基于浅层分析的多文档自动文摘技术[J];哈尔滨工业大学学报;2007年07期
3 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
4 刘德喜;何炎祥;姬东鸿;杨华;;基于基本要素向量空间的英文多文档自动摘要[J];计算机工程;2007年14期
5 索红光;梁玉环;刘玉树;;基于时间戳的多文档自动文摘[J];计算机工程;2007年16期
6 王军;词表的自动丰富——从元数据中提取关键词及其定位[J];中文信息学报;2005年06期
7 洪宇;张宇;刘挺;李生;;话题检测与跟踪的评测及研究综述[J];中文信息学报;2007年06期
8 徐永东;王亚东;刘杨;王伟;权光日;;多文档文摘中基于时间信息的句子排序策略研究[J];中文信息学报;2009年04期
9 刘挺,王开铸;自动文摘的四种主要方法[J];情报学报;1999年01期
10 刘茂福;李淑君;金可佳;张晓龙;;多文档自动文摘中的特征组合优化[J];计算机系统应用;2008年08期
中国硕士学位论文全文数据库 前1条
1 罗准辰;关键词抽取的研究与实现[D];国防科学技术大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 税仪冬;瞿有利;黄厚宽;;周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J];北京交通大学学报;2009年05期
2 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
3 焦健;瞿有利;;知网的话题更新与跟踪算法研究[J];北京交通大学学报;2009年05期
4 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
5 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
6 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
7 黄水清;李志燕;梁刚;;面向计算机类文献的自动摘要系统的研究与实现[J];图书与情报;2006年03期
8 仲兆满;刘宗田;;基于两级概念格的信息抽取的研究[J];江西师范大学学报(自然科学版);2008年02期
9 鲁明羽;姚晓娜;魏善岭;;基于模糊聚类的网络论坛热点话题挖掘[J];大连海事大学学报;2008年04期
10 金博,滕弘飞,史彦军,王丹虹;机辅写作:样本库中写作材料检索方法[J];大连理工大学学报;2002年05期
中国重要会议论文全文数据库 前10条
1 彭楠赟;王厚峰;凌晨添;;基于层次聚类的网络新闻热点发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 宋丹;林鸿飞;杨志豪;;一种利用链接分析的Web话题跟踪方法[A];第三届学生计算语言学研讨会论文集[C];2006年
6 王灿辉;金奕江;马少平;;基于文档中心内容快速提取的Web监控辅助系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 曾依灵;许洪波;白硕;;改进的OPTICS算法及其在文本聚类中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 刘星星;何婷婷;龚海军;陈龙;;网络热点事件发现系统的设计[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
9 楚克明;李芳;;基于LDA新闻话题的演化[A];第五届全国信息检索学术会议论文集[C];2009年
10 李恒训;张华平;秦鹏;于满泉;刘金刚;;基于主题词的网络热点话题发现[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
2 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
3 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
4 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
5 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
6 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
7 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
8 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
9 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
10 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
中国硕士学位论文全文数据库 前10条
1 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
2 赵慧杰;面向论坛的话题发现、跟踪及传播技术研究[D];哈尔滨工程大学;2010年
3 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
4 秦宏宇;网络舆情热点发现相关技术研究[D];哈尔滨工程大学;2010年
5 耿倩;基于文本相似度计算的文本聚类算法研究与实现[D];哈尔滨工程大学;2010年
6 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
7 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
8 江涛;基于藏文web舆情分析的热点发现算法研究[D];西北民族大学;2010年
9 胡柏;筛选规则智能化生成的研究与设计[D];江苏大学;2010年
10 印文涛;基于星型K部图的网络视频话题挖掘和可视化的研究[D];浙江大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 麻志毅,林鸿飞,姚天顺,马佳琳;基于情境的文本中的时间信息分析[J];东北大学学报;1999年03期
2 刘远超;王晓龙;徐志明;刘秉权;;基于粗集理论的中文关键词短语构成规则挖掘[J];电子学报;2007年02期
3 赵华;赵铁军;张姝;王浩畅;;基于内容分析的话题检测研究[J];哈尔滨工业大学学报;2006年10期
4 徐永东;徐志明;王晓龙;刘远超;;中文文本时间信息获取及语义计算[J];哈尔滨工业大学学报;2007年03期
5 马红妹,王挺,陈火旺;汉语篇章时间短语的分析与时制验算[J];计算机研究与发展;2002年10期
6 郑义,黄萱菁,吴立德;文本自动综述系统的研究与实现[J];计算机研究与发展;2003年11期
7 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
8 于满泉;骆卫华;许洪波;白硕;;话题识别与跟踪中的层次化话题识别技术研究[J];计算机研究与发展;2006年03期
9 万敏,罗振声,季姮,高小云;基于概念统计的英文自动文摘研究[J];计算机工程与应用;2002年24期
10 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
【相似文献】
中国期刊全文数据库 前10条
1 胡明晓;;面向文档集抄袭的快速全文识别算法[J];计算机工程;2010年18期
2 沙莎,罗巍,罗三定;基于重心向量分类算法的概念特征提取方法[J];计算机工程;2005年14期
3 李维勇;;一种基于文档内容的语义标注方法[J];微计算机信息;2011年01期
4 朱颢东;蔡乐才;刘忠英;;一种改进的文本特征选择算法[J];现代电子技术;2008年08期
5 刘畅;罗强;;一种管理XML文档集合的高效方法[J];信息技术;2008年07期
6 王毅,刘云生,钟昊;XSD优化存储与解析[J];计算机工程;2005年19期
7 雷庆,吴扬扬;识别和抽取XM L文档中的关系信息及其出现模式[J];清华大学学报(自然科学版);2005年S1期
8 沈洪良,朱国进;基于Xindice的本体存储查询研究[J];计算机应用研究;2005年12期
9 朱伟彬,朱星,俞勇;一种用于在Peer-to-Peer系统中自动形成社区的元数据[J];上海交通大学学报;2005年S1期
10 李道生;赵强;;基于语景图的主题爬取器的初步设计[J];计算机工程;2006年12期
中国重要会议论文全文数据库 前10条
1 杨建武;陈晓鸥;;XML文档集的聚类研究[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
2 蒋永锴;叶东毅;;基于稀疏非负矩阵分解的自动多文摘方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 李静静;闫宏飞;;中文网页信息检索测试集的构建、分析及应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 胡珀;何婷婷;张勇;;基于网络化数据挖掘策略的中文多文档自动文摘研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
5 李文波;孙乐;;在查询反馈中改善文档聚类效果的策略研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 曹慧;;一种xml文档相似性距离的计算方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
7 韩哲;王宏志;高宏;李建中;骆吉洲;;基于聚簇的XML文档近似连接方法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 杨潇;马军;杨同峰;杜言琦;邵海敏;;基于主题模型LDA的多文档自动摘要[A];第五届全国信息检索学术会议论文集[C];2009年
9 毕文静;沈华伟;刘悦;许洪波;程学旗;;基于企业环境的专家检索研究[A];第五届全国信息检索学术会议论文集[C];2009年
10 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国重要报纸全文数据库 前4条
1 ;实现信息安全与共享的完美结合[N];中国计算机报;2005年
2 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
3 本报记者 周蓉蓉;CA整合存储管理软件[N];计算机世界;2004年
4 钟丽红 薛计泉;惠州局质量管理体系跨入电子化管理阶段[N];中国国门时报;2006年
中国博士学位论文全文数据库 前10条
1 贺瑞芳;时序多文档文摘相关技术研究[D];哈尔滨工业大学;2009年
2 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
3 马海涛;Active XML数据管理基础问题研究[D];哈尔滨工业大学;2009年
4 刘喜平;XML文档搜索中的查询处理技术研究[D];江西财经大学;2010年
5 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
6 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
7 茹昭;企业信息检索中的对象检索方法研究[D];北京邮电大学;2008年
8 王进;基于本体的语义信息检索研究[D];中国科学技术大学;2006年
9 刘波;XML数据智能管理若干关键技术研究[D];中南大学;2008年
10 王桐;XML内容路由关键技术研究[D];哈尔滨工程大学;2006年
中国硕士学位论文全文数据库 前10条
1 岳大鹏;基于话题的多文档文摘技术研究[D];国防科学技术大学;2011年
2 周开朋;湿地保护的本体设计及其文档集的分级排序[D];大连理工大学;2006年
3 汤皖宁;基于文档团的Markov网络检索模型[D];江西师范大学;2013年
4 俞昊旻;文档部分重复检测研究[D];复旦大学;2012年
5 马玉玲;一种新的基于向量空间的XML文档相似性度量方法及搜索技术[D];山东大学;2007年
6 傅珊珊;基于聚类的XML文档集成管理方法研究[D];华侨大学;2008年
7 李芳;面向查询的多模式自动摘要研究[D];华中师范大学;2009年
8 陈征;基于XML数据库的数据挖掘研究[D];华中科技大学;2006年
9 李凯诺;Facet分类方法在知识管理中的应用[D];吉林大学;2008年
10 罗丹;基于密度方法的XML文档聚类研究[D];湖南师范大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026