收藏本站
《解放军信息工程大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

网络新闻多文档自动摘要技术研究

许旭阳  
【摘要】:互联网的日益普及和计算机技术的不断发展给人们获取信息带来了极大的便利,但是面对海量的网络数据环境,如何获取感兴趣、有用的知识仍然是一个亟待解决的问题。在众多的研究方法中,多文档自动摘要被视为解决上述问题的有效工具之一,它是利用计算机将同一话题下的多个文档描述的主要内容通过信息压缩技术提炼为一个短文的自然语言处理技术,在军事和民用方面都具有极其重要的实用意义。本文主要研究网络新闻多文档自动摘要技术,首先从网络新闻话题中抽取相关的事件,然后采用不同的技术组织事件,最终生成摘要。论文的研究成果如下: (1)研究了时间表达式识别技术,提出一种基于条件随机场与自定义规则的时间表达式识别方法。该方法针对传统时间识别方法单一、应用领域局限等缺点,采用条件随机场对时间表达式进行初步识别;然后自定义规则对错识别和漏识别的时间表达式进行修正。实验结果表明,该方法有效提高了时间表达式识别的准确率和召回率,为时间表达式的识别建立了一种弹性的分析模型。 (2)研究了事件抽取技术,提出一种基于事件实例驱动的新闻文本事件抽取方法。该方法针对事件触发词或事件元素驱动的事件抽取方法存在的正反例不平衡和数据稀疏问题,采用事件实例进行驱动;然后引入聚类的思想完成新闻文本集中事件的有效抽取,突破了传统方法对事件类别限制的局限性。实验结果表明,该方法显著提高了新闻文本集中事件抽取的性能,是一种有效的事件抽取方法。 (3)研究了多文档自动摘要技术,提出一种基于事件抽取的多文档自动摘要方法。该方法针对目前以段落或句子聚类的摘要方法存在的冗余问题,采用事件抽取技术将原始文档转化为以事件为单位的内容逻辑划分;然后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法所生成的摘要更贴近人的理解,从而有效地帮助用户及时、准确、便捷地获取事件的来龙去脉。
【学位授予单位】:解放军信息工程大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 谷列先;丁晓青;;基于人物关系分析的视频自动摘要算法[J];高技术通讯;2010年09期
2 徐晓丹;;基于半监督学习的中文多文档子主题划分[J];浙江师范大学学报(自然科学版);2011年03期
3 黄长伟;;自动文摘技术研究现状分析[J];中外企业家;2011年14期
4 滕奇志;唐棠;李征骥;何小海;;基于粒子群优化的岩石薄片三维图像重建[J];电子与信息学报;2011年08期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 章彦星;张铭;邓志鸿;;基于特征的用户评论自动摘要[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
2 李芳;何婷婷;;面向查询的多模式自动摘要研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
3 苗家;马军;陈竹敏;;一种基于HITS算法的blog文摘方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 游世辉;李雪芹;陈子娟;万小平;;结构可靠性分析的随机无网格法与蚂蚁算法[A];庆祝中国力学学会成立50周年暨中国力学学会学术大会’2007论文摘要集(下)[C];2007年
5 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 邵久书;;量子耗散动力学随机场方法[A];第九届全国化学动力学会议论文摘要集[C];2005年
7 金郭赟;朱秀昌;;多幅连续CCD图像间关系模型的研究[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
8 杨绿峰;刘萍;刘颖;唐冲;;大变异随机结构数值分析理论及其比较研究[A];随机振动理论与应用新进展——第六届全国随机振动理论与应用学术会议论文摘要集[C];2008年
9 刘春华;秦权;;虎门大桥静力问题的随机有限元分析[A];中国土木工程学会桥梁及结构工程学会第十二届年会论文集(下册)[C];1996年
10 范么清;楼梦麟;;非线性单自由度复合随机振动系统的反应特性[A];第16届全国结构工程学术会议论文集(第Ⅲ册)[C];2007年
中国重要报纸全文数据库 前8条
1 马海兵;网络舆情及其分析技术[N];光明日报;2007年
2 谢国宁 谢敬爱;天津临空产业等待起飞[N];中国现代企业报;2006年
3 海量智能计算技术研究中心 霍刚;新兴技术为互联网加速[N];计算机世界;2007年
4 ;杨元元还在飞的民航局长[N];市场报;2006年
5 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
6 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
7 ;线点科技:轻松管理互联网[N];中国计算机报;2009年
8 ;谷尼国际:精确监控网络舆情[N];中国计算机报;2009年
中国博士学位论文全文数据库 前10条
1 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
2 刘春原;基于GIS系统的岩土参数随机场特性研究[D];天津大学;2003年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 杨卫国;关于强极限定理的若干研究及应用[D];上海交通大学;2007年
5 陈振龙;独立增量随机场的分形性质[D];西安电子科技大学;2004年
6 苏项庭;基于粘结裂缝模型的非均匀准脆性材料断裂模拟研究[D];浙江大学;2011年
7 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
8 莫文辉;线性振动的随机有限元研究[D];华中科技大学;2009年
9 吴长富;杭州地区土性概率特征及单桩承载力可靠度研究[D];浙江大学;2005年
10 赵红亮;基于集合卡尔曼滤波数据同化方法的岩土力学参数时空变异性研究[D];中国科学院研究生院(武汉岩土力学研究所);2006年
中国硕士学位论文全文数据库 前10条
1 许旭阳;网络新闻多文档自动摘要技术研究[D];解放军信息工程大学;2011年
2 张华;算子标度随机场[D];暨南大学;2010年
3 李阜;基于滑窗取词的单文档自动摘要技术研究[D];国防科学技术大学;2010年
4 阿热帕提·尕依提;基于统计的维吾尔网页自动摘要提取研究[D];新疆大学;2011年
5 余博;基于维基百科的多文档自动摘要系统研究[D];武汉科技大学;2011年
6 商玥;面向概念查询的生物医学多文档摘要技术研究[D];大连理工大学;2011年
7 章芝青;基于语义的单文档自动摘要研究[D];浙江大学;2010年
8 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
9 陈天缘;线性链条件随机场训练算法优化的研究[D];复旦大学;2010年
10 张文静;搜索引擎返回结果的自动摘要研究[D];中国石油大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026