收藏本站
《大连理工大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于概念扩充和综合评价的中文自动文摘研究

卢冶  
【摘要】:现代科学实践活动及其成果的迅速增加,极大地提高了文献更新和增长的速度。随着Internet的蓬勃发展,信息检索已成为收集相关资料和评价的必要手段。文摘作为文献内容的缩影,其简洁性、准确性和清晰性使其成为挖掘有用信息的有效方式。传统手工编制的文摘,生成方式效率低,难以满足快速信息检索的需要。而利用计算机和人工智能技术实现的自动文摘,易于信息的检索和再处理,已成为时代要求。 按照处理的文本对象不同,自动文摘可以划分为单文档文摘和多文档文摘。本文首先对自动文摘技术进行了综述,然后针对二者分别做了研究。在实现过程中,根据汉语自身的特点,引入并改造知网的词汇语义资源,以概念扩充和基于文档主题的自动聚类为基础,重点进行了多文档自动文摘研究。最后,通过引入综合评价理论,实现了对生成文摘较为全面的评价。 对于单文档文摘,实现了一种综合式自动文摘方法,并在这个原型系统上着重研究了评价方法。从评测方法的构建、实验语料的选取到评价原则的制定都做了有益的尝试。不仅验证了所采用方法的性能,分析了影响文摘评价质量的因素,而且为多文档文摘的评测打下了基础。 对于多文档文摘,重点研究了以下几个方面内容:语句相似度计算、主题区域发现、新颖度获取和综述的生成。在其最重要技术——语句相似度计算研究中,为了提高查找效率,对知网提供的语义知识词典进行了改造,生成了便于处理的索引表和倒排表;然后使用概念查找算法获取了关键词的概念特征,实现了同义词概念扩充,在一定程度上克服了向量空间模型(VSM)缺乏语义的问题。评测内容包括综述的表达质量、表述内容以及基于QA的信息性评测。 同时,通过分析单文档文摘和多文档文摘的评测结果,发现同一篇文摘在关联性和信息性评测得到较好结果的同时,其可读性和连贯性却并不理想。为此,根据各项评价方法的特点,旨在发挥各自的优势,使用了一种基于综合评价理论的评价方法。评测结果表明本文实现的研究方法是有效可行的。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 王萌;徐超;李春贵;何婷婷;;一种概念同现模型的多文档文摘研究[J];计算机工程与科学;2011年07期
2 龚书;瞿有利;田盛丰;;基于维基语义的多文档文摘研究[J];南京大学学报(自然科学版);2011年04期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前4条
1 秦兵;刘挺;李生;;基于子主题的多文档文摘[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 黄海源;郑德权;赵铁军;;面向特定领域的多文档文摘技术研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
3 马亮;何婷婷;陈劲光;李芳;邵伟;;一种利用关键词提取的面向查询多文档文摘技术[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 姚超;李生;张姝;郑德权;;基于内聚度的多文档文摘句子排序[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国硕士学位论文全文数据库 前7条
1 卢冶;基于概念扩充和综合评价的中文自动文摘研究[D];大连理工大学;2006年
2 姚超;中文多文档文摘关键技术研究[D];哈尔滨工业大学;2007年
3 李艳梅;基于文本相似度的中文文本聚类的研究[D];华北电力大学(北京);2009年
4 岳大鹏;基于话题的多文档文摘技术研究[D];国防科学技术大学;2011年
5 邓光喜;面向主题的Web文档自动文摘生成方法研究[D];苏州大学;2011年
6 郝志新;基于改进的模糊C均值聚类算法的多文档自动文摘[D];哈尔滨工业大学;2009年
7 张永刚;基于统计的多文档关键短语和文摘抽取研究[D];苏州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026