收藏本站
收藏 | 论文排版

基于概念扩充和综合评价的中文自动文摘研究

卢冶  
【摘要】:现代科学实践活动及其成果的迅速增加,极大地提高了文献更新和增长的速度。随着Internet的蓬勃发展,信息检索已成为收集相关资料和评价的必要手段。文摘作为文献内容的缩影,其简洁性、准确性和清晰性使其成为挖掘有用信息的有效方式。传统手工编制的文摘,生成方式效率低,难以满足快速信息检索的需要。而利用计算机和人工智能技术实现的自动文摘,易于信息的检索和再处理,已成为时代要求。 按照处理的文本对象不同,自动文摘可以划分为单文档文摘和多文档文摘。本文首先对自动文摘技术进行了综述,然后针对二者分别做了研究。在实现过程中,根据汉语自身的特点,引入并改造知网的词汇语义资源,以概念扩充和基于文档主题的自动聚类为基础,重点进行了多文档自动文摘研究。最后,通过引入综合评价理论,实现了对生成文摘较为全面的评价。 对于单文档文摘,实现了一种综合式自动文摘方法,并在这个原型系统上着重研究了评价方法。从评测方法的构建、实验语料的选取到评价原则的制定都做了有益的尝试。不仅验证了所采用方法的性能,分析了影响文摘评价质量的因素,而且为多文档文摘的评测打下了基础。 对于多文档文摘,重点研究了以下几个方面内容:语句相似度计算、主题区域发现、新颖度获取和综述的生成。在其最重要技术——语句相似度计算研究中,为了提高查找效率,对知网提供的语义知识词典进行了改造,生成了便于处理的索引表和倒排表;然后使用概念查找算法获取了关键词的概念特征,实现了同义词概念扩充,在一定程度上克服了向量空间模型(VSM)缺乏语义的问题。评测内容包括综述的表达质量、表述内容以及基于QA的信息性评测。 同时,通过分析单文档文摘和多文档文摘的评测结果,发现同一篇文摘在关联性和信息性评测得到较好结果的同时,其可读性和连贯性却并不理想。为此,根据各项评价方法的特点,旨在发挥各自的优势,使用了一种基于综合评价理论的评价方法。评测结果表明本文实现的研究方法是有效可行的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
2 胡舜耕,刘晓宇,钟义信;基于多Agent技术的自动文摘系统的研究和设计[J];电子学报;2001年02期
3 沈洲,王永成,许一震,方澈;自动文摘系统评价方法的研究与实践[J];情报学报;2001年01期
4 郭燕慧,钟义信,马志勇,姚均勇;自动文摘综述[J];情报学报;2002年05期
5 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
6 沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期
7 金旭,杨炳儒,菅志刚;自动文摘方法分析[J];计算机应用研究;2004年09期
8 黄钢石;陆建江;张亚非;;文本信息处理中的自动文摘方法研究[J];军事通信技术;2004年01期
9 胡珀;何婷婷;姬东鸿;;基于主题区域发现的中文自动文摘研究[J];计算机科学;2005年01期
10 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
11 任纪生;张弛;王作英;;一种基于词序信息的自动文摘方法[J];计算机工程与设计;2007年01期
12 贾果;;基于篇章结构的自动文摘方法研究[J];计算机与数字工程;2007年06期
13 石子言;吴庆;;基于篇章消解算法的特定领域自动文摘系统的研究[J];中国商界(下半月);2008年11期
14 徐超;王萌;何婷婷;张勇;;基于局部主题关键句抽取的自动文摘方法[J];计算机工程;2008年22期
15 张瑾;王小磊;许洪波;;自动文摘评价方法综述[J];中文信息学报;2008年03期
16 罗洋;;自动文摘抽取的研究[J];科技信息;2009年01期
17 罗洋;;基于综合的自动文摘方法研究[J];牡丹江师范学院学报(自然科学版);2009年03期
18 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
19 陈英芝;;基于语义的中文自动文摘方法[J];科技信息;2009年30期
20 赵俊杰;汪丽;王平水;;基于自动文摘的论文抄袭检测研究(英文)[J];电脑与电信;2010年02期
中国重要会议论文全文数据库 前10条
1 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 耿崇;宋丹;薛德军;张灿;;基于词位置与同现特征的中文自动文摘研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 刘海涛;老松杨;吴玲达;;基于段落自适应聚类的自动文摘系统研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 吕静;昝红英;;基于语义统计的中文自动文摘研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 卢冶;林鸿飞;赵晶;;中文自动文摘系统的综合评价模式[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 王小磊;张瑾;许洪波;;基于交互增强原理的多文档自动文摘算法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前9条
1 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
2 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年
3 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
4 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
5 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
6 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
7 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
8 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
9 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 朱荷香;中文自动文摘系统的研究与实现[D];南京师范大学;2008年
2 石子言;用户驱动的特定领域自动文摘系统设计与实现[D];东北师范大学;2009年
3 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
4 马长林;中文自动文摘技术若干问题的研究[D];华中师范大学;2002年
5 胡珀;基于自适应聚类的中文自动文摘研究[D];华中师范大学;2005年
6 柴晓丽;自动文摘技术的研究与应用[D];长春理工大学;2007年
7 叶星火;基于特征信息提取的中文自动文摘研究[D];华中师范大学;2007年
8 黄丽琼;中文自动文摘及评价方法的研究[D];重庆大学;2007年
9 高超;一种基于综合背景概念格的中文自动文摘方法[D];中南大学;2011年
10 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
中国重要报纸全文数据库 前1条
1 教育部语言文字应用研究所副所长 靳光瑾 中国社会科学院语言文字应用系研究生 易江燕;话题发现技术:决策参考的“探测器”[N];中国社会科学报;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978