收藏本站
《大连理工大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于概念扩充和综合评价的中文自动文摘研究

卢冶  
【摘要】:现代科学实践活动及其成果的迅速增加,极大地提高了文献更新和增长的速度。随着Internet的蓬勃发展,信息检索已成为收集相关资料和评价的必要手段。文摘作为文献内容的缩影,其简洁性、准确性和清晰性使其成为挖掘有用信息的有效方式。传统手工编制的文摘,生成方式效率低,难以满足快速信息检索的需要。而利用计算机和人工智能技术实现的自动文摘,易于信息的检索和再处理,已成为时代要求。 按照处理的文本对象不同,自动文摘可以划分为单文档文摘和多文档文摘。本文首先对自动文摘技术进行了综述,然后针对二者分别做了研究。在实现过程中,根据汉语自身的特点,引入并改造知网的词汇语义资源,以概念扩充和基于文档主题的自动聚类为基础,重点进行了多文档自动文摘研究。最后,通过引入综合评价理论,实现了对生成文摘较为全面的评价。 对于单文档文摘,实现了一种综合式自动文摘方法,并在这个原型系统上着重研究了评价方法。从评测方法的构建、实验语料的选取到评价原则的制定都做了有益的尝试。不仅验证了所采用方法的性能,分析了影响文摘评价质量的因素,而且为多文档文摘的评测打下了基础。 对于多文档文摘,重点研究了以下几个方面内容:语句相似度计算、主题区域发现、新颖度获取和综述的生成。在其最重要技术——语句相似度计算研究中,为了提高查找效率,对知网提供的语义知识词典进行了改造,生成了便于处理的索引表和倒排表;然后使用概念查找算法获取了关键词的概念特征,实现了同义词概念扩充,在一定程度上克服了向量空间模型(VSM)缺乏语义的问题。评测内容包括综述的表达质量、表述内容以及基于QA的信息性评测。 同时,通过分析单文档文摘和多文档文摘的评测结果,发现同一篇文摘在关联性和信息性评测得到较好结果的同时,其可读性和连贯性却并不理想。为此,根据各项评价方法的特点,旨在发挥各自的优势,使用了一种基于综合评价理论的评价方法。评测结果表明本文实现的研究方法是有效可行的。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

【引证文献】
中国期刊全文数据库 前1条
1 闫英杰;林鸿飞;王剑峰;;基于混合策略的中文文摘自动评测方法[J];广西师范大学学报(自然科学版);2007年02期
中国硕士学位论文全文数据库 前1条
1 闫英杰;偏重摘要技术及其应用研究[D];大连理工大学;2007年
【参考文献】
中国期刊全文数据库 前10条
1 董振东,董强;知网和汉语研究[J];当代语言学;2001年01期
2 林鸿飞,高仁璟;基于潜在语义索引的文本摘要方法[J];大连理工大学学报;2001年06期
3 王开铸,吴岩,刘挺;基于理解的自动文摘系统设计[J];电脑学习;1996年02期
4 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
5 郑义,黄萱菁,吴立德;文本自动综述系统的研究与实现[J];计算机研究与发展;2003年11期
6 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
7 崔桓,蔡东风,苗雪雷;基于网络的中文问答系统及信息抽取算法研究[J];中文信息学报;2004年03期
8 王萌,何婷婷,姬东鸿,王晓荣;基于HowNet概念获取的中文自动文摘系统[J];中文信息学报;2005年03期
9 姜贤塔,陈根才;利用语料库技术的中文自动文摘系统[J];中文信息学报;1999年02期
10 秦兵,刘挺,李生;基于局部主题判定与抽取的多文档文摘技术[J];自动化学报;2004年06期
【共引文献】
中国期刊全文数据库 前10条
1 龚书;瞿有利;田盛丰;;基于语义的自动文摘研究综述[J];北京交通大学学报;2009年05期
2 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
3 吴娜炯;;格语法在主观题自动阅卷中的应用[J];办公自动化;2010年08期
4 刘文华;康海燕;;领域问答系统生成器的研究[J];北京信息科技大学学报(自然科学版);2009年03期
5 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
6 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
7 赵欣欣;索红光;刘玉树;张利萍;;基于带权语义距离的网页预取方法[J];北京理工大学学报;2006年08期
8 耿增民;刘万春;朱玉文;;受限领域的自动文摘方法研究[J];北京理工大学学报;2006年08期
9 陈康;樊孝忠;刘杰;贾可亮;;基于问句语义表征的中文问句相似度计算方法[J];北京理工大学学报;2007年12期
10 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
中国重要会议论文全文数据库 前10条
1 哈斯那顺乌日图;;蒙古文WordNet名词同义词集合构建算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 徐文堪;;信息革命时代的语言理论和词典编纂[A];中国辞书论集2000[C];2000年
3 王惠;苏新春;;XHK基于语法知识的汉语词义描述[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
6 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
7 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
8 陈慧清;林世平;;基于知网和模式自举的概念间分类关系获取方法[A];2009通信理论与技术新发展——第十四届全国青年通信学术会议论文集[C];2009年
9 李月雷;师瑞峰;林丽冰;周一民;;汉语语句语义相似度的计算方法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
10 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
2 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
3 杨峰;本体映射关键技术研究[D];吉林大学;2011年
4 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
5 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
6 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
7 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
8 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
9 郭鸿志;多源语义知识库融合方法研究[D];哈尔滨工业大学;2011年
10 王迈;语言形式化原理[D];上海外国语大学;2011年
中国硕士学位论文全文数据库 前10条
1 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
2 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
3 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
4 王森;基于主题树的自上而下文本复制检测研究[D];大连理工大学;2010年
5 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
6 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
7 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
8 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
9 吴世汉;面向查询的XML文本摘要技术[D];江西财经大学;2010年
10 孙萍;面向事件的多文档自动文摘研究[D];江苏大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王开铸,吴岩,刘挺;基于理解的自动文摘系统设计[J];电脑学习;1996年02期
2 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
3 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
4 郑义,黄萱菁,吴立德;文本自动综述系统的研究与实现[J];计算机研究与发展;2003年11期
5 李素建;基于语义计算的语句相关度研究[J];计算机工程与应用;2002年07期
6 傅间莲;陈群秀;;一种新的自动文摘系统评价方法[J];计算机工程与应用;2006年18期
7 葛加银;黄萱菁;吴立德;;基于实体名的文本自动综述研究[J];计算机科学;2004年09期
8 李彬,刘挺,秦兵,李生;基于语义依存的汉语句子相似度计算[J];计算机应用研究;2003年12期
9 王文欣,黄萱菁,吴立德;基于统计方法的汉语自动文摘系统研究[J];计算机应用与软件;2000年09期
10 吴岩,刘挺,李秀坤,王开铸;语句级音调规律的研究与实现[J];中文信息学报;1997年01期
中国重要会议论文全文数据库 前1条
1 赵妍妍;秦兵;刘挺;张俐;苏中;;基于多特征融合的句子相似度计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国硕士学位论文全文数据库 前1条
1 马长林;中文自动文摘技术若干问题的研究[D];华中师范大学;2002年
【二级引证文献】
中国博士学位论文全文数据库 前1条
1 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
中国硕士学位论文全文数据库 前2条
1 王伟;搜索引擎智能化技术中若干关键问题的研究与实现[D];河北科技大学;2011年
2 张静静;基于知网文本相似度的文摘自动评测方法研究[D];中国石油大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 吕学强,任飞亮,黄志丹,姚天顺;句子相似模型和最相似句子查找算法[J];东北大学学报;2003年06期
2 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
3 陈桂林,王永成;Internet网络信息自动摘要的研究[J];高技术通讯;1999年02期
4 姜贤塔,陈根才;利用字频统计及机器学习的自动文摘方法[J];杭州大学学报(自然科学版);1997年03期
5 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
6 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
7 孙春葵,李蕾,杨晓兰,钟义信;基于知识的文本摘要系统研究与实现[J];计算机研究与发展;2000年07期
8 万敏,罗振声,季姮,高小云;基于概念统计的英文自动文摘研究[J];计算机工程与应用;2002年24期
9 董振东;机器翻译中词典和文法的关系[J];中文信息学报;1988年03期
10 郑实福,刘挺,秦兵,李生;自动问答综述[J];中文信息学报;2002年06期
【相似文献】
中国期刊全文数据库 前10条
1 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
2 胡舜耕,刘晓宇,钟义信;基于多Agent技术的自动文摘系统的研究和设计[J];电子学报;2001年02期
3 沈洲,王永成,许一震,方澈;自动文摘系统评价方法的研究与实践[J];情报学报;2001年01期
4 郭燕慧,钟义信,马志勇,姚均勇;自动文摘综述[J];情报学报;2002年05期
5 高小云,程慕胜;基于英文文本的自动文摘:技术与展望[J];清华大学教育研究;2002年S1期
6 沈玮杰;基于文献结构的自动文摘的初探[J];现代图书情报技术;2002年03期
7 金旭,杨炳儒,菅志刚;自动文摘方法分析[J];计算机应用研究;2004年09期
8 黄钢石;陆建江;张亚非;;文本信息处理中的自动文摘方法研究[J];军事通信技术;2004年01期
9 胡珀;何婷婷;姬东鸿;;基于主题区域发现的中文自动文摘研究[J];计算机科学;2005年01期
10 黄丽琼;何中市;;基于统计语义和结构特征的自动文摘[J];广西师范大学学报(自然科学版);2006年04期
中国重要会议论文全文数据库 前10条
1 桂卓民;何婷婷;陈劲光;李芳;;一种面向查询的多文档自动文摘系统实现方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 耿崇;宋丹;薛德军;张灿;;基于词位置与同现特征的中文自动文摘研究[A];第五届全国信息检索学术会议论文集[C];2009年
4 刘海涛;老松杨;吴玲达;;基于段落自适应聚类的自动文摘系统研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 李成城;;基于修辞结构理论的自动文摘研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 吕静;昝红英;;基于语义统计的中文自动文摘研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 卢冶;林鸿飞;赵晶;;中文自动文摘系统的综合评价模式[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 王小磊;张瑾;许洪波;;基于交互增强原理的多文档自动文摘算法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国重要报纸全文数据库 前1条
1 教育部语言文字应用研究所副所长 靳光瑾 中国社会科学院语言文字应用系研究生 易江燕;话题发现技术:决策参考的“探测器”[N];中国社会科学报;2014年
中国博士学位论文全文数据库 前9条
1 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
2 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年
3 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
4 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
5 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
6 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
7 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
8 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
9 郑义;多媒体信息自动摘要及其相关技术研究[D];复旦大学;2003年
中国硕士学位论文全文数据库 前10条
1 朱荷香;中文自动文摘系统的研究与实现[D];南京师范大学;2008年
2 石子言;用户驱动的特定领域自动文摘系统设计与实现[D];东北师范大学;2009年
3 孟庆富;生物医学多文档自动文摘系统设计与实现[D];哈尔滨工业大学;2010年
4 马长林;中文自动文摘技术若干问题的研究[D];华中师范大学;2002年
5 胡珀;基于自适应聚类的中文自动文摘研究[D];华中师范大学;2005年
6 柴晓丽;自动文摘技术的研究与应用[D];长春理工大学;2007年
7 叶星火;基于特征信息提取的中文自动文摘研究[D];华中师范大学;2007年
8 黄丽琼;中文自动文摘及评价方法的研究[D];重庆大学;2007年
9 高超;一种基于综合背景概念格的中文自动文摘方法[D];中南大学;2011年
10 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026