收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向查询的多文档自动文摘关键技术研究

赵林  
【摘要】: 随着互联网的迅速发展和文本信息的日益增多,从大量信息中快速查找和获取有用信息的迫切需求使得自动文摘技术日益重要。自动文摘是指由计算机自动从一篇或多篇文本中概括出主要内容,从而把大量原来需要用户来完成的工作都交给计算机自动完成,节省了用户浏览信息的时间,减轻了用户负担。这个任务涉及到文本理解、文本生成等自然语言处理领域的多个方面,对于计算机具有很大的挑战性。本文正是在这种前提下,对自动文摘技术进行了探索性研究。 本文在面向查询的多文档自动文摘方面以及文摘连贯性的自动评价方面做了深入的研究工作。我们在这两年参加文摘方面的国际评测会议DUC的基础上,研究并实现了多种面向查询的多文档自动文摘技术。 我们采用了最大熵模型来实现基于机器学习的自动文摘系统。为了进一步找出文档句之间以及句子与查询之间的语义关联,我们提出了一种在文摘系统中进行语义扩展的方法,该方法通过WordNet中定义的同义词集以及词与词之间的语义关系,对传统的基于词的句子向量进行语义扩展,从而将语义信息融入到句子中,使得系统性能比起语义扩展前得到了显著提高。 本文还提出了一种基于图排序算法的查询扩展方法,将其结合到面向查询的自动文摘系统中,可以很好的解决原始查询中通常包含信息量不足的问题。该扩展方法在句一句关系以及句一词关系的基础上利用上下文信息对查询进行扩展,能够以较少的噪声获取到更多相关信息。加入了查询扩展后的文摘系统在性能上比扩展前有明显的提高,在DUC标准评测语料上达到了目前的最好结果,充分表明了该查询扩展方法的有效性。 自动文摘研究的另一个主要方面是文摘的评测。当前对文摘的自动评测主要在于考察文摘的内容覆盖率,对文摘语言质量如可读性、连贯性等方面的评测则由人工完成,由于需要消耗大量人力而且缺乏客观性,使得人工评测方法不能普及,所以如何能对文摘的语言质量进行自动评测是一个重要研究问题。本文提出了一种对文摘连贯性的自动评价模型。在文摘连贯性的自动评价上,我们对基于实体的连贯性基本模型从特征和实体选取等方面做了深入研究,通过考虑网格中的邻居以及非相邻句等信息对原有实体转移特征进行了细化;分析了实体选择在模型中的重要性,并且通过潜在语义分析重新建立了实体网格,从而对原有模型进行了改进,在实验中获得了更高的准确率。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 孙春葵,钟义信;关于自动文摘系统中文摘句式的一种机器学习方法[J];计算机工程与应用;2000年05期
2 闫英杰;林鸿飞;王剑峰;;基于混合策略的中文文摘自动评测方法[J];广西师范大学学报(自然科学版);2007年02期
3 王萌;李春贵;唐培和;王晓荣;;一种主题句发现的中文自动文摘研究[J];计算机工程;2007年08期
4 易勇;郑艳;何中市;李良炎;;基于机器学习的古典诗词作者的判别研究[J];心智与计算;2007年03期
5 王斌;;从信息检索到搜索引擎[J];术语标准化与信息技术;2009年04期
6 杨建明;;关系抽取方法研究[J];电子技术;2009年04期
7 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
8 崔长利,李辉,刘桢祥;自动文摘技术的原理与应用[J];信息技术;1999年07期
9 黄长伟;;自动文摘技术研究现状分析[J];中外企业家;2011年14期
10 麦范金;李东普;甘国庆;;基于指代消解的自动文摘方法研究[J];情报理论与实践;2010年10期
11 刘挺,王开铸;基于篇章多级依存结构的自动文摘研究[J];计算机研究与发展;1999年04期
12 杨建林;中文自动文献系统研究[J];情报学报;2001年04期
13 袁占亭,张爱民,张秋余;基于概念的Web信息检索[J];计算机工程与应用;2003年36期
14 陈燕敏,王晓龙,刘远超,楼喜中;一种基于文章主题和内容的自动摘要方法[J];计算机工程与应用;2004年33期
15 徐睿;王惠临;;基于实例学习在浅层句法分析中的应用[J];情报科学;2010年02期
16 王厚峰;;计算语言学歧义消解研究——兼介绍北京大学计算语言学教育部重点实验室[J];术语标准化与信息技术;2010年03期
17 郭燕慧,钟义信,马志勇,姚均勇;自动文摘综述[J];情报学报;2002年05期
18 王建波,杜春玲,王开铸;基于篇章理解的自动文摘研究[J];中文信息学报;1995年03期
19 郭俊文;中文科技文献自动文摘系统的研究[J];情报探索;1995年04期
20 葛加银;黄萱菁;吴立德;;基于实体名的文本自动综述研究[J];计算机科学;2004年09期
中国重要会议论文全文数据库 前10条
1 冯元勇;孙乐;张大鲲;李文波;;基于单字提示特征的中文命名实体识别快速算法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 郭永辉;吴保民;马芳;王炳锡;;基于粗糙集的自然语言基本名词短语识别[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
3 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 郎君;刘挺;李生;张会鹏;;基于XML的开放式语言技术平台:LTP[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郎君;刘挺;张会鹏;李生;;LTP:语言技术平台[A];第三届学生计算语言学研讨会论文集[C];2006年
7 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
8 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
9 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
10 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
2 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
3 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
4 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
5 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
6 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
7 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
8 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
9 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
10 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
中国硕士学位论文全文数据库 前10条
1 樊聪;利用web抽取双语翻译对的研究与实现[D];重庆大学;2007年
2 黄丽琼;中文自动文摘及评价方法的研究[D];重庆大学;2007年
3 张金伟;基于Agent网络答疑系统的设计与实现[D];华东师范大学;2006年
4 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
5 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
6 柴晓丽;自动文摘技术的研究与应用[D];长春理工大学;2007年
7 吴中勤;英文多文档查询型自动文摘研究[D];复旦大学;2008年
8 杨宇娜;基于统计的中文词义消歧技术研究[D];哈尔滨工业大学;2006年
9 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
10 杨勇;基于特征向量的名词短语指代消解研究[D];苏州大学;2008年
中国重要报纸全文数据库 前10条
1 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
2 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
3 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
4 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
5 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
6 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
7 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
8 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
9 记者 何边;网络化激活人工智能[N];计算机世界;2001年
10 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978