收藏本站
《北京交通大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

抽取式多文档文摘的文本表示研究

龚书  
【摘要】:自动文摘是自然语言处理的一个分支研究领域,本文主要研究其众多分支中最基础、也是一直被关注的基于抽取式的多文档文摘,对多篇文档提取一个由其中核心句子组成的简短文摘。多文档文摘的对象一般是围绕预定话题、经搜集而得的多文档集合。虽然具有预定话题,但由于文档来自不同信息源,数据中常存在以下3个问题,对文本的准确表示造成影响,影响文摘的准确提取: 1.主题不唯一:不同作者对话题阐述的角度不同,多文档集内可能包含除预定义话题以外的其它主题。 2.词义复杂性:因作者用词习惯不统一和语言的丰富性,易混杂各种同义词,内容繁杂时会存在出现于不同主题的多义词。 3.噪音现象:因文档以整篇为单位加入数据集,可能携带无关噪音内容。 为此,本文引入语义分析模型、语义知识库和监督信息来改进多文档文摘的文本表示,以提高文摘系统性能。主要研究成果如下: 1.提出了基于主题表示的多文档文摘方法,处理主题不唯一问题。文档集主题结构训练、句子的主题表示和句子重要度计算是其主要环节,其中: (1)提出背景训练方法训练文档主题结构,解决多文档文摘数据集较小所引起的主题结构训练准确度和稳定性问题。通过将多个文档集与目标文档集混合训练,扩大数据规模,增加词分布信息辅助训练,最后得到“训练集-主题-子主题-单词”的主题结构。实验验证了该方法能提高文摘结果的准确性和稳定度。 (2)根据主题结构,提出句子的主题表示法。我们用句中单词的主题信息构建句子的主题向量,反映句子与主题的相关度。实验验证了这一表示法能准确判断混合后训练集内来自不同文档集的句子所属主题。 (3)根据句子的主题表示,提出了一个多文档文摘方法。基于多文档文摘数据具有预定义话题这一特性,主题与越多句子紧密相关时,该主题越重要,同时与其相关的句子也越重要,越可能成为文摘句。实验结果显示这一多文档文摘方法可获得质量较好的文摘结果。 2.提出了基于维基概念表示的多文档文摘方法,处理词义复杂性问题。概念形式与提取、句子的概念表示和句子特征计算是其主要环节,其中: (1)选择维基概念和自动维基化方法提取概念,使句子概念表示和相应文摘方法建立在较好通用性、易扩展性与长期有效性的基础上。 (2)改进概念权重计算,获得句子的概念表示。通过综合概念在维基百科中的全局信息与在多文档集内的局部信息构建多文档集的概念网络,根据概念的连通性计算概念权重,得到句子的概念向量。实验观察证实了这一方法可提取到较有代表性的概念集合,达到准确表示的效果。 (3)根据句子概念表示和维基百科的概念首段信息,提出一个多文档文摘方法。根据维基百科中概念的首段即为人工生成的概念文摘这一重要文摘信息,提出相应的句子特征,配合常用句子特征计算句子的重要度。实验比较证实了维基概念首段的有效性,以及基于维基概念表示的多文档文摘方法能获取较好的文摘质量。 3.提出了一个基于监督的多文档文摘自动去噪器的学习方法,减少噪音。监督信息获取、特征提取和分类器训练是该方法的主要环节,其中: (1)选择以语义单位为对象,使用标准文摘提取它的类标信息。从以往对标准文摘分析的研究中,我们发现标准文摘中存在一定的原文语义单元。因此,我们根据语义单位是否在标准文摘中出现为监督信息,直观而准确的确定类标。 (2)为不同频率的语义单元设计特征。实验表明有效和噪音语义单元在高、低频区都有可能存在,频率特征不足以将这两类单元区分出来。所以,我们针对高低频、同频、高低频共现语义单元分别设计相应特征。 (3)使用二元分类器实现自动去噪。不同数据集的噪音分布变化较大,因此自动区分有效和噪音语义单元更符合实际的去噪环境和需求。实验表明,根据以上监督信息和特征所学习的自动去噪器,能通用于不同的文本表示和不同文摘算法,提高文摘算法的整体性能。
【学位授予单位】:北京交通大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前1条
1 吴岩,李秀坤,王开铸;HIT-97Ⅰ型英文自动文摘系统[J];情报学报;1998年05期
【共引文献】
中国期刊全文数据库 前3条
1 罗妍,李仲麟;一种基于频谱的电子邮件智能处理分析方法[J];广东自动化与信息工程;1999年03期
2 金博,史彦军,滕弘飞,艾景波;自动文摘技术及应用[J];计算机应用研究;2004年12期
3 龚书;瞿有利;田盛丰;;多文档文摘语义单元自动去噪器的监督学习方法[J];计算机研究与发展;2013年04期
中国硕士学位论文全文数据库 前10条
1 张元虹;基于主题划分的中文单文档自动文摘系统的研究[D];昆明理工大学;2009年
2 阿热帕提·尕依提;基于统计的维吾尔网页自动摘要提取研究[D];新疆大学;2011年
3 高静玉;面向Web的中文自动文摘生成的研究[D];沈阳工业大学;2012年
4 李辉;基于语义关系的摘要提取[D];南京理工大学;2004年
5 徐晓丹;中文Web文档自动摘要系统的研究[D];国防科学技术大学;2005年
6 卢冶;基于概念扩充和综合评价的中文自动文摘研究[D];大连理工大学;2006年
7 张艳;面向高校师生的应用文机辅写作关键技术研究[D];大连理工大学;2006年
8 陈志敏;基于主题划分的Web文档自动摘要研究[D];扬州大学;2006年
9 林一旻;基于不同特征权重的中文网页自动摘要[D];华侨大学;2007年
10 黄丽琼;中文自动文摘及评价方法的研究[D];重庆大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 ;文摘选辑[J];压电与声光;1988年04期
2 肖学成;二次文献工作的主要内容和形式——文摘[J];辽宁体育科技;1994年03期
3 张光耀;文摘编制的标准初探[J];彭城职业大学学报;1998年03期
4 ;精彩文摘[J];微电脑世界;1998年07期
5 ;精彩文摘[J];微电脑世界;1998年48期
6 ;精彩文摘[J];微电脑世界;1999年03期
7 ;精彩文摘[J];微电脑世界;1999年05期
8 ;精彩文摘[J];微电脑世界;2000年33期
9 王成林;注重研究 细化定位 力求创新——我办《大众文摘》第一年[J];报刊之友;2002年01期
10 ;Ei数据库文摘要求[J];西安石油学院学报(自然科学版);2003年06期
中国重要会议论文全文数据库 前10条
1 李久进;塔世根·加帕尔;;科技论文的摘要及其重要性[A];庆祝新疆科技期刊编辑学会成立十周年学术论文专辑[C];1998年
2 ;文摘及信息动态[A];2011中国硅酸盐学会电子玻璃分会论文选编[C];2011年
3 ;读者文摘出版集团大事记[A];中国期刊协会成立十周年论文集[C];2002年
4 刘寄萍;;消化性溃疡护理的新进展文摘[A];全国内科护理学术交流暨专题讲座会议论文汇编[C];2002年
5 何雪玉;蔡碧华;;谈谈影响整体护理深入开展的其它相关因素一文摘要[A];全国护理行政管理学术交流暨专题讲座会议论文汇编[C];2003年
6 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 黄苡萍;;小儿脑瘫康复训练初探一文摘要[A];中国康复医学会第四届会员代表大会暨第三届中国康复医学学术大会论文汇编[C];2001年
8 朱良保;沈文渊;;S变换在面波去噪中的应用[A];中国地球物理学会第二十七届年会论文集[C];2011年
9 赵晓兰;;《读者文摘》的办刊理念与文化主张[A];中国编辑研究(2006)[C];2007年
10 ;管理文摘[A];中国有色金属工业企业管理现代化成果、优秀论文专集[C];2003年
中国重要报纸全文数据库 前10条
1 湖北 李振波;文摘莫要忘导向[N];新闻出版报;2000年
2 介挺;《海外文摘》频频“触电”[N];中国新闻出版报;2002年
3 记者 陈香;增设中下旬刊《海外文摘》“变脸”[N];中华读书报;2009年
4 苗英健 中国国家图书馆典阅部;中国最早的文摘性刊物——《集成报》[N];中国社会科学报;2010年
5 本报记者 晋雅芬;一本老刊衰弱还能告诉我们啥[N];中国新闻出版报;2009年
6 慕军 首都师范大学;治文摘通病应从题目下手[N];中国社会科学报;2010年
7 记者魏晓薇;《少年文摘》跨越国界风行新加坡[N];中国新闻出版报;2010年
8 文志传;必须保护文摘作品的著作权[N];中华新闻报;2003年
9 ;八成读者对《文摘周刊》改版满意[N];云南日报;2004年
10 黄晴;“旗舰”的困境[N];人民日报;2009年
中国博士学位论文全文数据库 前10条
1 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年
2 单建芳;面向事件的文本表示研究[D];上海大学;2012年
3 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
4 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
5 贺瑞芳;时序多文档文摘相关技术研究[D];哈尔滨工业大学;2009年
6 唐刚;基于压缩感知和稀疏表示的地震数据重建与去噪[D];清华大学;2010年
7 唐权华;视频时空联合模型与去噪研究[D];西南交通大学;2010年
8 何艳敏;稀疏表示在图像压缩和去噪中的应用研究[D];电子科技大学;2011年
9 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
10 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 彭俊杰;中文短文本表示及分类的研究与实现[D];河南大学;2012年
2 范桂群;论坛用户行为分析及文本表示模型研究[D];北京邮电大学;2012年
3 刘祝华;图像去噪方法的研究[D];江西师范大学;2005年
4 薛念;基于Curvelet变换的地震数据插值和去噪[D];西南交通大学;2010年
5 文莉;小波变换在去噪及结构动态特性分析中的应用研究[D];合肥工业大学;2002年
6 贾金伟;小波包去噪在循环平稳信号DOA估计中的应用研究[D];吉林大学;2010年
7 薛雷;变压器局部放电监测中去噪技术与放电特征提取的研究[D];东北电力大学;2011年
8 姜海琳;基于NLM和Tone Mapping的低亮度视频去噪、增强[D];天津大学;2010年
9 郭晓云;视频编码实时预处理算法研究[D];武汉大学;2005年
10 屈天祥;图像多尺度变换下的去噪方法研究[D];辽宁师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026