收藏本站
《华中师范大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的中文单文档自动文摘方法研究

王炜  
【摘要】:自动文摘就是通过编写程序让计算机自动的从原始文档中提取摘要,所提取的摘要必须是全面准确的反映原始文档中心内容并且形式上是简单连贯的短文。基于神经网络的生成式文本摘要一般是通过将原始文档的内容加以“理解”,和抽取式摘要相比,它可以言简意赅的概括文本摘要,语法也很简洁且可读性强。然而在实际应用中,由于技术的限制,现如今一些主流的基于神经网络的生成式文本摘要方法生成的摘要中经常会出现OOV(Out of Vocabulary)问题以及原文中某些重要的语义单元不断地重复于最后的摘要中的问题。造成这种现象的原因主要有:第一,原文中出现次数少但是又极其重要的词、短语等语义单元很难被很好的捕捉到并作为摘要的一部分输出;第二,由于人工神经网络自身的弊端导致生成通顺的语句比较困难。本文以提高中文单文档摘要的生成质量为目的,针对上述自动摘要所面临的问题做了以下两个方面的研究:1.提出了一种融合词抽取的策略来改善一些在原文中极其重要的低频词无法被很好的生成在最后的摘要中。传统的注意力机制只能关注到哪些输入对输出有着更加大的影响,本文的策略通过增加一个词表,该词表在原有语料库的词表的基础上加上所有原文中包含的词但是初始词表中没有包含的词,这样在生成词的时候就可以考虑到原文中低频词的概率分布并生成这些词作为最后的摘要。实验结果表明该策略能在LCSTS以及NLPCC2017两个数据集上相较传统的抽取式方法以及基于基础的端到端的神经网络模型更好地结果。2.提出了一种消重策略来改善摘要中单个词的重复出现的问题。每次生成当前单词的时候都会将前一个生成摘要单词作为输入,所以在解码过程中,会出现注意力过分其中在编码器的某一部分,从而造成了错误,然后就出现无休止的短语重复,基于这个问题,我们加入了新的融合机制,在每次生成词的时候对之前“关注过”的词在这一轮给予一定的“惩罚”,这样就可以避免之前由于生成过的单词在这一轮再次受到较高的“关注度”。实现表明该策略在生成的摘要中能有效地避免重复出现某个重要的单词,使生成的语句可读性更好。
【学位授予单位】:华中师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;TP181

【相似文献】
中国期刊全文数据库 前10条
1 刘凯;王红玲;;基于篇章修辞结构的自动文摘连贯性研究[J];中文信息学报;2019年01期
2 袁龙云;张琳;;基于主题模型与冗余控制的中文多文档自动文摘技术研究[J];现代计算机(专业版);2017年14期
3 倪维健;刘彤;曾庆田;赵华;汤建渝;;基于非平衡数据分类的单文档自动文摘方法[J];计算机工程与科学;2012年04期
4 付茜;;自动文摘综述[J];中国美容医学;2012年16期
5 杨建林;自动文摘的逻辑解释[J];情报理论与实践;2002年02期
6 汤晓鲁;李旎;;手工文摘的评价与自动文摘的产生[J];贵图学刊;1998年02期
7 孙晓腾;李学明;;基于论文关键词和篇章结构的自动文摘抽取方法[J];现代计算机(专业版);2018年13期
8 王海;胡珀;;基于遗传算法的查询导向式自动文摘[J];微计算机信息;2009年28期
9 索红光;梁玉环;刘玉树;;基于时间戳的多文档自动文摘[J];计算机工程;2007年16期
10 刘楚达,孙海涛;一种基于统计的中文自动文摘方法[J];湖南农业大学学报(自然科学版);2001年06期
中国重要会议论文全文数据库 前10条
1 刘茂福;金可佳;姬东鸿;张晓龙;;统计与规则相结合的指代消解在事件自动文摘中的应用[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 王红玲;黄超超;张明慧;周国栋;;面向冗余度控制的中文多文档自动文摘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 卢冶;林鸿飞;赵晶;;中文自动文摘系统的综合评价模式[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 王小磊;张瑾;许洪波;;基于交互增强原理的多文档自动文摘算法[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 李立燕;杨国纬;;中文自动文摘系统研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
6 胡珀;;基于图模型的多文档自动文摘(英文)[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
7 张明慧;王红玲;周国栋;;LDA主题驱动的中文多文档自动文摘方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 王萌;王晓荣;李春贵;唐培和;;基于局部与全局信息的自动文摘算法[A];广西计算机学会2007年年会论文集[C];2007年
9 邵伟;何婷婷;胡珀;肖华松;;一种面向查询的多文档文摘句选择策略[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 万敏;罗振声;郭玉箐;;自动文摘系统中的意义段划分问题研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前1条
1 孙菲;中小企业信息化有了“依靠”[N];中国企业报;2000年
中国博士学位论文全文数据库 前10条
1 刘德喜;基于基本要素的多文档自动文摘研究[D];武汉大学;2007年
2 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
3 李鹏;面向主题的多文档自动文摘关键技术研究[D];上海交通大学;2013年
4 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
5 张琳;基于引用聚类的多文档自动文摘技术研究[D];大连海事大学;2013年
6 杨潇;基于生成性概率模型的句法分析和多文档自动文摘研究[D];山东大学;2009年
7 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
8 赵林;面向查询的多文档自动文摘关键技术研究[D];复旦大学;2008年
9 蒋昌金;基于关键词提取的中文网页自动文摘方法研究[D];华南理工大学;2010年
10 胡珀;融合上下文信息的自动文摘研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前10条
1 万欣;基于自动文摘的辅助文档撰写系统研究与实现[D];北京邮电大学;2019年
2 刘凯;基于篇章结构理论的单文档自动文摘研究[D];苏州大学;2018年
3 任宇;基于观点挖掘主题模型的多文档自动文摘技术研究[D];吉林大学;2018年
4 王炜;基于深度学习的中文单文档自动文摘方法研究[D];华中师范大学;2018年
5 张洪荣;中文自动文摘关键技术研究与实现[D];哈尔滨工业大学;2018年
6 王帆;基于语义聚类的新闻多文档自动文摘[D];华中科技大学;2017年
7 孙晓腾;基于关键词过滤和篇章结构的中文自动文摘研究[D];重庆大学;2018年
8 董雯;基于混合神经网络的单文档自动文摘方法研究[D];浙江理工大学;2019年
9 王攀;中文多文档自动文摘的研究与实现[D];北京邮电大学;2013年
10 亓潇;基于K均值聚类的自动文摘系统研究[D];吉林大学;2012年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026