收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的文本表示与分类方法研究

闫琰  
【摘要】:随着信息技术的广泛应用以及信息化建设的广泛开展,文本信息正爆炸式的增长,如何从众多资源中获取有效的信息成为关注的焦点。对文本内容提取和分类将成为解决文本信息管理问题的关键手段。其中,文本分类的基石是文本表示。传统的文本表示采用计数的表示形式。这种表示方法假设词与词之间是独立的,忽略了文本语义信息;并且在特征选择时引入很多人为的因素,提取到的特征具有高维度和高稀疏的特点,不能有效地表示文本。与此同时,现有文本种类多样、主题丰富给文本分类带来了新的挑战,尤其面对标签分布不均衡样本集时,传统分类方法的泛化能力较差。因此,设计新的基于语义的文本表示和分类算法已成为研究热点。近年来,深度学习通过所特有的层次结构,能够从低(浅)层特征中提取高层特征,很好地解决了这些问题,为提取有效的文本表示与建立高效精准的文本分类模型提供了有力的支持。深度学习技术在图像、语音和自然语言处理等领域都取得了重大进展,展示出了潜在的应用价值。因此,本文开展了基于深度学习模型的文本表示与文本分类相关研究,并取得了如下研究成果:1.基于混合深度信念网络的多类文本表示与分类方法针对普通、规则且多类的分类任务(如新闻文本),传统的Bag-of-words(BOW)表示面临高维度高稀疏的问题。本文基于文本关键字,以关键字的词向量表示作为文本输入,同时结合深度信念网络(Deep Belief Network, DBN)和深度玻尔兹曼机网络(Deep Boltzmann Machine,DBM),设计了一种HDBN(Hybrid Deep Belief Network)模型。文本分类和文本检索的实验结果表明,基于词向量嵌入的深度学习模型在性能上优于传统方法。此外,通过二维空间可视化实验,由HDBN模型提取的高层文本表示具有高内聚低耦合的特点。2.基于卷积神经网络结合深度玻尔兹曼机的多标签摘要文本表示与分类方法针对摘要类型的多标签文本分类任务(生物医学摘要文本),除了每篇文档有多个标签以外,还面临着该领域特殊的挑战:文本只含有题目和摘要信息,同时含有大量的医学生物词和缩写词。对此,本文分别提出了解决方案:首先,提出一种基于序列的文本输入表示方式(Document word SequenceEmbedding,DSE)。DSE用维基百科和命名实体对题目和摘要的文本信息进行扩展特征,并嵌入词向量表示,更好的保留文本上下文语义信息。其次,以扩展后的词向量作为文本输入,本文提出一种基于CNN(Convolutional Neural Network)模型提取文档的局部特征,结合DBM融合全局特征的模型(Boltzmann-Convolutional Neural Network,B-CNN),更好的提取高层文本表示。最后,通过标签聚类以及标签共现的相关关系,本文构建标签层次树,并设计有效的层次网络实现标签树。除此之外,本文还推导了B-CNN模型的误差传递求导公式,使得模型基于整体进行有监督训练和微调。实验结果表明B-CNN模型不仅在生物医学文本上获得好的性能,在其它领域也获得不错的效果。3.基于长短时记忆模型的不均衡多标签全文文本表示与分类方法对比多标签摘要文本分类任务,多标签全文分类任务面临两个新的挑战:(1)没有明显的文本关键词,需要依靠全文的词向量来进行文本表示;(2)样本分布不均衡,严重影响分类效果。本文针对LSTM改进了一种基于序列预测的LSTM2模型。首先,本文以文档单词的词向量序列为文本输入,使用LSTM有效地对全文文本提取文档全局特征。同时,分析文档与标签潜在关系,提取文档局部特征。以文档全局特征和局部特征整体作为高层文本表示,从而有效提高稀疏标签预测的几率。然后,本文使用Parser构建语义标签树,提取包含文档原始标签集的最小子树,并以遍历子树生成的序列作为该文档的新标签(序列)。使用LSTM模型对每个文档的标签(序列)进行学习和预测。实验结果表明LSTM2算法有效解决不均衡多标签全文文本的预测问题。


知网文化
【相似文献】
中国期刊全文数据库 前14条
1 彭佳;;另一种文本中心——回应尤里·洛特曼的文本观[J];符号与传媒;2011年02期
2 王霞;;巧将文本数值变为数字[J];科学24小时;2006年09期
3 孙艳妙;CSS样式在Flash MX 2004中的应用[J];中小学电教;2005年08期
4 尤里·M·洛特曼;彭佳;;文本运动过程——从作者到读者,从作者到文本[J];符号与传媒;2011年02期
5 薛笛;;打造多彩的文本[J];程序员;2006年03期
6 刘全升;姚天昉;黄高辉;刘军;宋鸿彦;;汉语意见型主观性文本类型体系的研究[J];中文信息学报;2008年06期
7 陈立强;;论电视频道自文本导读系统及其功能[J];新闻知识;2008年02期
8 许延祥;罗铁坚;周佳;王竹;;评价文本中意见分布规律研究[J];中文信息学报;2014年03期
9 牛可刚;;在物理课件中让文本滚动起来[J];实验教学与仪器;2005年04期
10 陈立强;张宜迁;;电视导读的多媒介联动现象及其意义[J];中国广播电视学刊;2008年08期
11 阮国龙;;在Authorware中用TTS实现中英文混合朗读[J];中小学信息技术教育;2006年10期
12 曾波;;生物学课件中的文本滚动[J];生物学教学;2009年08期
13 金键;;利用冗余构造思想分析文本信息隐藏技术研究方法[J];福建电脑;2008年06期
14 ;[J];;年期
中国重要会议论文全文数据库 前4条
1 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
2 岳福新;白玫;;浅析英语旅游信息文本的写作与翻译[A];译学辞典与翻译研究——第四届全国翻译学辞典与翻译理论研讨会论文集[C];2007年
3 刘全升;姚天昉;黄高辉;刘军;宋鸿彦;;汉语意见型主观性文本类型体系的研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 程世和;;“《诗》亡然后《春秋》作”——对一个文学缺失时代的文学反题之研究[A];东方丛刊(2004年第4辑 总第五十辑)[C];2004年
中国博士学位论文全文数据库 前8条
1 闫琰;基于深度学习的文本表示与分类方法研究[D];北京科技大学;2016年
2 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
3 陈洁倩;阅读理解的文本类型和答题形式对外语水平的效力[D];上海外国语大学;2006年
4 刘桂兰;论重译的世俗化取向[D];上海外国语大学;2011年
5 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
6 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
7 孟朋;自然语言信息隐藏与检测研究[D];中国科学技术大学;2012年
8 黄永文;中文产品评论挖掘关键技术研究[D];重庆大学;2009年
中国硕士学位论文全文数据库 前10条
1 王爱;《与鲁本·伍尔夫一起战斗》翻译实践报告[D];内蒙古大学;2015年
2 张晓叶;文本类型视角下《2011年经济合作与发展组织对医疗系统的审核:瑞士》的翻译报告[D];华南理工大学;2015年
3 钟超玮;基于区间的文本相似搜索及其在档案清洗中的应用[D];南京大学;2015年
4 张新宇;目的论视角下经济类文本的汉译[D];兰州大学;2015年
5 拓华;等效论指导下生态批评文本的翻译探索[D];兰州大学;2015年
6 薄璐璐;经济史文本汉译技巧研究[D];兰州大学;2015年
7 姚南;从目的论视角看说明书的英汉翻译[D];华中师范大学;2015年
8 赵琴;文本类型理论视角下中国国防白皮书的英译[D];华中师范大学;2015年
9 张琴;文本类型理论视角下的科技论文摘要英译[D];南京理工大学;2015年
10 李丹卉;《当今的生活规划—德国年轻人想要如何生活》节译报告[D];四川外国语大学;2015年
中国重要报纸全文数据库 前8条
1 李承贵;学术视域中的文本[N];社会科学报;2001年
2 山东 王霞;巧将文本数值变数字[N];电子报;2006年
3 江苏 许向前;在课件中让文本滚动起来[N];电脑报;2004年
4 辽宁 鸣涧;为光盘制作漂亮的封套[N];电脑报;2002年
5 ;制作CD封套[N];电脑报;2002年
6 广东 Pcking;FlashMX 2004新功能实战[N];电脑报;2003年
7 王先明 李尹蒂;关于义和团各种记忆文本类型比较[N];团结报;2010年
8 编译 李茂;美国统一课程标准定稿[N];中国教师报;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978