收藏本站
《东北师范大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于多词向量集成和神经网络的文本分类方法研究

彭杨  
【摘要】:文本分类(Text Classification)是文本挖掘和自然语言处理中的一个重要的研究领域,旨在将文本归到预先定义的一个或多个类别中,许多不同的应用最终都可以转化为分类问题。传统的文本分类方法主要关注两个问题:特征表示和分类器选择。传统的文本特征表示方法通常基于词袋子模型(bag-of-word),该模型会出现数据稀疏、词序丢失等问题。传统的分类器往往也存在通用性差,调参困难等问题。近年来,基于神经网络的深度学习技术为文本分类带来了新的思路,本文在文本分类方法的国内外研究现状的基础上,提出了一个基于多词向量集成和神经网络的文本分类方法,本文的主要工作如下:第一,基于神经网络的文本分类相关技术理论研究。本文介绍了文本分类相关研究现状,重点介绍了基于神经网络的文本分类相关技术,并详细阐述了其理论基础。本文对比了传统文本分类和神经网络文本分类之间的差别,然后总结了用于文本分类的相关神经网络结构,最后介绍了各种词向量表示技术。第二、提出一种新的基于多词向量集成的神经网络文本分类模型。该模型可以集成多种词向量,并利用它们所包含的丰富词义信息来生成高质量的文本表示,最终促进文本分类的准确率。模型包含输入、文本表示向量生成、文本表示向量修正和分类四个模块。模型使用多种词向量初始化输入层,不再依赖传统的文本特征表示方法,避免了数据稀疏问题。同时,通过特定的网络结构(如卷积),模型还能有效地建模文本的词序和上下文信息。为了更合理地集成各种词向量,模型通过自适应修正策略来修正各词向量生成的文本表示向量,确保最终生成的文本表示能准确表达原文本的意思,提高分类的准确率。多个中英文分类数据集上的实验结果表明,该模型能取得良好的分类效果,优于多个基准模型。第三、文本表示向量自适应修正策略的设计与实现。由于训练模型和语料的不同,不同版本的词向量能够建模词不同方面的语义信息,这使得不同词向量对某一特定分类任务的贡献是不同的。因此,有必要对各词向量加以区分,调整它们对最终文本表示的影响。本文提出了基于Highway网络和基于注意力的两种文本表示向量修正策略。修正策略使模型具备了区分能力,重要词向量将会更多的影响最终的文本表示,而不重要的词向量的影响力将被弱化,从而避免其对分类产生负面影响。实验结果表明,两种修正策略都能有效的提高模型的分类准确率。
【学位授予单位】:东北师范大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1;TP183

【参考文献】
中国期刊全文数据库 前2条
1 姚全珠;宋志理;彭程;;基于LDA模型的文本分类研究[J];计算机工程与应用;2011年13期
2 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
中国博士学位论文全文数据库 前1条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 李湘东;阮涛;;内容相近类目实现自动分类时相关分类技术的比较研究——以《中图法》E271和E712.51为例[J];图书馆杂志;2018年06期
2 史琬莹;;朴素贝叶斯方法在文本分类中的运用[J];电子技术与软件工程;2018年11期
3 刘婧;姜文波;邵野;;基于机器学习的文本分类技术研究进展[J];电脑迷;2018年06期
4 曾立;王文佳;;专利技术筛选的大数据技术——在2018年知识产权南湖论坛上的主题发言[J];专利代理;2018年02期
5 吴闯;黄桂敏;李会娟;;基于SLDA的英语短文观点分析模型[J];桂林电子科技大学学报;2018年02期
6 齐国顺;尚方;韩冰;王孝余;;电子公文分级助手的研制和应用[J];电力信息与通信技术;2018年04期
7 刘浏;王东波;;基于论文自动分类的社科类学科跨学科性研究[J];数据分析与知识发现;2018年03期
8 胡朝举;徐永峰;;基于LDA特征扩展的短文本分类方法研究[J];软件导刊;2018年03期
9 薛炜明;侯霞;李宁;;一种基于word2vec的文本分类方法[J];北京信息科技大学学报(自然科学版);2018年01期
10 刘明皓;尚尉;张奇瑞;韩凤萍;;GA-logistic回归参数优化与城市用地动态变化模拟——以成渝经济带为例[J];地理与地理信息科学;2018年01期
中国博士学位论文全文数据库 前10条
1 陈小威;光电系统选址中的关键大气光学参数测量与分析[D];中国科学技术大学;2018年
2 贾隆嘉;文本分类中特征加权算法和文本表示策略研究[D];东北师范大学;2016年
3 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
6 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
7 梅健;基于Web服务组合的文本分类PSE问题研究[D];上海大学;2008年
8 王树梅;信息检索相关技术研究[D];南京理工大学;2007年
9 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
10 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
【二级参考文献】
中国期刊全文数据库 前5条
1 伍建军;康耀红;;文本分类中特征降维方式的研究[J];海南大学学报(自然科学版);2007年01期
2 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
3 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
4 王建会,王洪伟,申展,胡运发;一种实用高效的文本分类算法[J];计算机研究与发展;2005年01期
5 陈毅松,汪国平,董士海;基于支持向量机的渐进直推式分类学习算法[J];软件学报;2003年03期
【相似文献】
中国期刊全文数据库 前10条
1 包翔;刘桂锋;杨国立;;基于多示例学习框架的专利文本分类方法研究[J];情报理论与实践;年期
2 胡学钢;杨超群;张玉红;;基于自身特征扩展的短文本分类方法[J];计算机应用研究;2017年04期
3 袁乖宁;冯永;;利用类-项权重和类-项密度的文本分类方法[J];计算机工程与设计;2017年08期
4 赫芳;王洋;;网络的简监督文本分类方法[J];计算机与网络;2012年17期
5 陈祎荻;秦玉平;;基于机器学习的文本分类方法综述[J];渤海大学学报(自然科学版);2010年02期
6 张玉芳;谢娟;熊忠阳;;一种结合云模型的文本分类方法[J];计算机工程与应用;2014年15期
7 仲兆满;李存华;;基于重要事件的文本分类方法研究[J];微电子学与计算机;2012年03期
8 台德艺;谢飞;胡学钢;;新的基于簇划分文本分类方法[J];计算机工程与设计;2009年06期
9 陈林;杨丹;;独立于语种的文本分类方法[J];计算机工程与科学;2008年06期
10 崔彩霞;王素格;;基于粗集的支持向量机文本分类方法研究[J];科技广场;2006年08期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
3 李月伦;李湘;常宝宝;袁毓林;;一种基于认知情景框架的文本分类方法[A];第五届全国青年计算语言学研讨会论文集[C];2010年
4 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
5 姚天昉;彭思崴;;汉语主客观文本分类方法的研究[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 卢娇丽;郑家恒;;基于粗糙集的文本分类方法研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 李军辉;朱巧明;李培峰;;一个基于最大熵模型的文本分类方法[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 宋鑫颖;周志逵;;一种基于SVM的主动学习文本分类方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
10 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
中国博士学位论文全文数据库 前2条
1 方莹;面向热点新闻话题的文本处理技术研究[D];北京理工大学;2015年
2 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
中国硕士学位论文全文数据库 前10条
1 乔嘉琪;一种有效的文本分类方法MDCC的实现及应用[D];安徽大学;2018年
2 彭杨;基于多词向量集成和神经网络的文本分类方法研究[D];东北师范大学;2018年
3 杨奇奇;基于多主题空间的跨领域文本分类方法研究[D];合肥工业大学;2017年
4 周彦;中文文本分类方法的研究与实现[D];华中科技大学;2016年
5 崔彩霞;基于支持向量机的文本分类方法研究[D];山西大学;2005年
6 朱斐;一种富文本分类方法的研究与实现[D];苏州大学;2006年
7 阮思施;基于预期偏差的突发金融文本分类方法研究[D];哈尔滨工业大学;2017年
8 李彬;基于主题相似度的短文本分类方法研究[D];华中师范大学;2017年
9 张建兴;一种提取类核的快速文本分类方法[D];兰州理工大学;2010年
10 陈林;独立于语种的文本分类方法[D];重庆大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026