收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习理论的中文文本分类技术研究

赖文辉  
【摘要】:文本分类是信息挖掘的关键技术之一,在新闻分类、情感类别分析和舆情监督中都有广泛的应用。传统的基于词袋模型和向量空间模型的文本表示方法存在特征提取能力不足和特征信息损失大的问题,而在面对较复杂的文本结构以及多分类、数据不均衡等问题时,这些基于传统的统计学习和机器学习的分类算法的分类性能和模型泛化能力都将受到限制。本文主要在文本的表示方法和深度学习模型两方面研究中文文本的分类技术,将中文文本表示方法和优秀的深度学习算法相结合,在文本分类任务中实现理想的分类效果。本文的研究工作包含以下几个方面:1.基于字符级卷积神经网络的中文文本分类研究。针对中文文本中的多分类问题,提出一种基于字符级文本表示和卷积神经网络的分类方法。首先基于该任务构建了规模达到575000的汉字字符数据集及其对应的三种拼音格式数据集。对于汉字字符数据集,以汉字字符和标点符号构建字符字典;对于三种拼音格式的数据集,以拼音字母、数字以及标点符号分别构建字符字典。然后基于四种字符字典,分别建立相应的字符级文本表示作为模型的输入。最后在汉字字符及其对应的三种拼音格式数据集上进行模型的训练测试。实验结果表明,模型在汉字字符数据集上的性能要优于其对应的拼音格式数据集。此外,在相同数据集上将本文构造的模型与前人使用的模型进行了实验对比,结果显示合适的字符字典和卷积神经网络超参数在中文文本分类任务中起着重要作用。2.基于注意力机制和双向独立循环神经网络的中文情感类别分析。针对作为文本分类领域细分方向的情感分析需要提取丰富的语义特征的问题,提出一种基于词向量、注意力机制和双向独立循环神经网络的分类方法。首先对原始的中文文本去除标点符号和特殊符号,利用分词工具进行中文分词,采用Skip-Gram模型和维基中文语料库对分词后的文本进行词向量训练。然后将文本中各词用其对应的词向量表示,把代表各文本的词向量序列作为双向独立循环神经网络的输入,提取文本的语义特征。最后引入注意力机制,对那些能重点表现情感的词赋予更高的权重,使最终形成的表示文本的特征向量既包含语义信息又包含各关键词的权重信息。在相同的数据集上,将本文设计的模型和LSTM、双向LSTM、GRU以及深度IndRNN进行对实验对比,结果表明本文所设计的模型相比于其它模型在情感类别分析任务中获得了更高的准确率和F1值,说明能多层堆叠IndRNN和具有注意力机制的模型能够提取更加全面而丰富的语义信息,使模型获得更优秀的性能。3.最后结合字符级卷积神经网络和具有注意力机制的双向独立循环神经网络模型,设计了一个混合文本分类系统。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 庄新妍;;中文文本分类系统构架设计[J];信息与电脑(理论版);2012年01期
2 周雪芹;刘建舟;邵雄凯;廖力;;中文文本分类中特征提取的方法[J];湖北工业大学学报;2010年02期
3 刘怀亮;张治国;赵捧未;;中文文本分类反馈学习研究[J];情报理论与实践;2009年06期
4 王俊英;郭景峰;霍峥;;中文文本分类系统的设计与实现[J];微电子学与计算机;2006年S1期
5 马忠宝;刘冠蓉;;基于支持向量机的中文文本分类模型研究[J];计算机技术与发展;2006年11期
6 孙国菊,张杰;中文文本分类的特征选取评价[J];哈尔滨理工大学学报;2005年01期
7 孙士保;李保元;李天瑞;吴正江;郑瑞娟;;基于类内关键词的中文文本分类模型的改进[J];广西师范大学学报(自然科学版);2009年03期
8 白若鹞;董渊;张素琴;徐大伟;;研究中文文本分类技术的辅助平台[J];清华大学学报(自然科学版);2008年07期
9 杜长海;吉根林;;模糊聚类在中文文本分类中的应用研究[J];计算机工程与应用;2006年08期
10 马忠宝;刘冠蓉;;中文文本分类在信息技术中的应用研究[J];中国水运(学术版);2006年02期
11 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
12 翟林,刘亚军;支持向量机的中文文本分类研究[J];计算机与数字工程;2005年03期
13 白若鹞;董渊;张素琴;徐大伟;;研究中文文本分类技术的辅助平台[J];清华大学学报(自然科学版)网络.预览;2008年07期
14 兰秋军;李卫康;刘文星;;不同情境下中文文本分类模型的表现及选择[J];湖南大学学报(自然科学版);2016年04期
15 范少萍;李迎迎;郑春厚;;基于局部线性判别嵌入算法的中文文本分类研究[J];情报理论与实践;2014年02期
16 王进;金理雄;孙开伟;;基于演化超网络的中文文本分类方法[J];江苏大学学报(自然科学版);2013年02期
17 郝晓燕;常晓明;;中文文本分类研究[J];太原理工大学学报;2006年06期
18 程东生;范广璐;俞雯静;伍飞;曾伟波;;基于极限学习机的中文文本分类方法[J];重庆理工大学学报(自然科学);2018年08期
19 张成宝;王志玲;;基于层次分析法的中文文本分类系统评价[J];情报杂志;2007年10期
中国重要会议论文全文数据库 前5条
1 苏小康;何婷婷;涂新辉;何金卓;;一种基于维基百科知识库的中文文本分类方法研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
2 王俊英;郭景峰;霍峥;;中文文本分类系统的设计与实现[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
3 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
5 王秀娟;郑康锋;杨星海;;线性鉴别分析在中文文本分类中的应用[A];2005通信理论与技术新进展——第十届全国青年通信学术会议论文集[C];2005年
中国博士学位论文全文数据库 前1条
1 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 赖文辉;基于深度学习理论的中文文本分类技术研究[D];华南理工大学;2019年
2 郭超磊;基于SA-SVM的中文文本分类研究[D];上海师范大学;2019年
3 栗蒙光;基于改进的文本相似度算法的中文文本分类技术研究[D];兰州大学;2019年
4 侯永进;基于注意力机制与多元特征融合的中文文本分类方法研究[D];哈尔滨理工大学;2018年
5 张航;基于朴素贝叶斯的中文文本分类及Python实现[D];山东师范大学;2018年
6 尹旭东;基于并行SVM算法的中文文本分类方法研究[D];吉林大学;2018年
7 陈亮;面向武器装备语料的中文文本分类[D];吉林大学;2018年
8 殷越;基于统计方法的中文文本分类[D];华中师范大学;2017年
9 姚芳;基于python的中文文本分类研究[D];华中科技大学;2016年
10 徐晓艳;基于K近邻算法的中文文本分类研究[D];安徽大学;2012年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978