收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于机器学习的文本分类方法研究

于敏  
【摘要】:随着互联网时代的来临,每一刻都会产生海量数据,其中文本数据以传输效率高、便捷性高、普及范围广的优势存在于各个领域中,而如何对文本数据进行快速、准确的分类是当下的热门问题。本文以新闻文本为研究对象,对相关分类算法进行研究并改进,最终验证所提出的算法能够提高文本分类准确度。1.针对传统朴素贝叶斯文本分类算法中文本特征缺乏特征权重的问题,引入更侧重特征类别间分布的互信息,并将TF-IDF与互信息相结合,利用互信息关注特征词类别间关系的特点,补充TF-IDF的权重缺陷,并将改进后的方法所得到的权重融入朴素贝叶斯方法中,以减少传统方法中特征独立假设对分类的影响,提升分类器性能;2.针对传统的卷积神经网络文本分类模型没有对于学习到的文本特征进行区分,对于对文本分类结果意义大小不同的特征没有区别对待,所以引入注意力机制,即在卷积神经网络的全连接层前加入注意力层,将卷积池化层得到的文本特征进行注意力权重分配,使改进后的分类器更关注对于分类更有意义的特征,排除对于分类任务不重要的特征,实现分类效果提升的目的;3.针对中文文本篇幅较长,语法词语比较复杂的特点,本部分将通过在卷积神经网络中引入嵌套LSTM对模型进行改进。本文在局部特征提取的基础上,尝试对文本全局特征、上下文依赖关系进行提取,利用嵌套LSTM可以保存更长时间的记忆信息这一特点,引入嵌套LSTM以提取长时间的历史信息,更好地把握文本上下文语义,实现合理的新闻文本特征提取,提高分类准确率。最后,使用THUCNEWS新闻数据集、复旦新闻语料库和搜狗实验室新闻语料库文本数据进行实验验证。实验将改进后的贝叶斯分类模型与朴素贝叶斯分类模型做对比,将引入注意力机制与引入嵌套LSTM后的卷积神经网络分别与传统神经网络对比,根据准确率、精确度、召回率、F1值四个指标进行量化比较,结果表明本文所提出的算法模型能有效提高分类器性能。


知网文化
【相似文献】
中国期刊全文数据库 前19条
1 朱弘扬;马海斌;葛天祎;;基于卷积神经网络的高精度文本分类方法[J];电脑知识与技术;2019年21期
2 江泽裔;吴志刚;;基于卷积神经网络的短文本分类方法[J];科技资讯;2018年13期
3 陶宏曜;梁栋屹;;基于卷积神经网络的职位描述文本分类方法[J];软件;2017年06期
4 万狄飞;樊兴华;王国胤;;基于朴素贝叶斯和遗传算法的两类文本分类方法[J];计算机科学;2008年04期
5 张小川;桑瑞婷;周泽红;刘连喜;;一种基于双通道卷积神经网络的短文本分类方法[J];重庆理工大学学报(自然科学);2019年01期
6 王建华;冉煜琨;;基于深度神经网络和模糊规则的文本分类方法[J];电子测量技术;2021年10期
7 王天时;张龙;刘怀泉;刘丽;陈思琦;;基于关键词学习的文本分类方法[J];山东师范大学学报(自然科学版);2019年01期
8 张燕平;乔立秋;朱远枫;徐庆鹏;;一种基于资源优化神经网络(RON)的文本分类方法[J];计算机应用与软件;2010年07期
9 王煜,张明,马力;基于词条聚合和决策树的文本分类方法[J];河北大学学报(自然科学版);2005年03期
10 陆超红;;基于多通道循环卷积神经网络的文本分类方法[J];计算机应用与软件;2020年08期
11 魏勇;;关联语义结合卷积神经网络的文本分类方法[J];控制工程;2018年02期
12 梁宏胜;徐建民;成岳鹏;;一种改进的朴素贝叶斯文本分类方法[J];河北大学学报(自然科学版);2007年03期
13 陈波;;基于循环结构的卷积神经网络文本分类方法[J];重庆邮电大学学报(自然科学版);2018年05期
14 杨奎河;张超;;基于卷积神经网络的评论监管模型的设计与实现[J];信息通信;2020年04期
15 张菊玲;杨晓梅;;基于多类型池化卷积神经网络的文本分类[J];无线互联科技;2021年16期
16 江海戬;辛立强;;卷积神经网络在博客多标签中的应用[J];工业控制计算机;2019年12期
17 吴玉佳;李晶;宋成芳;常军;;基于高效用神经网络的文本分类方法[J];电子学报;2020年02期
18 崔彩霞;张朝霞;;文本分类方法对比研究[J];太原师范学院学报(自然科学版);2007年04期
19 陈巧红;王磊;孙麒;贾宇波;;卷积神经网络的短文本分类方法[J];计算机系统应用;2019年05期
中国重要会议论文全文数据库 前20条
1 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
2 陈毅恒;秦兵;刘挺;林建国;李生;;基于错误预测的文本分类方法[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
3 郭天宇;朱铭健;王云鹤;许超;;基于自整合卷积神经网络的人脸分类算法[A];第十一届全国信号和智能信息处理与应用学术会议专刊[C];2017年
4 张星;关悦;党鑫鑫;吴建生;;基于遗传算法-长短期记忆神经网络的月降水量预测研究[A];2021年(第七届)全国大学生统计建模大赛获奖论文集(二)[C];2021年
5 徐兴;赵倩婷;王苏宁;余绍康;;基于神经网络的自适应飞机防滑刹车控制器[A];第十八届中国航空测控技术年会论文集[C];2021年
6 罗朝林;陈武奋;张波;梁啟斌;;基于小波优化神经网络在大坝变形预测的应用[A];水库大坝和水电站建设与运行管理新进展[C];2022年
7 李强;张悦娇;;神经网络的自适应有限时间容错同步控制[A];“两化”教学模式在应用型大学人才培养中的探究和实践专题论文集[C];2021年
8 蒋子超;江俊扬;姚清河;杨耿超;;基于神经网络的差分方程快速求解方法[A];第十一届全国流体力学学术会议论文摘要集[C];2020年
9 耿传玉;王泽宇;周晓君;阳春华;;基于U-net卷积神经网络双层参数优化的心脏图像分割[A];第31届中国过程控制会议(CPCC 2020)摘要集[C];2020年
10 段滈杉;乔俊飞;蒙西;汤健;;基于模块化神经网络的城市固废焚烧过程氮氧化物软测量[A];第31届中国过程控制会议(CPCC 2020)摘要集[C];2020年
11 李淋雨;邱寅祺;何星;;基于LSTM的火电厂入口硝浓度预测方法研究[A];第31届中国过程控制会议(CPCC 2020)摘要集[C];2020年
12 韩红桂;甄琪;杜永萍;乔俊飞;;基于低秩双线性卷积神经网络的手机型号识别方法[A];第31届中国过程控制会议(CPCC 2020)摘要集[C];2020年
13 潘岚川;马乐乐;刘向杰;;基于卷积神经网络的一次风机故障预警研究[A];第31届中国过程控制会议(CPCC 2020)摘要集[C];2020年
14 马昕鹏;李艳坤;庞佳烽;;人工神经网络预测血清中血红蛋白含量[A];2019中国化学会第十五届全国计算(机)化学学术会议论文集[C];2019年
15 康忠健;罗霖;;基于长短期记忆网络的配电网线损预测方法研究[A];第三十九届中国控制会议论文集(7)[C];2020年
16 闫岱峻;刘伟;于圣炜;赵旭;;基于神经网络的散货船阻力预报方法研究[A];第三十一届全国水动力学研讨会论文集(上册)[C];2020年
17 郝立柱;韩阳;潘子英;;循环神经网络方法预报船舶操纵运动研究[A];第三十一届全国水动力学研讨会论文集(下册)[C];2020年
18 徐硕;;集合经验模态分解的多路-多级神经网络风功率预测模型[A];用电与能效专题讲座暨智能用电及能效管理技术研讨会论文集[C];2019年
19 刘晶;黄进;赵万国;周丽萍;;一种基于卷积神经网络的非法经营线索挖掘模型[A];2020互联网安全与治理论坛论文集[C];2020年
20 包俊;董亚超;刘宏哲;;卷积神经网络的发展综述[A];中国计算机用户协会网络应用分会2020年第二十四届网络新技术与应用年会论文集[C];2020年
中国博士学位论文全文数据库 前20条
1 艾鹏程;基于卷积神经网络的高能物理事例特征信息在线提取算法研究[D];华中师范大学;2020年
2 谢凌伟;基于神经网络的多属性药物分类方法研究[D];厦门大学;2019年
3 容毅标;卷积神经网络在眼科医学图像中的应用研究:分类、分割及回归分析[D];苏州大学;2020年
4 纪厚业;异质图神经网络关键技术研究[D];北京邮电大学;2021年
5 姚卫;时滞忆阻神经网络的同步与多稳定性研究[D];湖南大学;2020年
6 肖理业;基于机器学习的电磁场建模与设计研究[D];电子科技大学;2019年
7 陈涵瀛;核电站热工水力系统工况预测与诊断方法研究[D];哈尔滨工程大学;2018年
8 梁智杰;聋哑人手语识别关键技术研究[D];华中师范大学;2019年
9 刘昂;微结构硅基光子学器件性能的研究[D];南京大学;2019年
10 赵博雅;基于卷积神经网络的硬件加速器设计及实现研究[D];哈尔滨工业大学;2018年
11 杜昌顺;面向细分领域的舆情情感分析关键技术研究[D];北京交通大学;2019年
12 陈科海;机器翻译上下文表示方法研究[D];哈尔滨工业大学;2019年
13 饶红霞;信息受限下神经网络的状态估计和拟同步研究[D];广东工业大学;2019年
14 张马路;Spiking机器学习算法研究[D];电子科技大学;2019年
15 付钱华;忆阻神经网络的动力学研究[D];电子科技大学;2019年
16 毛瑞琛;深度神经网络下的规范化地址建设与语义空间模型研究[D];浙江大学;2019年
17 武晨;DFP航天器动力学特性分析及精确控制方法研究[D];哈尔滨工业大学;2018年
18 杨旭辉;基于神经网络的C-ADS InjectorⅡ束流偏移校准技术研究[D];兰州大学;2019年
19 樊英杰;时滞忆阻神经网络的镇定及同步控制研究[D];山东科技大学;2019年
20 冉令燕;基于卷积神经网络的图像分类研究[D];西北工业大学;2018年
中国硕士学位论文全文数据库 前20条
1 于敏;基于机器学习的文本分类方法研究[D];江南大学;2021年
2 彭博;基于图卷积神经网络的文本分类方法研究[D];广西师范大学;2021年
3 汪明静;改进的深度学习算法在中文文本分类中的应用[D];安徽大学;2020年
4 陈天龙;基于深度神经网络的文本分类模型研究[D];南昌大学;2020年
5 蔡慧苹;基于卷积神经网络的短文本分类方法研究[D];西南大学;2016年
6 李鹏飞;基于多核卷积神经网络的股民情绪分类及应用研究[D];杭州电子科技大学;2020年
7 王天时;基于特征嵌入表示的文本分类方法研究[D];山东师范大学;2020年
8 韩永鹏;面向长短混合场景下的文本分类方法研究[D];北京工业大学;2020年
9 杨杰;基于深度学习的文本分类方法研究[D];天津理工大学;2021年
10 王百鹏;基于深度学习的文本分类方法研究及应用[D];北方民族大学;2020年
11 曹思诺;社区用户的文本分类方法研究[D];西安电子科技大学;2020年
12 李静;基于卷积神经网络的虚假评论识别技术的研究[D];北京邮电大学;2017年
13 曹继君;基于神经网络的故障诊断研究[D];华北电力大学(北京);2020年
14 陈颖;深度神经网络可解释压缩算法的研究[D];内蒙古大学;2021年
15 田野;多精度神经网络加速阵列研究[D];电子科技大学;2021年
16 刘兴旺;基于深度神经网络的融合图像生成研究[D];昆明理工大学;2019年
17 孔曼玉;基于端到端可训练神经网络的手写化学方程式识别[D];华中师范大学;2020年
18 张敬瑶;基于神经网络的心律失常检测研究[D];齐鲁工业大学;2021年
19 李飞腾;卷积神经网络及其应用[D];大连理工大学;2014年
20 张旗;基于神经网络的电子显微像成像条件研究[D];华南农业大学;2019年
中国重要报纸全文数据库 前20条
1 记者 张梦然;神经网络打开理解电子相互作用新窗口[N];科技日报;2021年
2 记者 董映璧;神经网络技术检测玻璃钢缺陷精度高[N];科技日报;2020年
3 湖北日报全媒记者 张爱虎 通讯员 徐向军 实习生 于蓝;一群“90后”率先建成铁路“神经网络”[N];湖北日报;2019年
4 记者 刘霞;忆阻器制成神经网络更高效[N];科技日报;2017年
5 整理 本报记者 诸玲珍 顾鸿儒;微软神经网络切割法可使加速作用超线性[N];中国电子报;2018年
6 ;神经网络小史[N];电子报;2018年
7 ;人工智能将取得大面积突破[N];中国企业报;2017年
8 本报记者 龚丹韵;人机大战:人类还有优势吗[N];解放日报;2017年
9 ;人类正迎来云端机器人时代[N];中国企业报;2017年
10 记者 邱智丽;AI竞赛 中国力量崛起[N];第一财经日报;2017年
11 记者 刘霞;新神经网络使计算机像人一样推理[N];科技日报;2017年
12 本报记者 喻思娈;人工智能有多智能?[N];人民日报;2017年
13 记者 王雪青;构建机器世界神经网络 东土科技“抄底”人工智能[N];上海证券报;2017年
14 ;人工智能到底有多智能?[N];长白山日报;2017年
15 本报记者 刘霞;美用DNA制造出首个人造神经网络[N];科技日报;2011年
16 记者 冯海波 通讯员 华轩;构建叠层宽度神经网络成深度模型[N];广东科技报;2021年
17 记者 毛黎;神经网络技术帮自主驾驶汽车识别幻影物体[N];科技日报;2020年
18 记者 孙刚;“神经网络”:打开复杂工艺“黑箱”[N];解放日报;2007年
19 本报首席记者 任荃 实习生 史博臻;轨交“神经网络”触动创新神经[N];文汇报;2011年
20 记者 张梦然;神经网络完成芯片设计仅需几小时[N];科技日报;2021年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978