收藏本站
《中北大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于特征扩展的深度学习短文本分类算法

陈海霞  
【摘要】:文本分类技术是一种用来有效管理大量文本信息的有效途径,文本分类技术目前为止已经取得了较好的发展,近年来伴随着互联网及计算机技术的高速发展,逐渐出现了微博、微信等社交平台,相应的短文本形式的内容成为人们日常交流以及获取信息的主要方式,短文本形式的数据以爆发式增长,这些短文本如微博动态、评论等,无论对于用户还是商家甚至是政府、科研人员来说,将其进行处理,从而挖掘出数据背后的价值非常具有现实意义和应用价值,短文本分类技术便是其中一个研究方向。短文本具有特征稀疏、表达信息能力不足的特点,直接地使用传统的文本分类算法不切实际。针对短文本的分类算法近年来虽然已有很多研究,微博等平台也有分类功能,但是微博短文本在目前科技飞速发展的情况下,出现爆炸式的增长是时代所趋,对于它的研究并不过时,而且短文本分类技术仍然有改进的空间。本文便是针对短文本的高稀疏性,表达信息能力差的特点,先对短文本的文本特征进行扩展处理然后再进行分类任务。并在分类任务中引入深度学习,使用卷积神经网络作为分类器对其进行分类。本文研究涉及到了短文本分类的详细流程,包括爬虫、文本预处理、中文分词技术、特征扩展算法、分类器训练以及分类等步骤。其中在特征扩展中使用对算法进行改进,扫描数据得到关联规则,然后关联规则库作为扩展特征的根据,为了确保创建的特征关联规则库能够覆盖到样本数据中的各种类别,分别按类别计算每一类的特征关联规则。对于短文本中高频却没有影响的词语及噪声,在文本预处理阶段将使用停用词表进行过滤处理。短文本分类的分类阶段,通过实验分析,分类器设计了3个较小卷积核叠加的卷积神经网络结构,以便使得能保证网络分类性能的基础上,还能更好的还原特征、刻画特征。实验证明,比起如支持向量机、贝叶斯网络、决策树算法等传统的机器学习方法,本文提出的基于特征扩展后的卷积神经网络分类模型成功提高了微博短文本的分类精确率。
【学位授予单位】:中北大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 樊存佳;汪友生;边航;;一种改进的KNN文本分类算法[J];国外电子测量技术;2015年12期
2 奚浩瀚;刘云;熊菲;;微博噪声过滤和话题检测[J];铁路计算机应用;2015年03期
3 李湘东;曹环;丁丛;黄莉;;利用《知网》和领域关键词集扩展方法的短文本分类研究[J];现代图书情报技术;2015年02期
4 于娟;刘强;;主题网络爬虫研究综述[J];计算机工程与科学;2015年02期
5 袁满;欧阳元新;熊璋;罗建辉;;一种基于频繁词集的短文本特征扩展方法[J];东南大学学报(自然科学版);2014年02期
6 秦玉平;王祎;伦淑娴;王秀坤;;基于超椭球支持向量机的兼类文本分类算法[J];计算机科学;2013年S2期
7 崔建明;刘建明;廖周宇;;基于SVM算法的文本分类技术研究[J];计算机仿真;2013年02期
8 张文萍;黎春兰;;基于文本空间表示模型的文本相似度计算研究[J];现代情报;2013年02期
9 张素智;刘婧姣;;基于语义的KNN短文本分类算法研究[J];郑州轻工业学院学报(自然科学版);2012年06期
10 冀素琴;石洪波;卫洁;;基于Map Reduce的Bagging贝叶斯文本分类[J];计算机工程;2012年16期
中国硕士学位论文全文数据库 前10条
1 刘鎏;大规模短文本分类算法设计与实现[D];北京邮电大学;2017年
2 王飞飞;基于改进卷积神经网络算法的研究与应用[D];南京邮电大学;2016年
3 任勇;文本特征选择算法研究及其在微博上的应用[D];安庆师范大学;2016年
4 阎丽;基于新浪微博的短文本分类研究[D];云南大学;2016年
5 蔡慧苹;基于卷积神经网络的短文本分类方法研究[D];西南大学;2016年
6 江大鹏;基于词向量的短文本分类方法研究[D];浙江大学;2015年
7 张虹;短文本分类技术研究[D];辽宁师范大学;2015年
8 朱甜甜;短文本语义相似度量的方法和应用研究[D];华东师范大学;2014年
9 宋惟然;中文文本分类中的特征选择和权重计算方法研究[D];北京工业大学;2013年
10 杨雪;文本特征选择算法的研究[D];辽宁师范大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 罗登;万享;;一种学科题目文本自动分类方法[J];中国索引;2015年04期
2 王东;熊世桓;;基于同义词词林扩展的短文本分类[J];兰州理工大学学报;2015年04期
3 朱建林;彭鲸桥;杨小平;王倩;;融入词和文本关系的文本表示模型研究[J];山西大学学报(自然科学版);2015年03期
4 田浩兵;朱嘉钢;陆晓;;基于特征贡献度加权高斯核函数的粗糙one-class支持向量机[J];计算机科学;2015年06期
5 王平;吴剑;;基于模糊加权近似支持向量机的Web文本分类[J];计算机应用与软件;2015年05期
6 马海兵;毕久阳;郭新顺;;文本分类方法在网络舆情分析系统中的应用研究[J];情报科学;2015年05期
7 李琼;陈利;;一种改进的支持向量机文本分类方法[J];计算机技术与发展;2015年05期
8 李湘东;曹环;丁丛;黄莉;;利用《知网》和领域关键词集扩展方法的短文本分类研究[J];现代图书情报技术;2015年02期
9 钱强;钱萍;滕玮;庞林斌;房靖;;基于自动问答的类社交网络辅助学习平台[J];江苏科技大学学报(自然科学版);2014年06期
10 张素智;孙嘉彬;王威;;大数据下的Web数据集成与挖掘研究[J];现代计算机(专业版);2014年29期
中国硕士学位论文全文数据库 前10条
1 赵政;文本向量化方法对文本分类效果影响的改进研究[D];首都经济贸易大学;2018年
2 孟晓伟;维吾尔文文本分类系统的设计与实现[D];新疆大学;2018年
3 王儒;基于卷积神经网络的短文本表示与分类研究[D];山东师范大学;2018年
4 余霆嵩;基于张量分解与卷积神经网络的RGB-D物体识别方法[D];广东工业大学;2018年
5 郑桂东;多轮对话语料构建中的离群对话分析[D];哈尔滨工业大学;2018年
6 李燕飞;基于深度神经网络的视觉识别分类研究[D];内蒙古工业大学;2018年
7 刘尧;基于卷积神经网络的电梯轿厢内人数统计研究[D];西南科技大学;2018年
8 候亚伟;基于神经网络的手写体数字识别系统的研究[D];上海应用技术大学;2018年
9 蒙晓燕;基于卷积神经网络的中文歌词情感分类[D];内蒙古师范大学;2018年
10 亓振亿;面向服务机器人的行人检测方法研究及实现[D];山东大学;2018年
【二级参考文献】
中国期刊全文数据库 前10条
1 罗贤锋;祝胜林;陈泽健;袁玉强;;基于K-Medoids聚类的改进KNN文本分类算法[J];计算机工程与设计;2014年11期
2 石欣;印爱民;张琦;;基于K最近邻分类的无线传感器网络定位算法[J];仪器仪表学报;2014年10期
3 湛燕;陈昊;;基于主题本体扩展特征的短文本分类[J];河北大学学报(自然科学版);2014年03期
4 谭熊;余旭初;秦进春;魏祥坡;;高光谱影像的多核SVM分类[J];仪器仪表学报;2014年02期
5 孙建旺;吕学强;张雷瀚;;基于语义与最大匹配度的短文本分类研究[J];计算机工程与设计;2013年10期
6 胡勇军;江嘉欣;常会友;;基于LDA高频词扩展的中文短文本分类[J];现代图书情报技术;2013年06期
7 赵辉;刘怀亮;;一种基于维基百科的中文短文本分类算法[J];图书情报工作;2013年11期
8 王帅;周国民;王健;;主题爬虫相关度算法研究综述[J];计算机与现代化;2013年04期
9 白玉昭;梁久祯;;基于概率模型的主题爬虫的研究和实现[J];计算机工程与科学;2013年01期
10 苟和平;景永霞;冯百明;李勇;;基于DBSCAN聚类的改进KNN文本分类算法[J];科学技术与工程;2013年01期
中国硕士学位论文全文数据库 前10条
1 黄旭;基于机器学习的汉语短文本分类方法研究与实现[D];黑龙江大学;2016年
2 蔡慧苹;基于卷积神经网络的短文本分类方法研究[D];西南大学;2016年
3 尹哲;基于粗糙集的决策树分类方法研究[D];大连海事大学;2016年
4 卢志浩;基于GEP的kNN算法改进研究[D];广西师范学院;2015年
5 金传鑫;气象文本分类特征选择方法及其在MapReduce上的实现[D];南京信息工程大学;2015年
6 吴海燕;基于自动编码器的半监督表示学习与分类学习研究[D];重庆大学;2015年
7 刘超超;基于MapReduce计算框架的蚁群优化聚类算法设计与改进研究[D];合肥工业大学;2015年
8 林鹏祥;微博信息检索系统研究与开发[D];华中师范大学;2014年
9 蒋婉婷;基于Hadoop的中文微博主观情感分类的研究与实现[D];华东师范大学;2014年
10 李庆丰;基于主题模型的多文档自动文摘方法研究[D];大连海事大学;2013年
【相似文献】
中国期刊全文数据库 前10条
1 胡悦;;金融市场中的神经网络拐点预测法[J];金融经济;2017年18期
2 吴立可;;脉冲神经网络和行为识别[J];通讯世界;2018年12期
3 迟惠生;陈珂;;1995年世界神经网络大会述评[J];国际学术动态;1996年01期
4 王丽华;杨秀萍;王皓;高峥翔;;智能双轮平衡车的设计研究[J];数字技术与应用;2018年04期
5 张庭略;;基于硬件的神经网络加速[J];通讯世界;2018年08期
6 苏秀婷;;耦合神经网络的同步[J];绍兴文理学院学报(自然科学);2016年03期
7 朱溦;;神经网络结合平均影响值方法筛选变量[J];产业与科技论坛;2017年01期
8 ;硅光子神经网络亮相[J];石油工业计算机应用;2016年04期
9 任刚红;杜坤;周明;刘年东;张晋;;基于级联神经网络的年降雨量预测[J];土木建筑与环境工程;2016年S2期
10 金鑫;李龙威;季佳男;李祉歧;胡宇;赵永彬;;基于大数据和优化神经网络短期电力负荷预测[J];通信学报;2016年S1期
中国重要会议论文全文数据库 前10条
1 孙军田;张喆;;基于神经网络数据挖掘技术确定灾害等级的灭火救援出动力量模型研究[A];2016中国消防协会科学技术年会论文集[C];2016年
2 许进;保铮;;神经网络与图论[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
3 唐墨;王科俊;;自发展神经网络的混沌特性研究[A];2009年中国智能自动化会议论文集(第七分册)[南京理工大学学报(增刊)][C];2009年
4 张广远;万强;曹海源;田方涛;;基于遗传算法优化神经网络的故障诊断方法研究[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
5 李涛;费树岷;;具有变时滞Cohen-Grossberg神经网络的指数稳定性准则[A];第二十六届中国控制会议论文集[C];2007年
6 汪灵枝;秦发金;;具有变时滞和脉冲的离散Cohen-Grossberg神经网络的周期解[A];中国自动化学会控制理论专业委员会D卷[C];2011年
7 韩正之;林家骏;;用神经网络求解非线性相容方程[A];1993年控制理论及其应用年会论文集[C];1993年
8 林家骏;王赞基;;求解不可微优化问题的连续极大熵神经网络[A];1998年中国智能自动化学术会议论文集(上册)[C];1998年
9 姜德宏;徐德民;任章;;基于神经网络的自校正控制器[A];1993中国控制与决策学术年会论文集[C];1993年
10 窦永丰;贝超;;模糊与神经网络结合方式及在控制中的应用[A];1997年中国控制会议论文集[C];1997年
中国重要报纸全文数据库 前10条
1 记者 刘霞;忆阻器制成神经网络更高效[N];科技日报;2017年
2 整理 本报记者 诸玲珍 顾鸿儒;微软神经网络切割法可使加速作用超线性[N];中国电子报;2018年
3 ;神经网络小史[N];电子报;2018年
4 张敏;人机大战,到底谁会赢?[N];北京日报;2017年
5 ;人工智能将取得大面积突破[N];中国企业报;2017年
6 本报记者 龚丹韵;人机大战:人类还有优势吗[N];解放日报;2017年
7 ;人类正迎来云端机器人时代[N];中国企业报;2017年
8 张斌;谁还需要“同传”[N];文汇报;2017年
9 科大讯飞董事长 刘庆峰;高考机器人考入一流大学不再是梦[N];中国教育报;2017年
10 邓洲 中国社会科学院工业经济研究所;深度学习:人工智能进入应用阶段[N];上海证券报;2017年
中国博士学位论文全文数据库 前10条
1 李一鸣;结合知识和神经网络的文本表示方法的研究[D];浙江大学;2018年
2 LYDIA LAZIB;文本否定范围识别技术研究及其应用[D];哈尔滨工业大学;2018年
3 周小强;基于深度学习的交互式问答技术研究[D];哈尔滨工业大学;2017年
4 刘梅;网络系统的稳定和同步行为研究[D];新疆大学;2017年
5 李若霞;基于忆阻的神经网络的动力学分析及应用[D];东南大学;2017年
6 项延德;基于卷积神经网络的心电信号检测和分类研究[D];浙江大学;2018年
7 孔颖;终态神经网络及其相关应用[D];浙江工业大学;2017年
8 李扬;面向图像目标识别和检测的深度神经网络关键技术研究[D];北京邮电大学;2018年
9 李皈颖;深度模型简化:存储压缩和计算加速[D];中国科学技术大学;2018年
10 靳然;基于神经网络和支持向量机的麦蚜发生动态预测研究[D];山西农业大学;2017年
中国硕士学位论文全文数据库 前10条
1 谢良才;基于BP神经网络的煤热解特性及煤灰熔融特性研究[D];西北大学;2018年
2 张旭;基于VMD-神经网络输气管道的工况分类研究[D];东北石油大学;2018年
3 孙昊;粒子群神经网络在供水管线腐蚀预测中的应用研究[D];东北石油大学;2018年
4 严寒;基于卷积神经网络的图像分类算法研究[D];西北大学;2018年
5 季静;融合多重语义对齐表示的机器阅读理解研究[D];南京师范大学;2018年
6 尹化荣;基于卷积神经网络的情感分类算法研究[D];西北大学;2018年
7 邹鑫;基于卷积神经网络的图像分类算法研究[D];西北师范大学;2018年
8 李婷玉;基于神经网络的输油管道腐蚀预测研究与实现[D];华北理工大学;2018年
9 赵士超;基于神经网络的LIBS钢水成分在线检测[D];华北理工大学;2018年
10 曹雲梦;基于BP神经网络的轨道电路故障诊断[D];华北理工大学;2018年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026