收藏本站
《中国科学院大学(中国科学院沈阳计算技术研究所)》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Word2Vec的中文短文本聚类算法研究与应用

马存  
【摘要】:互联网的发展催生了很多社交网络的衍生产品,除了大家所熟知的微信、微博、论坛、电子邮件等,知识问答,小密圈也逐渐进入人们的视野。无一例外,这些产品最重要的价值就在于海量的数据,其表现形式就是短文本数据。短文本成为日常人们信息分享,传播知识的媒介,并由此也影响着人们的生活和沟通习惯。通过对海量的短文本数据建立数学模型,分析用户的行为习惯、改善搜索引擎质量、企业投放广告等具有很好的指导意义。文本聚类是进行文本分析或预测的前提,有助于我们对这些文本信息的整体认识和把握。但短文本具有特征缺失、方言习语多、地域特征明显、善用同音词、网络新词多等特点,导致它的算法模型存在维度高、性能差、聚类结果漂移,无法发挥同义词的贡献,使得传统的聚类算法在短文本上使用的效果不佳。随着深度学习的不断发展,人们开始尝试使用深度学习算法来解决自然语言处理问题,Word2Vec就是Google发布的基于深度学习的文本处理工具,它提供了一种看起来无意义的向量模式对文本进行表示的方法。正是这种毫无规则的向量模式有效解决了传统向量空间模型维数过高的问题,同时还保留了词与词之间丰富的共现信息。针对如何解决短文本特征稀疏,改善短文本聚类质量的问题,本文提出了基于Word2Vec的短文本聚类算法模型,主要工作如下:针对前人的工作,细致的阐述了短文本聚类在文本挖掘领域的重要程度以及在聚类模型建立过程中的困难和应对策略。着重分析了短文本预处理过程中分词和去除停用词的问题,以及在特征选择过程中情感因子对聚类效果的影响。并对模型中常用的聚类算法、距离函数以及性能评价因素做了简要的介绍。详细介绍Word2Vec的底层算法原理,并基于大规模语料库使用Word2Vec训练词向量与建立传统的VSM模型实验验证Word2Vec在保留文本语义和处理短文本特征稀疏问题上的有效性。由于短文本的特殊性,直接应用传统的文本聚类算法将会产生两个重要的问题。第一,无法识别同义词在整个文本中的贡献;第二,在预处理阶段,将一些表情符号或者程度副词去除后会丢失部分语义信息。本文将词性分析、情感分析引入短文本聚类,利用Word2Vec训练出来的词向量模型结合特征权重选择算法对聚类算法中文本相似度模型进行改进,在融合词性和情感以及位置因素的前提下,改善短文本在聚类模型上聚焦性差的问题。提出将松弛词语移动距离(RWMD)应用到相似度算法模型中,并以此距离作为聚类的依据。接着,针对K-Means聚类算法对K值选取的问题,提出了一个以LDA算法结合K-Means算法的模型。最后,将上述模型应用在实验室“骕派智慧物流服务平台”项目中,根据服务平台提供的大规模短文本信息进行实验验证。结果表明,该方法相对于传统的聚类算法有较明显的进步。
【学位授予单位】:中国科学院大学(中国科学院沈阳计算技术研究所)
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前9条
1 彭敏;黄佳佳;朱佳晖;黄济民;刘纪平;;基于频繁项集的海量短文本聚类与主题抽取[J];计算机研究与发展;2015年09期
2 冶忠林;贾真;杨燕;尹红风;;基于语义扩展的句子相似度算法[J];山西大学学报(自然科学版);2015年03期
3 梁喜涛;顾磊;;中文分词与词性标注研究[J];计算机技术与发展;2015年02期
4 刘伟朋;陈雁翔;孙晓;;基于表情符号的中文微博多维情感分类的研究[J];合肥工业大学学报(自然科学版);2014年07期
5 韩普;王东波;刘艳云;苏新宁;;词性对中英文文本聚类的影响研究[J];中文信息学报;2013年02期
6 张黎;徐蔚然;;中文分词研究[J];软件;2012年12期
7 章成志;;文本聚类结果描述研究综述[J];现代图书情报技术;2009年02期
8 杨燕;靳蕃;KAMEL Mohamed;;聚类有效性评价综述[J];计算机应用研究;2008年06期
9 宋宇辰;张玉英;孟海东;;一种基于加权欧氏距离聚类方法的研究[J];计算机工程与应用;2007年04期
中国硕士学位论文全文数据库 前1条
1 汤秋莲;基于BTM的短文本聚类[D];安徽大学;2014年
【共引文献】
中国期刊全文数据库 前10条
1 熊宽江;丰建霞;胡志华;;基于学生成绩的学生分类指导模型研究[J];黄冈师范学院学报;2015年06期
2 王非;;基于微博的情感新词发现研究[J];软件;2015年11期
3 张兴;刘伍颖;;基于平假名Token的快速日本语句法匹配[J];山西大学学报(自然科学版);2015年04期
4 王泽;张宏军;张睿;贺邓超;;基于遗传算法与密度及距离计算的聚类方法[J];计算机应用;2015年11期
5 Hong-Kun Jiang;Xiao-Lin Tian;Ao-Ao Xu;;A new segmentation algorithm for lunar surface terrain based on CCD images[J];Research in Astronomy and Astrophysics;2015年09期
6 孔令凯;向毅;梁松;;关于结合层次聚类和K-means算法进行聚类的研究[J];科技创新与应用;2015年25期
7 王金水;唐郑熠;薛醒思;;基于词性标注的文本聚类算法[J];福建工程学院学报;2015年04期
8 孟晓龙;杨燕;王红军;肖文超;;聚类集成时机的确定[J];计算机科学;2015年07期
9 贺菲菲;贺炎;齐静娜;;一种适用于移动搜索的中文分词算法[J];西安邮电大学学报;2015年04期
10 杜欣;刘大刚;倪友聪;张开活;谢大同;;一种新的并行自动聚类算法:CGC-Cluster[J];小型微型计算机系统;2015年06期
中国硕士学位论文全文数据库 前10条
1 马存;基于Word2Vec的中文短文本聚类算法研究与应用[D];中国科学院大学(中国科学院沈阳计算技术研究所);2018年
2 李思宇;基于主题模型和词向量的短文本语义挖掘研究[D];太原理工大学;2018年
3 田亮;基于维吾尔语舆情分析的话题检测与跟踪技术研究[D];新疆大学;2018年
4 刘星灿;基于集成学习的房产资讯分类[D];西南交通大学;2018年
5 黄秀;基于多模态社交媒体数据源的用户画像构建的研究[D];电子科技大学;2018年
6 张平;基于短文本挖掘的个性化信息推荐算法[D];北京交通大学;2017年
7 李海英;基于社会化标签的图书馆书目推荐研究[D];西安电子科技大学;2017年
8 刘丹;基于在线评论的企业产品缺陷识别[D];哈尔滨工业大学;2017年
9 张林;跨平台温室生产管理与病虫害决策系统研究与实现[D];兰州理工大学;2017年
10 於伟;中文微博情感词典的构建研究与应用[D];上海师范大学;2017年
【二级参考文献】
中国期刊全文数据库 前10条
1 陈海燕;;基于搜索引擎的词汇语义相似度计算方法[J];计算机科学;2015年01期
2 丁兆云;贾焰;周斌;;微博数据挖掘研究综述[J];计算机研究与发展;2014年04期
3 吴佐衍;王宇;;基于HNC理论和依存句法的句子相似度计算[J];计算机工程与应用;2014年03期
4 殷耀明;张东站;;基于关系向量模型的句子相似度计算[J];计算机工程与应用;2014年02期
5 李茹;王智强;李双红;梁吉业;Collin Baker;;基于框架语义分析的汉语句子相似度计算[J];计算机研究与发展;2013年08期
6 王元卓;靳小龙;程学旗;;网络大数据:现状与展望[J];计算机学报;2013年06期
7 王连喜;;微博短文本预处理及学习研究综述[J];图书情报工作;2013年11期
8 曹月雷;纪文彦;贾斌;;词典与后缀数组相结合的中文分词方法[J];硅谷;2012年21期
9 袁里驰;;基于改进的隐马尔科夫模型的词性标注方法[J];中南大学学报(自然科学版);2012年08期
10 庞磊;李寿山;周国栋;;基于情绪知识的中文微博情感分类方法[J];计算机工程;2012年13期
中国硕士学位论文全文数据库 前4条
1 任丽芸;搜索引擎中文分词技术研究[D];重庆理工大学;2011年
2 楼佳;中文文本聚类的评价与改进研究[D];杭州电子科技大学;2009年
3 曹卫峰;中文分词关键技术研究[D];南京理工大学;2009年
4 陈小丽;基于SOM算法的中文文本聚类[D];南京理工大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 田晓艳;;一种基于词嵌入与密度峰值策略的大数据文本聚类算法[J];科技创新与应用;2017年06期
2 史梦洁;;文本聚类算法综述[J];现代计算机(专业版);2014年03期
3 闫小强;卢耀恩;娄铮铮;叶阳东;;基于并行信息瓶颈的多语种文本聚类算法[J];模式识别与人工智能;2017年06期
4 陈瑜;韩晨靖;;浅谈文本聚类算法对网络热点发现精准度的影响[J];中国管理信息化;2017年17期
5 高强;;基于向量空间的文本聚类算法[J];电子世界;2017年20期
6 马文超;张建国;胡冰;;基于频繁词序列的层次文本聚类算法研究[J];计算机时代;2009年04期
7 童健华;谭洪舟;;一种基于人工免疫网络的文本聚类算法[J];计算机工程与科学;2007年10期
8 王金水;唐郑熠;薛醒思;;基于词性标注的文本聚类算法[J];福建工程学院学报;2015年04期
9 龚静;李英杰;;文本聚类算法的分析与比较[J];湖南环境生物职业技术学院学报;2006年03期
10 李伟;黄颖;;文本聚类算法的比较[J];科技情报开发与经济;2006年22期
中国重要会议论文全文数据库 前2条
1 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
2 邱立坤;程葳;龙志祎;孙娇华;;面向BBS的话题挖掘初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
中国博士学位论文全文数据库 前2条
1 尹建华;基于模型的文本聚类算法研究[D];清华大学;2017年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 马存;基于Word2Vec的中文短文本聚类算法研究与应用[D];中国科学院大学(中国科学院沈阳计算技术研究所);2018年
2 杨开平;基于语义相似度的中文文本聚类算法研究[D];电子科技大学;2018年
3 马琼琼;基于语义的文本聚类算法研究[D];北京交通大学;2017年
4 马文超;基于2度频繁词序列的文本聚类算法研究[D];河南大学;2009年
5 郑方;蚁群文本聚类算法的研究与应用[D];西安电子科技大学;2013年
6 汪丹丹;中文文本聚类算法研究[D];苏州大学;2016年
7 陆鹏;投影寻踪模型在文本聚类算法中的应用研究[D];上海海事大学;2007年
8 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
9 周洋;基于免疫网络的文本聚类算法及其应用[D];西安邮电学院;2009年
10 蔡坤;基于特征词的文本聚类算法研究[D];河南大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026