收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于LDA特征扩展的微博短文本分类

刘丽娟  
【摘要】:微博作为迈向Web2.0时代的代表性应用之一,在最近几年得到迅猛发展。用户通过微博发布和获取信息,微博信息背后蕴涵着巨大的商业和科研价值,如何对这些微博进行分类是进一步挖掘短文本价值的关键,同时也是进行微博个性化推荐、热点发现、趋势检测及垃圾信息过滤的关键。然而由于微博文本通常篇幅较短、所含信息相对较少、特征较为稀疏,目前微博短文本分类面临着巨大的挑战。传统的针对长文本的文本分类方式并不能很好的作用于微博短文本,所以研究针对微博短文本的分类方法势在必行。首先,本文针对微博短文本分类过程中存在的特征较为稀疏、分类效果不好的问题。分析现有的微博短文本分类方法,并提出了基于隐含狄利克雷分布模型(以下简称LDA)的特征扩展的微博短文本分类方法。其次,在微博短文本原始特征基础上,应用LDA对具有类标签的训练数据进行建模,利用LDA模型得到相应短文本的主题分布,进而把所属主题词语作为微博短文本的部分特征扩充到原微博的特征中去。在此基础上使用向量空间模型SVM对微博短文本进行分类。最后,经实验验证,该方法大大改善了微博短文本的分类效果。针对微博短文本的特点,对微博短文本进行语义扩充,同时与基于同义词词林的短文本扩展的方法相比较,观察不同类别短文本的分类效果,每个类别的准确率和召回率都有明显的提高和改进。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 杨宝华;辜丽川;李绍稳;;基于敏感度分析的案例特征项权重算法的改进[J];计算机科学;2010年05期
2 王洪伟;郑丽娟;刘仲英;霍佳震;;中文网络评论的情感特征项选择研究[J];信息系统学报;2012年01期
3 刘辉;;基于位置的特征项权重算法[J];中国新技术新产品;2011年14期
4 龚静;周经野;;一种基于多重因子加权的文本特征项权值计算方法[J];计算技术与自动化;2007年01期
5 贝雨馨,崔荣一;文本分类中特征项权重的计算方法[J];延边大学学报(自然科学版);2004年03期
6 董小国;甘立国;;基于句子重要度的特征项权重计算方法[J];计算机与数字工程;2006年08期
7 龚静;胡平霞;李春媚;;一种用于文本分类的特征项权值计算方法的研究[J];惠州学院学报;2013年06期
8 张东生;张缨;;一种带有显著特征项的模糊聚类算法[J];河南大学学报(自然科学版);2011年02期
9 龚静;田小梅;;基于文本表示的特征项权值计算方法[J];电脑开发与应用;2008年02期
10 伊辉勇;刘伟;;基于功能和零部件配置元的在线定制顾客需求研究[J];管理科学;2008年02期
11 卢志翔;蒙丽莉;;文本分类中特征项权重算法的改进[J];柳州师专学报;2011年04期
12 代宽;赵辉;韩冬;宋天勇;;基于向量空间模型的中文网页主题特征项抽取[J];吉林大学学报(信息科学版);2014年01期
13 王海涌,郑丽英,刘丽艳;基于文本表示的特征项权值确定方法研究[J];甘肃科学学报;2005年03期
14 肖升;胡金柱;姚双云;舒江波;;基于本体视图特征项抽取方法研究[J];计算机应用研究;2010年01期
15 郑小慎;;基于频繁特征项集的文档聚类研究[J];计算机应用;2006年04期
16 潘国清;;一种向量空间模型中对特征项的改进方法及应用[J];湖南工程学院学报(自然科学版);2009年02期
17 陈立伟;井志强;葛秘蕾;;基于特征项扩展的中文文本分类方法[J];应用科技;2010年03期
18 孙珠婷;顾倩颐;;领域概念术语提取中特征项自动抽取方法[J];计算机工程与设计;2012年08期
19 杨玉珍;刘培玉;朱振方;邱烨;;应用特征项分布信息的信息增益改进方法研究[J];山东大学学报(理学版);2009年11期
20 任国锋;李德华;潘莹;;一种改进的基尼指数特征权重算法[J];计算机与数字工程;2010年12期
中国重要会议论文全文数据库 前5条
1 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
2 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
3 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
4 张爱华;靖红芳;王斌;徐燕;;文本分类中特征权重因子的作用研究[A];第五届全国信息检索学术会议论文集[C];2009年
5 易洪川;;四角号码查字法的字形分析观评析[A];第三届全国语言文字应用学术研讨会论文集[C];2004年
中国博士学位论文全文数据库 前2条
1 贾大文;社会网络资源在线共享与推荐方法研究[D];武汉大学;2013年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
中国硕士学位论文全文数据库 前10条
1 罗成飞;结合卡方统计与特征聚类的文本特征降维方法[D];华南理工大学;2015年
2 刘丽娟;基于LDA特征扩展的微博短文本分类[D];燕山大学;2015年
3 王娟;农业知识推送模型及向量特征项提取算法研究[D];湖南农业大学;2011年
4 贝雨馨;基于意义信息增益的文本特征项权重计算方法[D];延边大学;2004年
5 温春林;特征选取和SVM算法研究及在股市行业资讯中的应用[D];安徽大学;2014年
6 曾建雄;Web信息资源评价及分类的研究[D];中南大学;2009年
7 徐凤亚;多层次中文文本分类技术的研究[D];清华大学;2004年
8 何苑;基于多结构特征的垃圾博客识别研究[D];山西大学;2011年
9 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
10 史丽君;基于特征强化的中文产品评价挖掘研究[D];合肥工业大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978