收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于个人微博特征的Timeline生成研究

陈超  
【摘要】:在这个信息飞速发展的年代,我们渴望了解我们感兴趣的人和事。企业想了解自己的竞争对手,公司员工想了解老板的信息,追星族想了解自己喜欢的明星,个人想了解自己的亲戚朋友的近况。微博却承载着我们个人的想法而诞生。 微博作为一种新型的社交网络工具发展急速,用户可以通过WEB、移动客户端等途径将自己日常生活的点点滴滴发布并和大家分享。个人发表的微博以140(本文以新浪微博为主)为字数上限,并加入标题、表情、URL、图片等丰富的信息。因为微博这种开放性的特点,使得它的用户剧增。 微博具有文本长度短,信息含量小,数据量巨大的特点,这使得在文本处理时造成严重的数据稀疏性;微博具有实时更新强的特点,使得微博事件提取工作复杂;由于微博文本不规范、语言的口语化、网络语言普遍化、拼写错误等,给微博事件提取增添了很多困难;微博文本的主题相互交叉,并呈现长尾现象,导致数据分布严重不均匀。 随着微博的快速发展,微博的历史信息量也越来越大,加上微博独特的特征,这使得我们在想了解我们感兴趣的人和事情的时候困难加剧。微博和传统文本有很大的区别,这使得传统文本事件的提取算法无法应用于微博事件提取中,以传统文本事件提取算法为基础,加入微博所特有的特征和特点,进行了微博事件提取的研究,提出了一种基于微博特征的事件提取算法,基于传统的事件提取方法没有充分考虑到微博的特征的问题,本文把微博特征进行细化,把微博的转发、评论、赞、标签、URL所对应的标题等特征加入到TF-IDF的改进中,通过改进的TF-IDF提取出关键词,在关键词提取的同时把微博的特征细分化,定义了以微博特征为基础的三种关键词,再把提取的关键词根据微博的部分特征进行详细化,然后把微博细化的特征逐个进行相似度计算得到综合相似度,最后以综合相似度为基础,运用改进的聚类算法加上微博的时间特征得出事件提取结果。实验结果充分的证明了该算法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前13条
1 陈佳;;基于眼睛特征图的眼睛检测系统的设计与实现[J];南阳师范学院学报;2008年06期
2 魏永伟;曹娟;汪国昭;;平面三次混合双曲多项式曲线的特征图判别[J];计算机辅助设计与图形学学报;2010年05期
3 汪洋;鲁加国;;基于极化特征图的定标精度应用需求分析[J];微波学报;2009年02期
4 孙正兴,丁秋林;基于特征的CAD/CAM集成技术评述与研究[J];计算机应用;1994年06期
5 祝国旺;钟毅芳;周济;余俊;;零件形状特征图树分解原理及应用[J];交通与计算机;1993年02期
6 王变琴;余顺争;;自适应网络应用特征发现方法[J];通信学报;2013年04期
7 段冠新;;在SolidWorks中库特征的创建和使用[J];机械工人.冷加工;2006年02期
8 葛江华,隋秀凛,邹世浩;基于特征的电站阀门CAD/CAPP/CAM集成系统[J];哈尔滨理工大学学报;2002年02期
9 李净净;张基宏;梁永生;;视觉注意模型中权值估计与特征整合[J];深圳信息职业技术学院学报;2012年03期
10 徐志;关宏志;严海;陈二慧;;基于图像显著性特征的交通标志注视点预测方法[J];武汉理工大学学报(交通科学与工程版);2014年01期
11 许本胜;黄美发;苏庆勇;王灿;;基于特征几何变动的三维公差综合建模方法研究[J];制造业自动化;2014年06期
12 汪洁;王建新;刘绪崇;;基于近邻关系特征的多态蠕虫防御方法[J];通信学报;2011年08期
13 ;[J];;年期
中国重要会议论文全文数据库 前2条
1 宋钧才;;再论棉花色特征的综合评定兼论中国棉花色特征图[A];山东纺织工程学会十二届第二次优秀论文评选获奖论文集[C];2011年
2 张光智;徐祥德;杨元琴;王继志;卞林根;;北京大雾过程的热力和动力结构特征[A];中国气象学会2005年年会论文集[C];2005年
中国硕士学位论文全文数据库 前3条
1 贺峥嵘;极化SAR影像特征分析与地物目标分类研究[D];解放军信息工程大学;2011年
2 陈超;基于个人微博特征的Timeline生成研究[D];内蒙古科技大学;2015年
3 邱新洁;视觉注意机制建模中的特征调制和选择策略研究[D];天津大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978