基于个人微博特征的Timeline生成研究
【摘要】:在这个信息飞速发展的年代,我们渴望了解我们感兴趣的人和事。企业想了解自己的竞争对手,公司员工想了解老板的信息,追星族想了解自己喜欢的明星,个人想了解自己的亲戚朋友的近况。微博却承载着我们个人的想法而诞生。
微博作为一种新型的社交网络工具发展急速,用户可以通过WEB、移动客户端等途径将自己日常生活的点点滴滴发布并和大家分享。个人发表的微博以140(本文以新浪微博为主)为字数上限,并加入标题、表情、URL、图片等丰富的信息。因为微博这种开放性的特点,使得它的用户剧增。
微博具有文本长度短,信息含量小,数据量巨大的特点,这使得在文本处理时造成严重的数据稀疏性;微博具有实时更新强的特点,使得微博事件提取工作复杂;由于微博文本不规范、语言的口语化、网络语言普遍化、拼写错误等,给微博事件提取增添了很多困难;微博文本的主题相互交叉,并呈现长尾现象,导致数据分布严重不均匀。
随着微博的快速发展,微博的历史信息量也越来越大,加上微博独特的特征,这使得我们在想了解我们感兴趣的人和事情的时候困难加剧。微博和传统文本有很大的区别,这使得传统文本事件的提取算法无法应用于微博事件提取中,以传统文本事件提取算法为基础,加入微博所特有的特征和特点,进行了微博事件提取的研究,提出了一种基于微博特征的事件提取算法,基于传统的事件提取方法没有充分考虑到微博的特征的问题,本文把微博特征进行细化,把微博的转发、评论、赞、标签、URL所对应的标题等特征加入到TF-IDF的改进中,通过改进的TF-IDF提取出关键词,在关键词提取的同时把微博的特征细分化,定义了以微博特征为基础的三种关键词,再把提取的关键词根据微博的部分特征进行详细化,然后把微博细化的特征逐个进行相似度计算得到综合相似度,最后以综合相似度为基础,运用改进的聚类算法加上微博的时间特征得出事件提取结果。实验结果充分的证明了该算法的有效性。