收藏本站
《西南大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

基于微博的热点话题发现

朱颖  
【摘要】:随着网络信息技术的发展,互联网数据及资源大幅增加,并呈现出海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近年逐渐成为倍受关注的领域。其中,基于语义的文本主题分析在近年来成为信息检索和文本挖掘的热点研究方向,其主要任务是根据文本中已知的“文档-单词”分布生成“文档-主题”和“主题-单词”两个分布,从而提取出文档中隐含的主题信息。主题分析模型在文本分类聚类、信息组织与管理、热点话题挖掘等领域都有着广泛的应用。 近年来,随着Web2.0的兴起,社会网络,比如人人网、Facebook、Twitter、新浪微博等非常流行,逐渐成为人与人联系的重要方式。社交网络中80%以上的数据为自然语言文本,海量的用户产生数据(UGC),充斥着网络空间。为了使用户能更快捷,更方便地了解热门话题并参与到当前话题的讨论之中,对微博热点话题的挖据显得非常重要。但是因为社会网络中的文本有其自身的特点,传统的针对长文本的主题分析模型并不能取得很好的效果。社会网络中的文本有几个显著特点:高维性、稀疏性、不规范性、主题分布不均。换言之,微博中每分钟都会有大量的消息文本产生,这些消息文本很可能产生上万维的向量,这对于主题分析模型来说太耗时,导致效率低下;而对于长文本来说,它的关键词少,特征稀疏,很难抽取有效特征,更难以挖掘特征相互之间的关联性;用语不规范和流行语多,是网络文本的最大特点,也为这类主题挖掘带来了诸多难点;另外,发布的消息主题类型完全依赖于用户自己的兴趣,在微博中,绝大多数消息都是关于日常生活的,比如天气,心情等,因此仅仅根据单词出现的次数来判断其是否为热点话题相关的单词的做法不足可取。 用传统的主题分析方法对微博中的文本进行热点话题挖掘,一方面识别不出热点话题相关的信息,会导致准确率较低:另一方面,文本太多,使得主题分析效率很低。近年来,有很多针对微博中热点话题挖掘进行的研究。鉴于微博中文本存在的特点及针对该文本进行热点话题挖掘所存在的问题,本文首先对,利用外部数据集进行了深入地探讨;另外,利用微博中自身属性也是一个研究方向,微博中的属性包括发布时间,标签,转发数和评论数等,这些属性对于热点话题挖掘非常有用,本文探讨了如何对此加以利用,提高热点话题的预测准确率。本论文的贡献如下: 1)根据基于实体的相似性算法将每个用户所发布的相似消息合并为一个文档,增加文档信息;然后将多个外部数据集作为知识背景,用LDA (Latent Dirichlet Allocation)模型对数据集进行热点话题挖掘。 2)提出一个新的主题分析模型MA-LDA (Multi-Attribute Latent Dirichlet Allocation),这个模型将文本中单词的时间分布和标签结合到LDA模型之中。通过时间变量来判断当前分析的单词属于热点话题,还是一般话题;通过增加标签词汇的权重,使得实验结果中标签词汇排名更靠前,提高了结果的表达性。 实验结果表明,本文提出的方法既提高了热点话题挖掘的准确率,也显著地提高了主题分析模型的效率。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吴玲达,谢毓湘,栾悉道,肖鹏;互联网多媒体主题信息自动收集与处理系统的研制[J];计算机应用研究;2005年05期
2 耿焕同,蔡庆生,赵鹏,于琨;一种基于词共现图的文档自动摘要研究[J];情报学报;2005年06期
3 陈丽珍;卡米力·毛依丁;;基于WEB信息检索系统中维文处理方面的研究[J];电脑知识与技术;2005年36期
4 高俊波;安博文;王晓峰;;在线论坛中潜在影响力主题的发现研究[J];计算机应用;2008年01期
5 王琳琳;;基于HTML解析器的Web信息提取技术[J];郑州轻工业学院学报(自然科学版);2008年06期
6 肖展飞,洪流,蔡庆生;个性化Web主题信息监控系统的实现[J];计算机应用;2004年04期
7 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[J];微电子学与计算机;2009年09期
8 邵晓良,刘红;Web主题信息采集中信息主题的识别[J];现代图书情报技术;2004年10期
9 王兰成;基于EMM中文抽词算法的XMARC主题信息挖掘[J];情报学报;2005年01期
10 刘光洁;李忠范;李民;杨鑫;;基于协同进化遗传算法的主题信息采集研究[J];情报科学;2008年10期
11 王金华;吴荣泉;;基于主题的数据订阅分发技术[J];计算机工程;2006年14期
12 陈雄;都云程;李渝勤;施水才;;基于页面结构分析的论坛主题信息定位方法研究[J];微计算机信息;2010年27期
13 殷贤亮;李猛;;基于分块的网页主题信息自动提取算法[J];华中科技大学学报(自然科学版);2007年10期
14 刘军;张净;;基于DOM的网页主题信息的抽取[J];计算机应用与软件;2010年05期
15 谢大吉;;基于Java的网络制造资源主题信息采集模块设计[J];计算机工程与设计;2010年19期
16 邵晓良,刘红;Web信息采集中军事主题信息的识别[J];情报杂志;2004年07期
17 刘军;;基于支持向量机的网页主题信息提取算法[J];电脑知识与技术(学术交流);2007年02期
18 杜永毅;;县馆开展定题服务和建立主题信息库的设想[J];图书馆学刊;1989年01期
19 王琦,唐世渭,杨冬青,王腾蛟;基于DOM的网页主题信息自动提取[J];计算机研究与发展;2004年10期
20 ;Wiley-Blackwell公司推出新的在线医学参考工具[J];现代图书情报技术;2009年12期
中国重要会议论文全文数据库 前10条
1 何莉;林鸿飞;;分布式检索中基于主题的语言模型集合选择策略[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
2 王琦;唐世渭;杨冬青;王腾蛟;;基于DOM的网页主题信息自动提取[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 冯少卿;都云程;施水才;;基于模板的网页主题信息抽取[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
4 黄天航;;面向数字城市规划的数据仓库构建中主题信息的组织与提取研究——以大北京区域规划为例[A];规划创新:2010中国城市规划年会论文集[C];2010年
5 刁宇峰;王昊;林鸿飞;杨亮;;博客中重复评论发现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 王玉婷;杜亚军;涂腾涛;;基于Web链接的主题爬行虫初始URL的研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
7 吴筱媛;邓红素;顾宁;邱君瑞;耿亦兵;;一种支持信息发现的元数据描述方法[A];第十八届全国数据库学术会议论文集(技术报告篇)[C];2001年
8 马英民;;论革命历史类博物馆现代展示理念与手法[A];回顾与展望:中国博物馆发展百年——2005年中国博物馆学会学术研讨会文集[C];2005年
9 张鑫;;刍议地方综合年鉴索引[A];创新与发展——云南省年鉴论文选[C];2003年
10 袁崇谦;;基于模糊掩模方法的遥感图像预处理研究[A];图像图形技术研究与应用2009——第四届图像图形技术与应用学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 ;新蠕虫用“令人震惊消息”引诱用户[N];计算机世界;2005年
2 吴悦;广告,给消费者认知填空[N];中国经营报;2007年
3 游峰杜建民;“十里长街”可游玩购物[N];东莞日报;2008年
4 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年
5 卢至虎;“让一张新闻纸能阅读三天”[N];中国新闻出版报;2006年
6 朱启明;纪念邮票领风骚[N];中国邮政报;2007年
7 李晓钢;有效建立数据交换与共享机制[N];大众科技报;2006年
8 记者 虞珊珊通讯员 夏福军 颜昌慧 实习生 郭冬妮 刘锈鸿;中国-东盟港口发展与合作论坛会徽首次亮相[N];广西日报;2007年
9 刘传科康西强 本报记者 许继升;“全心为你”——福田雷沃重工的承诺[N];中国县域经济报;2008年
10 尚明洲 方洁;广东手机学堂搭建移动学习平台[N];人民邮电;2008年
中国博士学位论文全文数据库 前10条
1 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
2 徐盛;基于主题模型的高空间分辨率遥感影像分类研究[D];上海交通大学;2012年
3 唐颖军;基于语义主题模型的图像场景分类研究[D];北京交通大学;2010年
4 宋巍;基于主题的查询意图识别研究[D];哈尔滨工业大学;2013年
5 蒲强;基于独立分量分析的语义聚类技术在信息检索中的应用研究[D];电子科技大学;2010年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 孙甲申;基于主题模型和随机游走的标签技术研究[D];北京邮电大学;2013年
8 龚书;抽取式多文档文摘的文本表示研究[D];北京交通大学;2013年
9 王宝勋;面向网络社区问答对的语义挖掘研究[D];哈尔滨工业大学;2013年
10 谢兴;社会网络中兴趣发现与信息组织的研究[D];复旦大学;2011年
中国硕士学位论文全文数据库 前10条
1 亓晓青;Web挖掘中的主题模型扩展[D];北京邮电大学;2013年
2 刘文君;基于膜计算优化算法的语义主题爬虫研究[D];西华大学;2013年
3 谭胜;互联网新闻实时信息采集及主题探测研究[D];南京航空航天大学;2011年
4 彭正非;面向汽车行业的主题爬虫研究与实现[D];华中科技大学;2011年
5 林碧霞;基于领域本体的主题爬虫研究及实现[D];西南交通大学;2010年
6 张一凡;基于文档频率的分级主题模型[D];北京邮电大学;2011年
7 张倩;用于网络评论文本挖掘的主题模型研究[D];北京交通大学;2014年
8 彭小明;主题爬虫的设计与实现[D];北京邮电大学;2013年
9 王桂珍;基于主题间关联关系的文本可视分析[D];浙江大学;2012年
10 常旭;主题爬虫穿越隧道算法研究与设计[D];山东科技大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978