收藏本站
《上海师范大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

基于论坛的热点话题识别与趋势预测研究

张海东  
【摘要】:随着互联网的快速发展,论坛成为当前兴起的互联网媒体之一,正是因为论坛的共享性、即时性、交互性等特点,成为大量用户的网络聚集地,因此论坛成为获取信息的主要渠道之一。用户可以发表一个主题来讨论、提出一个问题来解决、针对社会焦点话题提出自己的观点,因此也逐渐成为广大用户共享信息、浏览信息和发表观点的平台。但是论坛每天产生的信息量巨大,传播速度较快,导致形成的话题较多,在这种情况下,怎样快速的浏览当前热点话题,来迅速了解当前社会关注焦点就显得非常有意义。本文首先从论坛数据的采集着手,论坛的网页链接的重复性、分页链接的难以识别、队列与数据库的设计、多线程等问题进行了研究,将提取的文本数据存放在数据库中,作为本文实验的数据来源。其次,在采集的基础上,对热点话题发现进行了研究。针对论坛帖子数据的特殊性和传统的VSM仅用一个向量来描述整个文本信息的不足,本文提出了多向量维度策略,具体思想就是把一篇文本按照时间、地点、人物、事件分为四个子向量,对其四个子向量采用各自的计算方法分别计算相似度值,再对这四个相似度值采用加权平均的方法得出最终的相似度值。最后通过与传统的VSM进行对比,证明了该算法的精确性。在话题检测方面,针对论坛数据是按照时间的顺序进行每天的叠加和更新,本文提出了在时间维度上采用二次聚类的方法来检测话题,具体思想是先对当天同一时间维度上的帖子数据做一次局部聚类形成临时话题集。若没有旧话题集,则将这一次的结果保存等待下一次的聚类;若有旧话题集,则与旧话题集再做一次聚类,重复训练数据,得到最终的话题集合。考虑到Single-Pass算法无需在动态数据源下提前确定话题的数目,而是根据相似度阈值来自动生成类簇的优点,本文采用的是S ing le-Pass聚类。最后通过实验证明了提出的算法思想的合理性。最后,在话题趋势预测上,采用时间序列ARIMA模型来进行拟合,对话题的某些指标进行了预测分析。首先通过介绍ARIMA模型,针对该模型的优点分别给出建模步骤、模型的识别以及参数的估计、检验模型的正确性、利用模型进行预测。通过对时间序列的统计特征进行ADF检验其平稳性,根据自相关和偏自相关函数图确定各自的阶数,最后给出模型,并用残差序列图验证了拟合程度的正确性。通过对比模型产生的预测值与实际值,给出了热点话题在特定的时间内的变化趋势。
【学位授予单位】:上海师范大学
【学位级别】:硕士
【学位授予年份】:2015
【分类号】:TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前8条
1 税仪冬;瞿有利;黄厚宽;;周期分类和Single-Pass聚类相结合的话题识别与跟踪方法[J];北京交通大学学报;2009年05期
2 刘文慧;;语言研究中的卡方拟合度检验[J];长沙铁道学院学报(社会科学版);2006年04期
3 鲁明羽;姚晓娜;魏善岭;;基于模糊聚类的网络论坛热点话题挖掘[J];大连海事大学学报;2008年04期
4 刘青宝;侯东风;邓苏;张维明;;基于相对密度的增量式聚类算法[J];国防科技大学学报;2006年05期
5 冯志伟;;隐马尔可夫模型及其在自动词类标注中的应用[J];燕山大学学报;2013年04期
6 刘建晔;李芳;;一种基于密度的高性能增量聚类算法[J];计算机工程;2006年21期
7 周刚;邹鸿程;熊小兵;黄永忠;;MB-SinglePass:基于组合相似度的微博话题检测[J];计算机科学;2012年10期
8 鲁松,白硕,黄雄;基于向量空间模型中义项词语的无导词义消歧[J];软件学报;2002年06期
中国硕士学位论文全文数据库 前4条
1 王荔;统计全切分中文分词系统的研究与实现[D];西安电子科技大学;2009年
2 吴喜;时间序列建模与模型选择的应用研究[D];合肥工业大学;2006年
3 张业嘉诚;划分聚类与基于密度聚类算法的改进方法研究[D];大连理工大学;2007年
4 彭丽;数据挖掘中几种划分聚类算法的比较及改进[D];大连理工大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 曹宇;尹刚;李翔;程荣斌;王怀民;;聚类搜索引擎研究进展浅析[J];电脑知识与技术;2011年22期
2 孙扬;封孝生;周城;汤大权;肖卫东;;一种面向混合数据集可视化的高效数据转换技术[J];国防科技大学学报;2010年03期
3 陈学昌;韩佳珍;魏桂英;;话题识别与跟踪技术发展研究[J];中国管理信息化;2011年09期
4 李岩;娄云;;文本聚类算法在舆情监控中的应用分析[J];电子设计工程;2013年01期
5 郑智彬;黄九鸣;李爱平;;面向属性发现的协同迭代搜索系统研究与实现[J];成都信息工程学院学报;2014年04期
6 李宏博;陈复中;史先琦;;高耸筒体建筑偏移量多元回归和基于时间序列分析预测的比较研究[J];工程勘察;2015年03期
7 冀俊忠;贝飞;吴晨生;柴鹰;宋辰;;词性对新闻和微博网络话题检测的影响[J];北京工业大学学报;2015年04期
8 格桑多吉;乔少杰;韩楠;张小松;杨燕;元昌安;康健;;基于Single-Pass的网络舆情热点发现算法[J];电子科技大学学报;2015年04期
9 曹鸿霞;;BP神经网络在数字识别中的应用[J];湖北广播电视大学学报;2006年06期
10 韩有韬;麻春;赵溪茏;;关联规则的更新及其算法[J];黑龙江科技信息;2007年18期
中国博士学位论文全文数据库 前10条
1 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
2 孙扬;多变元网络数据可视化方法研究[D];国防科学技术大学;2010年
3 李恩临;基于价格波动的二手船购船决策研究[D];哈尔滨工程大学;2011年
4 范冬梅;基于统计学习的词义识别方法研究[D];哈尔滨工程大学;2011年
5 刘青宝;模糊、动态多维数据建模理论与方法研究[D];国防科学技术大学;2006年
6 李睿;基于时域响应特征提取与异常检测的结构损伤诊断方法研究[D];湖南大学;2007年
7 刘鹏远;基于知识自动获取的无指导译文消歧方法研究[D];哈尔滨工业大学;2008年
8 苏畅;汉语名词性隐喻的计算方法研究[D];厦门大学;2008年
9 张显;信息距离理论及其在问答系统中的应用研究[D];清华大学;2008年
10 王瑞琴;基于语义处理技术的信息检索模型研究[D];浙江大学;2009年
中国硕士学位论文全文数据库 前10条
1 张晓冬;基于全矢谱的智能诊断技术研究[D];郑州大学;2010年
2 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
3 邓宾;中文词义消岐研究[D];昆明理工大学;2009年
4 和秀星;面向XBRL的财务报表聚类分析审计系统研究[D];电子科技大学;2010年
5 李海林;网络舆情热点信息发现及其倾向性研究[D];武汉理工大学;2010年
6 孟美芝;面向源代码挖掘的聚类算法研究[D];西北农林科技大学;2010年
7 王利峰;增量文本聚类在舆情监控中的研究与实现[D];东华大学;2010年
8 乔小斐;中文自动文摘关键技术的研究与实现[D];西安电子科技大学;2010年
9 张钊;基于无偏估计方程的模型选择[D];山东经济学院;2011年
10 史俊冰;问答系统中词义消歧与关键词扩展研究[D];太原理工大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期
2 陈伟;侯富民;;理想解法及其在学科评估中的应用探讨[J];中国高等教育评估;2005年04期
3 黄媛;基于市盈率模型的网络股定价及其改进[J];湖北商业高等专科学校学报;2000年03期
4 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
5 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
6 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期
7 路永刚;赵伟;;一种改进的MM分词方法的研究与实现[J];长春工业大学学报(自然科学版);2006年04期
8 肖云,孙茂松,邹嘉彦;利用上下文信息解决汉语自动分词中的组合型歧义[J];计算机工程与应用;2001年19期
9 谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期
10 李保利,俞士汶;话题识别与跟踪研究[J];计算机工程与应用;2003年17期
中国硕士学位论文全文数据库 前3条
1 孙胜平;中文微博客热点话题检测与跟踪技术研究[D];北京交通大学;2011年
2 周涓;基于最大最小距离法的多中心聚类算法研究[D];重庆大学;2006年
3 李晓明;k-means类型变量加权聚类算法的研究与实现[D];哈尔滨工业大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026