收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

网络论坛话题发现与跟踪技术研究

盛江涛  
【摘要】:网络舆情是在互联网上流行的对社会问题不同看法的网络舆论,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的言论和观点,它们有较强影响力和倾向性。随着互联网的普及和开放,人民参政议政,同时也实践自己的权利。但总有一部分网民通过互联网传播一些恶意、虚假的言论,误导了民众,造成了社会的不稳定性。话题发现与跟踪系统一方面可以应用于对网络论坛等形式的舆情途径进行监管,另一方面应用于为用户提供话题分类标签,利于用户的查找。 基于网络论坛的话题发现和追踪技术因为涉及多个学科,仍处于发展阶段。目前,主要的方法是通过对论坛中的帖子进行聚类分析而获取话题。针对不同系统应用的聚类算法改进,是目前研究的主要方向。现有的典型的聚类算法各有一定的优势,但应用到系统中都面临着动态数据适应性、数据结构的适应性、聚类效果、待聚类数据形状等方面的约束。没有一种现有的算法可以完全适应以上的特性。 采用文本聚类方式获取话题和跟踪话题易于理解,易于实现。因此,本文选取文本聚类方法。首先对文本聚类相关的核心技术做了概述性总结,然后在现有文本模型向量空间模型的基础上,对层次聚类算法进行了改进,继承了层次聚类算法的聚类效果好、可实现多粒度聚类的特点,同时又能够适应动态数据,对不断更新的数据进行增量聚类,并将该算法设计到论坛话题发现与跟踪系统中。通过对两个知名论坛的数据测试,话题发现和跟踪系统都可以达到较好的准确度。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.094

【参考文献】
中国期刊全文数据库 前1条
1 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
中国重要会议论文全文数据库 前2条
1 邱立坤;陶然;龙志祎;程葳;;面向互联网的话题发现技术研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
2 郑伟;张宇;邹博伟;洪宇;刘挺;;基于相关性模型的中文话题跟踪研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前1条
1 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前1条
1 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年
【共引文献】
中国期刊全文数据库 前9条
1 白曦;吕晓枫;孙吉贵;;融合模拟退火的遗传算法在文档聚类中的应用[J];计算机工程与应用;2006年23期
2 郏宣耀;滕少华;;一种基于聚类的彩色图像分色算法[J];计算技术与自动化;2006年01期
3 刘泉凤,陆蓓,王小华;文本挖掘中聚类算法的比较研究[J];计算机时代;2005年06期
4 郭莉,张吉,谭建龙;基于后缀树模型的文本实时分类系统的研究和实现[J];中文信息学报;2005年05期
5 张海龙;王莲芝;;自动文本分类特征选择方法研究[J];计算机工程与设计;2006年20期
6 刘海涛;老松杨;韩智广;;自动文摘系统中的段落自适应聚类研究[J];微计算机信息;2006年18期
7 石云平;辛大欣;;基于K-means聚类算法的分析及应用[J];西安工业学院学报;2006年01期
8 祝晓鲁;白振兴;贾海燕;;自动文本分类技术研究[J];现代电子技术;2007年03期
9 刘泉凤,陆蓓;数据挖掘中聚类算法的比较研究[J];浙江水利水电专科学校学报;2005年02期
中国重要会议论文全文数据库 前7条
1 YANG Jian-wu National Key Laboratory for Text Processing, Institute of Computer Science and Technology, Peking University, Beijing 100871, China;A Chinese Web Page Clustering Algorithm Based on the Suffix Tree[A];Proceedings of the First Conference on Web Information System and Applications[C];2004年
2 宫蕊;舒红平;郭远远;;基于DBSCAN的密度聚类算法的研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
3 龚才春;贺敏;张华平;许洪波;程学旗;;大规模语料的频繁模式快速发现算法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
4 曾依灵;许洪波;;网络热点信息发现研究[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
5 郭莉;刘燕兵;谭建龙;;基于存储压缩的多模式串匹配算法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 YANG Jian-wu National Key Laboratory for Text Processing. Institute of Computer Science and Technology, Peking University. Beijing 100871, China;A Chinese Web Page Clustering Algorithm Based on the Suffix Tree[A];Proceedings of the First Conference on Web Information System and Applications(WISA 2004)[C];2004年
7 周俊生;戴新宇;陈家骏;曲维光;;基于一种新的合成核的中文实体关系自动抽取[A];中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
2 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
3 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
4 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
5 刘华;基于关键短语的文本内容标引研究[D];北京语言大学;2005年
6 赵基;基于数据挖掘的银行客户分析管理关键技术研究[D];浙江大学;2005年
7 刘洁;对等网络环境下基于语义的异构数据管理模型[D];中国科学院研究生院(计算技术研究所);2005年
8 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
9 梁作鹏;面向Web的XML检索关键技术研究[D];东南大学;2005年
10 何丽;基于Web挖掘的决策支持系统模型研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
2 栾丽华;聚类算法研究[D];南京师范大学;2004年
3 缪嘉嘉;数据仓库的数据获取关键技术研究[D];国防科学技术大学;2003年
4 李丽珊;基于动态簇中心迁移的聚类算法及应用[D];福州大学;2005年
5 罗贤缙;聚类分析在电力营销中的应用研究[D];华北电力大学(河北);2005年
6 单缅;数据挖掘中模糊聚类分析的研究及其应用[D];吉林大学;2005年
7 孙力;生物信息学中多序列比对算法的研究[D];黑龙江大学;2005年
8 李遂;通用电视节目管理平台[D];湖南大学;2005年
9 李东升;主题搜索引擎研究[D];哈尔滨工程大学;2005年
10 黄发良;基于知识粒度的Web文档聚类研究[D];广西师范大学;2005年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
2 周水庚,关佶红,胡运发,周傲英;一个无需词典支持和切词处理的中文文档分类系统[J];计算机研究与发展;2001年07期
3 林鸿飞;基于示例的文本标题分类机制[J];计算机研究与发展;2001年09期
4 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
5 贾自艳 ,何清 ,张海俊 ,李嘉佑 ,史忠植;一种基于动态进化模型的事件探测和追踪算法[J];计算机研究与发展;2004年07期
6 谭琼,史忠植;分词中的歧义处理[J];计算机工程与应用;2002年11期
7 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
8 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
9 刘昌钰,唐常杰,于中华,杜永萍,郭颖;基于潜在语义分析的BBS文档Bayes鉴别器[J];计算机学报;2004年04期
10 吴栋,滕育平;中文信息检索引擎中的分词与检索技术[J];计算机应用;2004年07期
中国硕士学位论文全文数据库 前3条
1 周钦强;基于人工智能技术Naive Bayes文本自动分类系统研究[D];广东工业大学;2005年
2 李东林;中文信息过滤技术的研究与应用[D];辽宁科技大学;2006年
3 程岚岚;面向领域的中文搜索引擎若干关键技术研究[D];天津大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
2 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
3 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
4 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
5 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
6 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
7 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
8 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
9 张春炉;沈建京;;基于SOM算法的文本聚类实现[J];计算机与现代化;2010年01期
10 马玉春,宋瀚涛;基于搜索引擎的知识发现[J];计算机工程与应用;2004年30期
中国重要会议论文全文数据库 前10条
1 孙德龙;张艳秋;吴楠;杜选民;;多运动目标自动检测与跟踪技术研究[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
2 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
3 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 王建华;杜昕;张莉;王岳恒;尹洪宁;毛天杰;;血管回声跟踪技术定量评价颈动脉弹性的临床研究[A];全国医学影像技术学术会议(CMIT-2004)论文汇编[C];2004年
6 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
7 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 颜丹;何文;邬冬芳;;血管回声跟踪技术对高血压伴高血脂患者颈动脉弹性功能的检测[A];中国超声医学工程学会第七届全国腹部超声学术会议学术论文汇编[C];2007年
9 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
中国重要报纸全文数据库 前10条
1 朱奎;军事跟踪技术:让“猎物”无所遁形[N];中国国防报;2011年
2 刘霞;眼球跟踪技术有望取代测谎仪[N];科技日报;2010年
3 文舟;蒂森克虏伯板坯运输将采用无线射频跟踪技术[N];中国冶金报;2007年
4 北方交通大学王瑞峰;抢占太阳能发展制高点[N];科技日报;2002年
5 □ 王瑞峰;太阳能应用中的“运动战”[N];河北日报;2003年
6 记者 顾瑾 通讯员 徐红萍;杭州电信推出“网络健身馆”[N];人民邮电;2010年
7 德州仪器公司 Michael Vega;针对单节电池供电应用的电量监测技术(2)[N];电子报;2008年
8 简妮;信息技术赢得效率[N];建筑时报;2008年
9 彭;造雾机与电脑制图[N];电脑商报;2008年
10 合肥 周民康;光伏系统功率跟踪技术[N];电子报;2005年
中国博士学位论文全文数据库 前10条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
3 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
4 王宏强;目标融合跟踪技术及性能预测研究[D];中国人民解放军国防科学技术大学;2002年
5 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
6 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
7 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
8 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
9 宣照国;文本挖掘算法及其在知识管理中的应用研究[D];大连理工大学;2008年
10 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 盛江涛;网络论坛话题发现与跟踪技术研究[D];哈尔滨工业大学;2010年
2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
3 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
4 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
5 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
6 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
7 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
8 刘延亮;一种文本聚类原型系统的设计与实现[D];大连理工大学;2006年
9 谷波;基于粗集模型的聚类方法及其在文献过滤系统中的应用[D];山西大学;2004年
10 胡海龙;基于改进的后缀树算法的中英文聚类引擎的实现[D];吉林大学;2008年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026