收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

BBS热点话题挖掘与观点分析

姚晓娜  
【摘要】: 随着互联网的飞速发展,BBS(即网络论坛)已经成为人们自由发表言论,表达民意的重要平台。政府和网管部门需要利用有效的智能技术,对BBS进行舆情监控,以便及时掌握各个时期民众关心的热点话题,并了解民众对这些热点话题的观点和态度,从而做出正确、科学的决策。 本文的主要研究内容如下: (1) BBS信息的自动抽取:为了实现对BBS网页的自动采集和信息抽取,本文采用HTML Parser包和正则表达式对HTML类型的BBS网页进行解析,从中抽取BBS帖子线索的各项信息,并将抽取结果存入XML文件中。 (2)面向BBS文本的特征选择及权重计算:BBS文本的语言和结构与传统的文本有所不同,有着自己的特点。本文选取词条的出现次数、出现位置、词长以及包含该词条的帖子数目等四个因子来评估特征项,并用综合评估函数代替了TF-IDF公式中的TF项,来计算特征项在向量空间模型中的权重。 (3) BBS热点话题挖掘:话题识别是热点话题挖掘的一个关键步骤,本文分别采用Single-Pass、K-Means以及K-Medoids聚类算法进行话题识别,在实际应用时根据原算法存在的缺陷做了相应改进,并给出实验结果及其分析。在话题识别的基础上,综合话题的线索数、精华线索数、回复数、单位时间浏览数等信息,对话题进行热度评分。 (4) BBS帖子线索的观点分析:本文将帖子线索的特征项作为观点的评价对象,结合极性词词典和依存句法分析技术,采用了SBV(主谓关系)极性传递算法对BBS中的观点句进行观点分析。针对主谓关系和动宾关系之间存在连动关系的观点句,对SBV极性传递算法做了补充。在句子观点分析的基础上,对整个BBS帖子线索进行观点分析。最后,通过实验验证了观点分析算法的有效性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘务华;罗铁坚;王文杰;;文本聚类技术的有效性验证[J];计算机工程;2007年01期
2 丁堃;许侃;;基于文本聚类方法的我国科技管理研究领域的计量研究[J];科学学研究;2007年S1期
3 丘志宏;宫雷光;;利用上下文提高文本聚类的效果[J];中文信息学报;2007年06期
4 马娜;;文本聚类研究[J];电脑知识与技术;2009年20期
5 王崇国;;以事件为特征的文本聚类方法[J];计算机应用与软件;2010年08期
6 王利峰;;动态索引树文本聚类方法中节点阀值的优化[J];电脑开发与应用;2010年09期
7 高松;冯志伟;;基于依存树库的文本聚类研究[J];中文信息学报;2011年03期
8 曲超;潘晓衡;朱君;蔡少仲;胡天明;;基于单词超团的文本聚类方法[J];计算机工程;2011年11期
9 周扬;屈武斌;卢一鸣;张成岗;杨毅;;基于文本频谱的中文文本聚类方法[J];四川大学学报(自然科学版);2012年06期
10 明均仁;;基于本体图的文本聚类模型研究[J];情报科学;2013年02期
11 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[J];中文信息学报;2007年02期
12 王永恒;贾焰;杨树强;;海量短语信息文本聚类技术研究[J];计算机工程;2007年14期
13 修宇;王士同;朱林;宗成庆;;极大熵球面K均值文本聚类分析[J];计算机科学与探索;2007年03期
14 杨彩莲;谢福鼎;;基于主题概念聚类的中文文本聚类[J];现代电子技术;2007年22期
15 郭建永;蔡勇;甄艳霞;;基于文本聚类技术的主题发现[J];计算机工程与设计;2008年06期
16 葛诗利;陈潇潇;;文本聚类在大学英语作文自动评分中应用[J];计算机工程与应用;2009年06期
17 黄伟;刘海涛;;汉语语体的计量特征在文本聚类中的应用[J];计算机工程与应用;2009年29期
18 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法[J];模式识别与人工智能;2009年06期
19 刘金岭;;基于语义的中文文本聚类最佳簇数研究[J];计算机工程与设计;2010年09期
20 马晓佳;;基于潜在语义标引的文本聚类研究[J];情报探索;2010年07期
中国重要会议论文全文数据库 前10条
1 赵世奇;刘挺;李生;;一种基于主题的文本聚类方法[A];第三届学生计算语言学研讨会论文集[C];2006年
2 王洪俊;俞士汶;苏祺;施水才;肖诗斌;;中文文本聚类的特征单元比较[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
4 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
5 胡吉祥;许洪波;刘悦;王斌;程学旗;;基于重复串的短文本聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 王明文;付剑波;罗远胜;陆旭;;基于协同聚类的两阶段文本聚类方法研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
9 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
10 章成志;;基于多语文本聚类的主题层次体系生成研究1)[A];国家自然科学基金委员会管理科学部宏观管理与政策学科青年基金获得者交流研讨会论文集[C];2010年
中国博士学位论文全文数据库 前3条
1 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
2 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 张猛;文本聚类中参数自动设置技术的研究与实现[D];东北大学;2005年
2 周昭涛;文本聚类分析效果评价及文本表示研究[D];中国科学院研究生院(计算技术研究所);2005年
3 谢凤宏;基于复杂网络理论的文本聚类和关键词提取方法研究[D];辽宁师范大学;2011年
4 徐晓明;专利文本聚类及关键短语抽取的研究[D];东北大学;2011年
5 郑韫旸;基于k-平均算法的文本聚类系统研究与实现[D];武汉理工大学;2008年
6 王智超;基于边界距离的文本聚类方法研究[D];沈阳航空工业学院;2008年
7 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
8 龚静;中文文本聚类中特征选择算法的研究[D];湘潭大学;2006年
9 王月;改进的模糊C-均值算法在文本聚类中的应用研究[D];辽宁工程技术大学;2009年
10 李迪;基于文本聚类和语料库的信誉维度发现研究[D];华中科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978