收藏本站
《武汉理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于确定话题和情感极性的博客文本聚类研究

庞俊  
【摘要】: 随着互联网的发展,人们获取信息的需求不断增加,而面对庞大的网络信息量,同时也给人们获得需要的信息带来极大的困难。网络信息中极为典型的是博客文本,或简称博客。博客中常包含大量评论,包含了博客作者对人,事物,事件等的情感和态度(统称为观点)。这些情感和态度包含着大量有价值的信息。了解这些“观点”、“情感极性”或“态度”可以帮助人们获得更有价值的信息,从而进行有效的抉择,如告诉人们应当购买何种商品,帮助商家制定市场策略,帮助政府掌握网络舆情。分析和挖掘博客中蕴含的博客作者的观点成为当前数据挖掘领域研究热点之一。 观点挖掘是一种从论坛、讨论组等内容中挖掘所表达的观点的技术。一般观点挖掘有四个子任务:(1)话题抽取(Topic Extraction)(2)观点持有者识别(Holder Identification)(3)陈述的选择(Claim Selection)(4)情感分析(Sentiment Analysis)。观点挖掘的研究国外起步早,主要针对英文文本;国内针对中文文本的观点挖掘研究起步晚,很多基础性工作尚在进行中。目前,绝大部分的研究把情感极性(或者称为情感倾向,即人对客观事物的好、恶,褒、贬,支持、反对等态度)分为2类(正向和负向)或3类(正向、中立和负向)。众所周之,人的情感是丰富的,仅仅使用这2、3种,不足以表达蕴含在博客文本中的作者的情感,需要用更多类的情感极性来表达。目前,基于作者,日期和话题等对博客文本进行聚类研究已有先例,而基于情感极性对中文博客文本聚类研究仍鲜见报道。 本文主要根据博客文本中的作者的情感极性,采用聚类技术,将中文博客文本进行分组处理,使组内文本的情感极性相近,组间文本具有不同情感极性,并达到细分情感极性的目的。经研究发现,尽管博客文本中包含了丰富的情感,不过这些情感可能很分散,而博客搜索引擎搜索到的博客搜索结果项(指标题和摘要部分)虽然包含的情感比较少,但是这些情感倾向性相对集中。所以,本次研究使用博客搜索结果来作为博客文本的精练表达,从而以此为研究对象。 本文首先设计一个“爬虫”,用它来获取Google博客由此得到确定话题(本文实验部分选用了两个话题“建国大业”与“刘翔”)相关的结果。然后,使用人工标注的方法根据情感极性把采集到的数据集标注成3类(正向,中立和负向)。接着,使用中科院ICTCLA分词工具对搜索结果数据集进行分词预处理,并使用基于词典的方法提取情感词(文中采用了Hownet和NTUSD两部中文情感词词典)。紧接着,使用Adam Schenker, Horst Bunke等提出的“标准的基于图的文本表示模型”(简称为GBR模型)和本文作者设计的“整合图文本表示模型”(简称为SoB-graph模型)分别表示数据集文本;在此基础上使用Adam Schenker, Horst Bunke等使用的基于图文本表示模型的K-Medoids算法,进行情感聚类分析。最后,使用簇中心方法表示了聚类情感簇,所谓簇中心即同类情感词的折衷情感词,并使用"Ground Truth"方法的三个常用度量:精度(Precision),熵(Entropy)和边缘索引(Rand Index)对聚类结果进行评介。 实验结果表明:使用作者提出的SoB-graph模型进行的聚类分析性能较好。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王煜;;机器学习技术在文本分析中的应用[J];华南金融电脑;2007年05期
2 马辉民;李卫华;吴良元;;VSM在中文文本聚类中的应用及实证分析[J];武汉理工大学学报(信息与管理工程版);2006年04期
3 龚静;田小梅;;基于文本表示的特征项权值计算方法[J];电脑开发与应用;2008年02期
4 马晓佳;;基于潜在语义标引的文本聚类研究[J];情报探索;2010年07期
5 徐超;周一民;沈磊;;一种面向隐含主题的上下文树核[J];电子与信息学报;2010年11期
6 费洪晓;穆珺;刘正;;基于文本聚类和权重调整的用户兴趣建模算法[J];计算机技术与发展;2007年02期
7 阳小兰;钱程;赵海廷;;Web文本预处理技术探析[J];电脑知识与技术;2010年29期
8 陈嘉勇;;基于WEKA平台的文本聚类研究与实现[J];中国管理信息化;2009年21期
9 史旗凯;郭菊娥;马续补;叶金凤;;基于SMA信息抽取的事实主题的识别研究[J];情报学报;2009年01期
10 曾德华;;基于语义和统计特征的中文文本表示方法[J];中国管理信息化;2009年15期
11 姜宁,史忠植;文本聚类中的贝叶斯后验模型选择方法[J];计算机研究与发展;2002年05期
12 韩腊萍,余雪丽;一个分布式入侵检测系统框架设计[J];计算机工程;2004年13期
13 郭庆琳,樊孝忠;基于文本聚类和NLU的自动文摘系统的研究与实现[J];现代电力;2004年04期
14 郭庆琳,樊孝忠,柳长安;基于文本聚类和NLU的自动文摘研究[J];北京理工大学学报;2005年08期
15 郭庆琳;樊孝忠;柳长安;;基于文本聚类的自动文摘系统的研究与实现[J];计算机工程;2006年04期
16 巩知乐;张德贤;;文本挖掘理论概述[J];福建电脑;2008年09期
17 姚清耘;刘功申;李翔;;基于向量空间模型的文本聚类算法[J];计算机工程;2008年18期
18 门国尊;;用于信息检索的文本聚类技术[J];今日科苑;2008年20期
19 李众;梁志剑;;一种改进的文本聚类算法[J];陕西科技大学学报(自然科学版);2008年06期
20 张春炉;沈建京;;基于SOM算法的文本聚类实现[J];计算机与现代化;2010年01期
中国重要会议论文全文数据库 前10条
1 张猛;王大玲;于戈;;一种基于自动阈值发现的文本聚类方法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
2 董婧灵;李芳;何婷婷;涂新辉;万剑;;基于LDA模型的文本聚类研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王乐;田李;贾焰;韩伟红;;一个并行的文本聚类混合算法[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
4 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
5 张刚;周昭涛;王斌;;基于主题的分布式信息检索研究[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 周昭涛;卜东波;程学旗;;文本的图表示初探[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
7 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
8 王莹;刘杨;;维基百科的文本聚类方法分析[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
9 黎琳;;Web内容挖掘在数字图书馆中的应用[A];中国工程物理研究院第七届电子技术青年学术交流会论文集[C];2005年
10 彭怡;;从数据挖掘文章聚类分析看其发展趋势[A];现代工业工程与管理研讨会会议论文集[C];2006年
中国重要报纸全文数据库 前9条
1 上渊;新一代网络技术IPv9走向商用[N];中国高新技术产业导报;2004年
2 王萍;Web文本的知识化管理[N];计算机世界;2006年
3 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
4 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
5 记者 朱蓓宁实习生 施蜜;带合同示范文本放心出境游[N];南通日报;2007年
6 金炜周太友 见习记者 黄粒粟;“十七大报告说到我们心坎上了”[N];中华工商时报;2007年
7 ;BI和文本分析的强强联手[N];网络世界;2007年
8 本报记者 钟伟 郜云雁;“四融合”理念欲拨开学校信息化迷雾[N];中国教育报;2001年
9 ;外交部举行记者招待会[N];新华每日电讯;2001年
中国博士学位论文全文数据库 前10条
1 单建芳;面向事件的文本表示研究[D];上海大学;2012年
2 徐森;文本聚类集成关键技术研究[D];哈尔滨工程大学;2010年
3 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
4 王乐;短语消息聚类相关技术研究[D];国防科学技术大学;2008年
5 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
6 郝立丽;汉语文本数据挖掘[D];吉林大学;2009年
7 倪兴良;问答系统中的短文本聚类研究与应用[D];中国科学技术大学;2011年
8 刘向威;NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
9 高茂庭;文本聚类分析若干问题研究[D];天津大学;2007年
10 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 庞俊;基于确定话题和情感极性的博客文本聚类研究[D];武汉理工大学;2010年
2 何晏成;基于近邻传播和凝聚层次的文本聚类方法[D];哈尔滨工业大学;2010年
3 张金;个性化信息检索系统中文本聚类的研究[D];东北师范大学;2010年
4 孙爽;基于语义相似度的文本聚类算法的研究[D];南京航空航天大学;2007年
5 李梅;改进的K均值算法在中文文本聚类中的研究[D];安徽大学;2010年
6 王飞;基于蚁群优化的模糊文本聚类算法研究[D];河南工业大学;2010年
7 肖杰;基于频繁项集的文本聚类方法研究[D];中南大学;2009年
8 姚清耘;基于向量空间模型的中文文本聚类方法的研究[D];上海交通大学;2008年
9 马文超;基于2度频繁词序列的文本聚类算法研究[D];河南大学;2009年
10 赵颖;基于Ontology的Web文本聚类研究[D];西华大学;2011年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978