收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web文本观点挖掘及隐含情感倾向的研究

杨卉  
【摘要】:所谓观点,是指一个人对某些事物的想法和理解,它是对某些事物的判断和评价。观点并非是事实,因为观点既没有得到验证,也没有得到证明和确认。如果一个观点后来能够得到证明和确认,那它就不再是一个观点,而变成一个事实。因此,从一个Web访问者的角度来看,将所有发布在Web上的信息看成是观点比看成是事实更加妥当。了解其他人的想法和对事物的判断已经成为决策制定过程中最重要的依据之一。如今,互联网使一切成为可能,我们能够在互联网上了解那些并不认识的人和专家的观点和态度。同时,越来越多的人也在互联网上分享自己的感受和经历。随着网络上观点资源的日益丰富,如个人博客,在线评论等,给我们提供了新的机会和挑战,如何使用信息技术去挖掘和理解其他人的观点便是观点挖掘。 情感倾向分析是对Web上用户主动发布的内容(也称作用户生成内容)进行有效的分析和挖掘,识别出这些内容的情感趋势——赞同、反对、高兴或者悲伤,甚至进一步预测情感随时间的演化规律。通过对用户生成内容的情感倾向分析,使我们能够更好地了解用户的消费习惯,分析当下热点事件的舆情,帮助企业和政府作出合理正确的决策。 然而,目前被广泛使用的信息检索技术,尤其是搜索引擎技术,是以关键字为基础的,无法实现基于情感和观点的检索。其原因有两方面:第一,情感或者观点无法用简单的关键字来表示和索引。第二,信息检索领域的排序策略也并不适合观点挖掘。 目前,大多数的情感分析算法是需要靠我们用简单的术语来表达我们对产品和服务的情感。然而,文化因素,语言的细微差别和不同的上下文使其很难成为一个简单的赞成或是反对情感的书面文本字符串。因此,本文首先深入研究了情感倾向评估模型和Web文本特征抽取方法,提出了连续性情感评估模型和基于中文依赖语法的情感评估模型。在此基础上,为了挖掘Web文本的主题社区和情感趋势,本文将隐含情感倾向评估模型分别与Web文本社区挖掘算法和文本聚类方法K-Means算法相结合,提出了Web文本社区快速挖掘算法、基于多Agent的Web文本社区挖掘算法和基于隐含情感的Web文本聚类算法。本文主要工作如下: (1)在Web文本空间向量模型基础上,提出了一个基于中文依赖语法的主观字特征抽取方法。该方法能够在尽量避免噪音的情况下,依据中文依赖语法规则,抽取出文本表达中的主观字。实验分别在不同的特征向量空间和样本数量不平衡的情况下,对IG、MI、CE和我们的算法在KNN分类器下的表现进行了比较。 (2)针对离散情感倾向评估方法无法准确描述情感变化趋势的问题,提出了两个中文连续情感倾向评估模型,分别是中文连续情感评估模型和基于中文依赖语法的情感评估模型。中文连续情感评估模型旨在提出一个全面、准确的中文情感倾向分析模型。本文的方法首先识别出句子中出现的情感字,通过上下文的句法结构来判别出每个句子的情感倾向,然后通过整合所有句子的情感倾向来预测整篇文档的情感倾向。实验证明,该方法可以准确地描绘出一定时间段内的Web文本情感的变化趋势。基于中文依赖语法的情感评估模型,通过中文依赖语法规则来判别主观字的先验极性和修饰极性的方法。实验证明,在真实Web数据上,该方法比传统的SVM和NB算法的情感分类结果准确性更高。 (3)研究了Web文本社区挖掘算法。基于不同的Web社区结构,即静态社区和动态社区,分别提出了基于隐含情感的Web文本社区快速挖掘算法和基于多Agent的Web文本社区挖掘算法。基于多Agent的Web文本社区挖掘算法是一个动态社区挖掘算法,该算法可以在未知Web文本社区结构的情况下,有效地挖掘相同主题和相同情感的Web文本社区。以上两种算法的共同特点是在Web文本社区挖掘算法中,考虑了隐含情感因素,实验结果表明,这两种算法不仅能够提高Web文本挖掘算法的精度值,同时可以提高算法的回召值。 (4)改进了经典的文本聚类方法K-Means算法,提出了一个基于隐含情感的Web文本聚类算法,算法中给出了一个基于隐含情感和文本特征的相似性比较算法,同时算法基于一个新的分级机制的原始中心选择算法。因为一个好的原始中心不仅仅能够代表文本聚类的中心,同时可以更好的区分该中心与其他中心。通过实验验证,在不同类型的在线文本集上,K-Means算法、Bisecting K-Means算法、UPGMA算法和本文提出的HSK-Means算法想比较,具有原始中心选择的算法(如bisecting K-Means和HSK-Means算法)的表现明显优于不具有原始中心选择的文本聚类算法。 综上所述,本文深入研究了Web文本观点挖掘和中文文本隐含情感倾向分析问题,主要考虑了如何更加准确地评估文本中隐含情感倾向,即连续情感倾向评估问题;同时,分别对静态和动态的Web文本社区挖掘给出的两个不同算法,最后给出了一个基于隐含情感和原始中心选择的Web文本聚类算法。将隐含情感分析和社区挖掘相结合,不仅仅可以更加准确的、全面的了解观点持有者表达的真正想法,同时可以帮助需要使用和借鉴这些观点的人作出正确的决策。本文的算法研究和实现方法都非常新颖,且具有较高理论价值和实际应用价值。本文对观点挖掘和情感分析领域进一步研究具有重要意义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吕国防;;注意新闻表述中的情感倾向[J];新闻实践;2011年06期
2 张为昱;;感情色彩在报道中的分量[J];记者摇篮;2009年04期
3 刘丽;;隐性采访的法理情多维思考[J];西南科技大学学报(哲学社会科学版);2008年06期
4 王笑因;;在新闻中正确地运用情感[J];新闻战线;1985年09期
5 王笑因;;在新闻中正确地运用情感[J];新闻实践;1985年09期
6 李纲;程明结;寇广增;;基于情感倾向识别的汽车评论挖掘系统构建[J];情报学报;2011年02期
7 王素格;杨安娜;李德玉;;基于汉语情感词表的句子情感倾向分类研究[J];计算机工程与应用;2009年24期
8 宋晓雷;王素格;李红霞;李德玉;;基于概率潜在语义分析的词汇情感倾向判别[J];中文信息学报;2011年02期
9 李钝;曹付元;曹元大;万月亮;;基于短语模式的文本情感分类研究[J];计算机科学;2008年04期
10 朱艳辉;阳爱民;王平;;基于特征情感色彩的文档流派分类研究[J];计算机工程与应用;2007年04期
11 徐群岭;;一种新型的中文文本情感计算模型[J];计算机应用与软件;2011年06期
12 李纲;甘停;寇广增;;基于文本情感分类的网络推手识别[J];图书情报工作;2010年08期
13 王晓东;刘倩;陶县俊;;情感Ontology构建与文本倾向性分析[J];计算机工程与应用;2010年30期
14 赵煜;蔡皖东;;一种面向观点挖掘的多粒度话题情感联合模型[J];西安电子科技大学学报;2011年03期
15 金聪;金平;;网络环境下中文情感倾向的分类方法[J];语言文字应用;2008年02期
16 李实;叶强;李一军;罗嗣卿;;挖掘中文网络客户评论的产品特征及情感倾向[J];计算机应用研究;2010年08期
17 陈信凌;透切而饱满的呈示──论电视体育现场直播节目[J];中国广播电视学刊;1996年03期
18 柳位平;朱艳辉;栗春亮;向华政;文志强;;中文基础情感词词典构建方法研究[J];计算机应用;2009年10期
19 张素智;樊得强;李宝燕;;基于网络评论语言学结构的情感倾向识别模型[J];郑州大学学报(理学版);2011年01期
20 黄瑾娉;苏庭波;;一种产品评论信息的意见挖掘技术研究[J];工业控制计算机;2011年06期
中国重要会议论文全文数据库 前10条
1 韩健;;浅谈李十三剧作的艺术特色[A];三秦文化研究会年録(2008)[C];2008年
2 田庆敏;;借助范文,培养学生写作兴趣[A];江苏省教育学会2006年年会论文集(文科专辑)[C];2006年
3 林慧恩;林世平;;中文情感倾向分析中主观句子抽取方法的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 黄高辉;姚天昉;刘全升;;汉语意见型主观性语句类型分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 左维松;昝红英;张坤丽;吴云芳;;规则和统计相结合的情感分析研究[A];第五届全国信息检索学术会议论文集[C];2009年
6 陶富民;高军;周凯;;面向话题的新闻评论的情感特征选取[A];第五届全国信息检索学术会议论文集[C];2009年
7 吴苏红;王素格;;基于依存关系的旅游景点评论的特征-观点对抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 吴琼;谭松波;张刚;段洣毅;程学旗;;基于图排序模型的跨领域倾向性分析算法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 闫志功;张占友;;营造良好心理气氛与构建和谐班集体[A];国家教师科研基金十一五阶段性成果集(陕西卷)[C];2010年
10 何慧;陈博;郭军;;基于流形学习的半监督文本情感分类算法[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前7条
1 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
2 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
3 李实;中文网络客户评论中的产品特征挖掘方法研究[D];哈尔滨工业大学;2009年
4 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
5 赵宝春;中国消费者伦理行为研究[D];华中科技大学;2008年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 郭延红;朝鲜抒情小赋研究[D];中央民族大学;2012年
中国硕士学位论文全文数据库 前10条
1 米菲;网络流行体舆情信息的情感倾向研究[D];河北大学;2013年
2 宋光鹏;文本的情感倾向分析研究[D];北京邮电大学;2008年
3 潘玉洁;苏辙旅游诗文研究[D];上海师范大学;2009年
4 孙慧;基于组块分析的中文短语情感倾向研究[D];哈尔滨工业大学;2010年
5 陈静雅;吉林省本科护生临床带教教师评判性思维情感倾向的调查研究[D];吉林大学;2009年
6 郭叶;中文句子情感倾向分析[D];北京邮电大学;2010年
7 杨国峰;基于支持向量机的篇章情感倾向分析系统研究与实现[D];中山大学;2011年
8 薛宾;基于评价搭配的产品情感倾向聚类方法研究[D];山西大学;2013年
9 任斌;唐代落第诗研究[D];华东师范大学;2007年
10 谢振立;基于观点挖掘的用户情感倾向性分析[D];华南理工大学;2013年
中国重要报纸全文数据库 前10条
1 唐楠;新闻应避免情感倾向[N];中国新闻出版报;2005年
2 阎晶明(文学评论家);看善良如何面对残酷[N];中国图书商报;2006年
3 松桃民族中学 石桂仙;略谈艺术创作中的情感逻辑和情感性质[N];经济信息时报;2007年
4 姜兰剑;会议营销是一场完美伏击[N];医药经济报;2006年
5 江都市二姜中学 蔡美华;动之以情,晓之以理,导之以行[N];成才导报.教育周刊;2007年
6 高苏芳;在表演中巩固 在巩固后感悟[N];中国教师报;2008年
7 杨勇涛;让摄影唤起心灵的本真[N];中国摄影报;2005年
8 费度;“电视病”及其预防[N];中国中医药报;2007年
9 阿炳;中国当代版画十家之代大权[N];文艺报;2008年
10 苟永新;关注民生新闻 反映热点问题[N];张掖日报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978