收藏本站
《吉林大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

Web文本观点挖掘及隐含情感倾向的研究

杨卉  
【摘要】:所谓观点,是指一个人对某些事物的想法和理解,它是对某些事物的判断和评价。观点并非是事实,因为观点既没有得到验证,也没有得到证明和确认。如果一个观点后来能够得到证明和确认,那它就不再是一个观点,而变成一个事实。因此,从一个Web访问者的角度来看,将所有发布在Web上的信息看成是观点比看成是事实更加妥当。了解其他人的想法和对事物的判断已经成为决策制定过程中最重要的依据之一。如今,互联网使一切成为可能,我们能够在互联网上了解那些并不认识的人和专家的观点和态度。同时,越来越多的人也在互联网上分享自己的感受和经历。随着网络上观点资源的日益丰富,如个人博客,在线评论等,给我们提供了新的机会和挑战,如何使用信息技术去挖掘和理解其他人的观点便是观点挖掘。 情感倾向分析是对Web上用户主动发布的内容(也称作用户生成内容)进行有效的分析和挖掘,识别出这些内容的情感趋势——赞同、反对、高兴或者悲伤,甚至进一步预测情感随时间的演化规律。通过对用户生成内容的情感倾向分析,使我们能够更好地了解用户的消费习惯,分析当下热点事件的舆情,帮助企业和政府作出合理正确的决策。 然而,目前被广泛使用的信息检索技术,尤其是搜索引擎技术,是以关键字为基础的,无法实现基于情感和观点的检索。其原因有两方面:第一,情感或者观点无法用简单的关键字来表示和索引。第二,信息检索领域的排序策略也并不适合观点挖掘。 目前,大多数的情感分析算法是需要靠我们用简单的术语来表达我们对产品和服务的情感。然而,文化因素,语言的细微差别和不同的上下文使其很难成为一个简单的赞成或是反对情感的书面文本字符串。因此,本文首先深入研究了情感倾向评估模型和Web文本特征抽取方法,提出了连续性情感评估模型和基于中文依赖语法的情感评估模型。在此基础上,为了挖掘Web文本的主题社区和情感趋势,本文将隐含情感倾向评估模型分别与Web文本社区挖掘算法和文本聚类方法K-Means算法相结合,提出了Web文本社区快速挖掘算法、基于多Agent的Web文本社区挖掘算法和基于隐含情感的Web文本聚类算法。本文主要工作如下: (1)在Web文本空间向量模型基础上,提出了一个基于中文依赖语法的主观字特征抽取方法。该方法能够在尽量避免噪音的情况下,依据中文依赖语法规则,抽取出文本表达中的主观字。实验分别在不同的特征向量空间和样本数量不平衡的情况下,对IG、MI、CE和我们的算法在KNN分类器下的表现进行了比较。 (2)针对离散情感倾向评估方法无法准确描述情感变化趋势的问题,提出了两个中文连续情感倾向评估模型,分别是中文连续情感评估模型和基于中文依赖语法的情感评估模型。中文连续情感评估模型旨在提出一个全面、准确的中文情感倾向分析模型。本文的方法首先识别出句子中出现的情感字,通过上下文的句法结构来判别出每个句子的情感倾向,然后通过整合所有句子的情感倾向来预测整篇文档的情感倾向。实验证明,该方法可以准确地描绘出一定时间段内的Web文本情感的变化趋势。基于中文依赖语法的情感评估模型,通过中文依赖语法规则来判别主观字的先验极性和修饰极性的方法。实验证明,在真实Web数据上,该方法比传统的SVM和NB算法的情感分类结果准确性更高。 (3)研究了Web文本社区挖掘算法。基于不同的Web社区结构,即静态社区和动态社区,分别提出了基于隐含情感的Web文本社区快速挖掘算法和基于多Agent的Web文本社区挖掘算法。基于多Agent的Web文本社区挖掘算法是一个动态社区挖掘算法,该算法可以在未知Web文本社区结构的情况下,有效地挖掘相同主题和相同情感的Web文本社区。以上两种算法的共同特点是在Web文本社区挖掘算法中,考虑了隐含情感因素,实验结果表明,这两种算法不仅能够提高Web文本挖掘算法的精度值,同时可以提高算法的回召值。 (4)改进了经典的文本聚类方法K-Means算法,提出了一个基于隐含情感的Web文本聚类算法,算法中给出了一个基于隐含情感和文本特征的相似性比较算法,同时算法基于一个新的分级机制的原始中心选择算法。因为一个好的原始中心不仅仅能够代表文本聚类的中心,同时可以更好的区分该中心与其他中心。通过实验验证,在不同类型的在线文本集上,K-Means算法、Bisecting K-Means算法、UPGMA算法和本文提出的HSK-Means算法想比较,具有原始中心选择的算法(如bisecting K-Means和HSK-Means算法)的表现明显优于不具有原始中心选择的文本聚类算法。 综上所述,本文深入研究了Web文本观点挖掘和中文文本隐含情感倾向分析问题,主要考虑了如何更加准确地评估文本中隐含情感倾向,即连续情感倾向评估问题;同时,分别对静态和动态的Web文本社区挖掘给出的两个不同算法,最后给出了一个基于隐含情感和原始中心选择的Web文本聚类算法。将隐含情感分析和社区挖掘相结合,不仅仅可以更加准确的、全面的了解观点持有者表达的真正想法,同时可以帮助需要使用和借鉴这些观点的人作出正确的决策。本文的算法研究和实现方法都非常新颖,且具有较高理论价值和实际应用价值。本文对观点挖掘和情感分析领域进一步研究具有重要意义。
【学位授予单位】:吉林大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

知网文化
【引证文献】
中国期刊全文数据库 前1条
1 孙中秋;陈晓美;;基于学科视角的国内观点挖掘研究述评[J];图书馆学研究;2014年10期
中国博士学位论文全文数据库 前1条
1 董坚峰;面向公共危机预警的网络舆情分析研究[D];武汉大学;2013年
中国硕士学位论文全文数据库 前2条
1 薛宾;基于评价搭配的产品情感倾向聚类方法研究[D];山西大学;2013年
2 张丽;基于WEB的多课程测评系统的设计与实现[D];青岛理工大学;2013年
【参考文献】
中国期刊全文数据库 前3条
1 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
2 刘鸿宇;赵妍妍;秦兵;刘挺;;评价对象抽取及其倾向性分析[J];中文信息学报;2010年01期
3 苏璇;王晓晔;王卓;;基于信息熵的模糊聚类新算法研究[J];天津理工大学学报;2010年05期
【共引文献】
中国期刊全文数据库 前10条
1 李荣军;王小捷;周延泉;;PageRank模型在中文情感词极性判别中的应用[J];北京邮电大学学报;2010年05期
2 刘笑嶂;冯国灿;;A Kernel Clustering Algorithm for Fast Training of Support Vector Machines[J];Journal of Donghua University(English Edition);2011年01期
3 庞娜;;增量学习算法对文本情感识别模型的改进[J];电脑开发与应用;2011年07期
4 梁坤;古丽拉·阿东别克;;基于SVM的中文新闻评论的情感自动分类研究[J];电脑知识与技术;2009年13期
5 张彬;杨志晓;;基于基准词的文本情感倾向性研究[J];电脑知识与技术;2011年08期
6 李艺红;蒋秀凤;;中文句子倾向性分析[J];福州大学学报(自然科学版);2010年04期
7 廖祥文;张小琴;;基于句型结构的领域倾向词表构建[J];福州大学学报(自然科学版);2011年04期
8 李迎凯;徐小良;;一种改进的基于知网的句子相似度计算方法[J];电子科技;2012年07期
9 郑敏洁;雷志城;廖祥文;陈国龙;;中文句子评价对象抽取的特征分析研究[J];福州大学学报(自然科学版);2012年05期
10 罗安;王勇;张福浩;刘纪平;;基于角色标注的中文POI名称语义分类方法[J];测绘通报;2012年S1期
中国重要会议论文全文数据库 前10条
1 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
2 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
3 ;Comparing Chinese reviews based on Fuzzy PROMETHEE: A new approach to sentiment analysis[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
4 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
5 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[A];第三届学生计算语言学研讨会论文集[C];2006年
6 姚天昉;聂青阳;李建超;李林琳;娄德成;陈珂;付宇;;一个用于汉语汽车评论的意见挖掘系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 李斌;卢俊之;章成志;陈小荷;;基于聚类引擎的话题褒贬度计算[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 申晓晔;封化民;毋非;;基于语义理解的Web新闻倾向性分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
4 杨峰;本体映射关键技术研究[D];吉林大学;2011年
5 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
6 刘笑嶂;核方法的若干关键问题研究及其在人脸图像分析中的应用[D];中山大学;2010年
7 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
8 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
9 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
10 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
2 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
3 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
4 邓忠莹;中文文本倾向性分类系统研究[D];昆明理工大学;2009年
5 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
6 李海林;网络舆情热点信息发现及其倾向性研究[D];武汉理工大学;2010年
7 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
8 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
9 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年
10 吴秀梅;基于潜在语义分析和最大熵的中文情感分析研究[D];北京交通大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 高昆;基于ASP的WEB站点开发技术分析[J];吉林师范学院学报;1999年05期
2 艾新革;;图书馆政府舆情信息服务研究[J];图书与情报;2011年04期
3 何黎霞;;无线物料报单系统的设计与实现[J];长江大学学报(自然科学版)理工卷;2008年04期
4 罗万才;王玲华;雷君虎;;基于开源项目JfreeReport的Web动态报表[J];长沙铁道学院学报(社会科学版);2009年02期
5 王明霞,蒋文科,郭卫,张梅;基于Web服务的农业专家系统集成方案研究[J];河北农业大学学报;2004年06期
6 吴建华;;基于信息管理的公共危机预警研究[J];档案学通讯;2009年03期
7 张利 ,邵世煌 ,曾献辉 ,尹美华 ,李志刚;Development of Standard Examination System of Special Course for Remote Education[J];Journal of DongHua University;2002年01期
8 魏玖长;韦玉芳;周磊;;群体性突发事件中群体行为的演化态势研究[J];电子科技大学学报(社科版);2011年06期
9 段富;程艳芳;;基于Web Services的UDDI技术与系统集成[J];大连理工大学学报;2005年S1期
10 张辉;;基于本体的语义Web挖掘技术研究[J];电脑开发与应用;2009年02期
中国博士学位论文全文数据库 前9条
1 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
2 王辉;面向互联网的Web服务基础设施构建和应用[D];天津大学;2010年
3 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
4 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
5 刘铁江;组合Web服务选择、部署与执行的关键技术研究[D];复旦大学;2011年
6 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
7 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
8 田野;基于微博平台的事件趋势分析及预测研究[D];武汉大学;2012年
9 吴苑斌;情感倾向分析中的结构化方法[D];复旦大学;2012年
中国硕士学位论文全文数据库 前3条
1 张岩;基于语义角色的句子语义倾向判断[D];北京邮电大学;2008年
2 金碧辉;轿车产品综合评价系统有效性研究[D];武汉理工大学;2009年
3 宋晓雷;基于Web的汽车产品评论观点挖掘方法研究[D];山西大学;2010年
【二级参考文献】
中国期刊全文数据库 前2条
1 杜长海;黄席樾;杨祖元;邓天民;詹建平;;改进的FCM聚类在交通时段自动划分中的应用[J];计算机工程与应用;2009年24期
2 王燕;;基于信息熵的标称变量聚类算法研究[J];计算机应用;2006年08期
中国硕士学位论文全文数据库 前1条
1 张栒;FCM算法初始化方法研究[D];西南大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 吕国防;;注意新闻表述中的情感倾向[J];新闻实践;2011年06期
2 张为昱;;感情色彩在报道中的分量[J];记者摇篮;2009年04期
3 刘丽;;隐性采访的法理情多维思考[J];西南科技大学学报(哲学社会科学版);2008年06期
4 王笑因;;在新闻中正确地运用情感[J];新闻战线;1985年09期
5 王笑因;;在新闻中正确地运用情感[J];新闻实践;1985年09期
6 李纲;程明结;寇广增;;基于情感倾向识别的汽车评论挖掘系统构建[J];情报学报;2011年02期
7 王素格;杨安娜;李德玉;;基于汉语情感词表的句子情感倾向分类研究[J];计算机工程与应用;2009年24期
8 宋晓雷;王素格;李红霞;李德玉;;基于概率潜在语义分析的词汇情感倾向判别[J];中文信息学报;2011年02期
9 李钝;曹付元;曹元大;万月亮;;基于短语模式的文本情感分类研究[J];计算机科学;2008年04期
10 朱艳辉;阳爱民;王平;;基于特征情感色彩的文档流派分类研究[J];计算机工程与应用;2007年04期
中国重要会议论文全文数据库 前10条
1 韩健;;浅谈李十三剧作的艺术特色[A];三秦文化研究会年録(2008)[C];2008年
2 田庆敏;;借助范文,培养学生写作兴趣[A];江苏省教育学会2006年年会论文集(文科专辑)[C];2006年
3 林慧恩;林世平;;中文情感倾向分析中主观句子抽取方法的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 黄高辉;姚天昉;刘全升;;汉语意见型主观性语句类型分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 左维松;昝红英;张坤丽;吴云芳;;规则和统计相结合的情感分析研究[A];第五届全国信息检索学术会议论文集[C];2009年
6 陶富民;高军;周凯;;面向话题的新闻评论的情感特征选取[A];第五届全国信息检索学术会议论文集[C];2009年
7 吴苏红;王素格;;基于依存关系的旅游景点评论的特征-观点对抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 吴琼;谭松波;张刚;段洣毅;程学旗;;基于图排序模型的跨领域倾向性分析算法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 闫志功;张占友;;营造良好心理气氛与构建和谐班集体[A];国家教师科研基金十一五阶段性成果集(陕西卷)[C];2010年
10 何慧;陈博;郭军;;基于流形学习的半监督文本情感分类算法[A];第五届全国信息检索学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 唐楠;新闻应避免情感倾向[N];中国新闻出版报;2005年
2 阎晶明(文学评论家);看善良如何面对残酷[N];中国图书商报;2006年
3 松桃民族中学 石桂仙;略谈艺术创作中的情感逻辑和情感性质[N];经济信息时报;2007年
4 姜兰剑;会议营销是一场完美伏击[N];医药经济报;2006年
5 江都市二姜中学 蔡美华;动之以情,晓之以理,导之以行[N];成才导报.教育周刊;2007年
6 高苏芳;在表演中巩固 在巩固后感悟[N];中国教师报;2008年
7 杨勇涛;让摄影唤起心灵的本真[N];中国摄影报;2005年
8 费度;“电视病”及其预防[N];中国中医药报;2007年
9 阿炳;中国当代版画十家之代大权[N];文艺报;2008年
10 苟永新;关注民生新闻 反映热点问题[N];张掖日报;2005年
中国博士学位论文全文数据库 前7条
1 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
2 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
3 李实;中文网络客户评论中的产品特征挖掘方法研究[D];哈尔滨工业大学;2009年
4 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
5 赵宝春;中国消费者伦理行为研究[D];华中科技大学;2008年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 郭延红;朝鲜抒情小赋研究[D];中央民族大学;2012年
中国硕士学位论文全文数据库 前10条
1 米菲;网络流行体舆情信息的情感倾向研究[D];河北大学;2013年
2 宋光鹏;文本的情感倾向分析研究[D];北京邮电大学;2008年
3 潘玉洁;苏辙旅游诗文研究[D];上海师范大学;2009年
4 孙慧;基于组块分析的中文短语情感倾向研究[D];哈尔滨工业大学;2010年
5 陈静雅;吉林省本科护生临床带教教师评判性思维情感倾向的调查研究[D];吉林大学;2009年
6 郭叶;中文句子情感倾向分析[D];北京邮电大学;2010年
7 杨国峰;基于支持向量机的篇章情感倾向分析系统研究与实现[D];中山大学;2011年
8 薛宾;基于评价搭配的产品情感倾向聚类方法研究[D];山西大学;2013年
9 任斌;唐代落第诗研究[D];华东师范大学;2007年
10 谢振立;基于观点挖掘的用户情感倾向性分析[D];华南理工大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026