收藏本站
《重庆大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

中文意见挖掘中的特征词提取以及情感倾向分析

李存青  
【摘要】: 随着互联网的迅速发展和普及,网络逐渐成为消费者发表产品评论的重要平台。对于产品生产厂商和消费者而言,面对网络上如此纷繁复杂的评论信息,如何迅速有效地获取这些评论的总体情感倾向(正面评价还是负面评价以及褒贬的程度,以及正负评价各占的比例)就成为了一个新的问题。意见挖掘技术的出现,正是为了解决这个问题。它融合了信息检索、信息抽取、文本分类、机器学习、自然语言处理、本体论(Ontology)等技术,具有一定的文本理解能力,更具有人工智能性。 意见挖掘主要包括了四项任务:主题抽取、意见持有者识别、陈述界定以及意见倾向分析。主题抽取和意见倾向分析是意见挖掘中的基础和重点。本文使用了特定领域的中文产品评论(手机数码类)作为研究语料,着重研究了意见挖掘中的第一项和第四项任务,即主题抽取和意见倾向分析。 本文具体做的研究包括了这样两个问题:一是如何识别和提取产品评论中主题词、极性词;二是如何识别极性词的情感倾向。对于第一个问题,本文尝试提出了一种基于中文汉语语法模式(Chinese Syntax Pattern,简称CSP)的方法。该方法利用了汉语语言学方面的相关研究,结合利用训练数据集进行统计的方法,找到几种最为常用的形容词谓语句的语法模式,以此来完成中文意见挖掘中的主题词和极性词提取的任务,通过实验和对比试验,该方法收到了不错的效果。对于第二个问题,本文使用了传统的基于搜索引擎的SO-PMI方法计算极性词的极性,并利用基于统计理论的支持向量机(SVM)来做对比评估。由于SO-PMI算法的NEAR运算需要进一步探讨,采用SVM的方法反而要比SO-PMI方法效果更好。但是,从实际应用的角度来讲,SO-PMI更为简便,而SVM则需要大量的训练数据。另外,本文初步构建了一套领域意见挖掘系统:Digi-OMS。该系统主要包括了主题词、极性词提取模块以及极性识别模块。本文还为该系统构建了极性词典,因为极性词的提取以及极性词的分类都具有重要的作用。结合极性词典中的否定词集合以及程度副词集合,本文还提出了句子极性计算的方法。Digi-OMS系统面向特定领域的中文评论,进行了比较全面的科学实验,已验证本文提出方法的科学性和有效性。总体上讲,其自动分析效果是不错的。 本文的主要贡献包括了:1)提出了一种新的方法来解决中文意见挖掘领域中的主题识别问题,效果理想;2)对于极性词的极性分类问题,使用了两种方法做了对比;3)初步构建了一套基于领域的意见挖掘系统;4)提出了极性词典的构建方法以及句子极性分析的方法。
【学位授予单位】:重庆大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前4条
1 张珺;基于Web公共舆情自动分析及预警关键技术研究[D];北京邮电大学;2012年
2 张铎;基于评论分析的商品推荐系统研究[D];重庆大学;2012年
3 史南胜;基于句法树模式的产品评论意见挖掘研究[D];东华大学;2013年
4 陈琪;基于意见挖掘的网络课程评价研究[D];山东师范大学;2013年
【参考文献】
中国期刊全文数据库 前7条
1 周有斌;性质形容词谓语句中状语初探[J];淮北煤师院学报(哲学社会科学版);2002年01期
2 韩容洙;现代汉语的程度副词[J];汉语学习;2000年02期
3 李钝;曹付元;曹元大;万月亮;;基于短语模式的文本情感分类研究[J];计算机科学;2008年04期
4 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
5 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[J];中文信息学报;2007年01期
6 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
7 李劲荣;;形·名组合的句法限制及表达功能[J];上海师范大学学报(哲学社会科学版);2007年01期
【共引文献】
中国期刊全文数据库 前10条
1 李荣军;王小捷;周延泉;;PageRank模型在中文情感词极性判别中的应用[J];北京邮电大学学报;2010年05期
2 张晨;祁坤钰;;基于Penn Treebank英语标注集对《圣经》标注集的扩充研究[J];才智;2009年20期
3 朱征宇;李存青;张鹏;;基于语法模式的产品评论主题词和极性词提取[J];重庆理工大学学报(自然科学版);2010年05期
4 贾改琴;;形容词性谓语句的逻辑语义分析[J];重庆理工大学学报(社会科学);2011年05期
5 徐彬,付光宇;现代汉语“程度副词+N”结构刍议[J];江苏技术师范学院学报;2003年03期
6 崔大志;刘影;李媛;;论网络社区评论情感语义的模糊化[J];大连海事大学学报(社会科学版);2010年03期
7 郝晓燕;常晓明;;特征选择及其在文本自动分类中的应用[J];电脑开发与应用;2006年12期
8 庞娜;;增量学习算法对文本情感识别模型的改进[J];电脑开发与应用;2011年07期
9 梁坤;古丽拉·阿东别克;;基于SVM的中文新闻评论的情感自动分类研究[J];电脑知识与技术;2009年13期
10 张彬;杨志晓;;基于基准词的文本情感倾向性研究[J];电脑知识与技术;2011年08期
中国重要会议论文全文数据库 前10条
1 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
3 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
4 ;Comparing Chinese reviews based on Fuzzy PROMETHEE: A new approach to sentiment analysis[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
5 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
6 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[A];第三届学生计算语言学研讨会论文集[C];2006年
7 邹红建;杨尔弘;;面向对外汉语报刊教学的文本难易度分类[A];第三届学生计算语言学研讨会论文集[C];2006年
8 姚天昉;聂青阳;李建超;李林琳;娄德成;陈珂;付宇;;一个用于汉语汽车评论的意见挖掘系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
9 金东日;;在朝汉机器翻译上出现转换的难点[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
10 李斌;卢俊之;章成志;陈小荷;;基于聚类引擎的话题褒贬度计算[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
2 元莲仙;汉韩语言对比研究及在对韩汉语教学中的应用[D];南开大学;2010年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
5 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
6 杨峰;本体映射关键技术研究[D];吉林大学;2011年
7 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
8 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
9 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
10 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
4 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
5 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
6 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
7 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
8 祖艳凤;留学生程度副词“比较”偏误分析[D];暨南大学;2010年
9 梁旻雅;基于ASP.NET在线英语考试系统设计与实现[D];电子科技大学;2010年
10 邓忠莹;中文文本倾向性分类系统研究[D];昆明理工大学;2009年
【同被引文献】
中国期刊全文数据库 前10条
1 周云倩;陈信凌;;广电媒体网站评价的量化研究——以BBC、CNN和央视国际网站为样本[J];当代传播;2010年01期
2 尹睿,谢幼如;网络课程建设与实施问题的调查研究[J];中国远程教育;2004年17期
3 孙中祥;彭湘君;杨玉平;贺一;;数据挖掘在教育教学中的应用综述[J];智能计算机与应用;2012年01期
4 聂璐;;搜索引擎在网络信息挖掘中的应用[J];电脑知识与技术;2009年27期
5 刘艳青;;数据挖掘技术在网络课程管理中的应用研究[J];电脑知识与技术;2011年23期
6 张丽丽;数据挖掘技术的应用分析[J];山西经济管理干部学院学报;2003年04期
7 李强;;创建决策树算法的比较研究——ID3,C4.5,C5.0算法的比较[J];甘肃科学学报;2006年04期
8 黄瑾娉;苏庭波;;一种产品评论信息的意见挖掘技术研究[J];工业控制计算机;2011年06期
9 李新;陈庚;;网络课程评价指标体系的比较分析[J];河北工程大学学报(社会科学版);2008年01期
10 朱凌云,罗廷锦,余胜泉;网络课程评价[J];开放教育研究;2002年01期
中国博士学位论文全文数据库 前5条
1 成颖;信息检索相关性判据及应用研究[D];南京大学;2011年
2 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
3 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
4 罗瑜;支持向量机在机器学习中的应用研究[D];西南交通大学;2007年
5 黄永文;中文产品评论挖掘关键技术研究[D];重庆大学;2009年
中国硕士学位论文全文数据库 前10条
1 耿三靖;数据挖掘技术在高校教学评价中的应用研究[D];河南理工大学;2010年
2 翟永勇;中文意见挖掘的特征提取与极性分析研究[D];合肥工业大学;2011年
3 黄亿华;基于情感评价单元的商品评论分析研究[D];南京大学;2011年
4 卫伟;基于Web舆情的意见挖掘关键技术研究[D];电子科技大学;2011年
5 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
6 蒋磊;面向产品评论的意见挖掘关键技术研究[D];哈尔滨工业大学;2010年
7 刘鸿宇;情感标签抽取相关技术研究[D];哈尔滨工业大学;2010年
8 殷风景;面向网络舆情监控的热点话题发现技术研究[D];国防科学技术大学;2010年
9 胡航丽;基于Web的股评观点倾向性分析研究[D];北京工商大学;2010年
10 马伟瑜;基于改进的PageRank的网页信息可信度评估方法研究[D];河北大学;2011年
【二级引证文献】
中国硕士学位论文全文数据库 前1条
1 唐勇;互联网舆情监控系统的设计与实现[D];北京邮电大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 韩容洙;我是怎样教韩国学生学习汉语的副词的[J];汉语学习;1994年02期
2 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
3 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
4 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
5 蔺璜,郭姝慧;程度副词的特点范围与分类[J];山西大学学报(哲学社会科学版);2003年02期
6 郑远汉;结构变换修辞论——定中式和主谓式的换用[J];修辞学习;1995年01期
7 陆俭明;;“更加”和“越发”[J];语文研究;1981年01期
8 沈家煊;;形容词句法功能的标记模式[J];中国语文;1997年04期
9 陆俭明;说量度形容词[J];语言教学与研究;1989年03期
10 董振东;语义关系的表达和知识系统的建造[J];语言文字应用;1998年03期
【相似文献】
中国期刊全文数据库 前10条
1 冯伟;利用数据库处理CAD应用中的中文及表格[J];职大学报;1995年01期
2 薛翠芳,郭炳炎;汉语文本特征词的抽取方法[J];情报学报;2000年03期
3 陈炯,张永奎;一种基于词聚类的中文文本主题抽取方法[J];计算机应用;2005年04期
4 马桂琴;中文搜索引擎研究[J];兰州商学院学报;2001年S2期
5 陈明;网络的安全维护与故障排除[J];微型电脑应用;2001年03期
6 端木艺;网上中文学位论文数据库简评[J];现代情报;2003年01期
7 王怀惠,王继华,吴泽宜,苏晓鸳,张彤;中文农业科技文献自动标引技术与实践[J];农业图书情报学刊;1997年03期
8 沈殊璇;Linux平台中文化的实现方案[J];微处理机;2003年01期
9 霍然;普通高校实施中文素质教育探索[J];杭州电子工业学院学报;2004年02期
10 马光志,李专;基于特征词的自动分词研究[J];华中科技大学学报(自然科学版);2003年03期
中国重要会议论文全文数据库 前10条
1 王中卿;李寿山;朱巧明;李培峰;周国栋;;基于不平衡数据的中文情感分类[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 张伟男;张宇;刘挺;;基于中心理论的中文对话省略恢复研究[A];第六届全国信息检索学术会议论文集[C];2010年
3 王佳;;对中文屋思想实验四个主要版本的考察[A];第三届全国科技哲学暨交叉学科研究生论坛文集[C];2010年
4 金朝;蒋宗礼;;中文机构名的识别讨论[A];2011高等职业教育电子信息类专业学术暨教学研讨会论文集[C];2011年
5 吴法洲;苏昊;周明;李春平;;利用英文搜索日志建立中文新词同义词词表[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
6 计峰;邱锡鹏;黄萱菁;;中文不确定性句子的识别研究[A];第六届全国信息检索学术会议论文集[C];2010年
7 周小甲;李昊旻;吕旭东;段会龙;;中文病历文本中的时间表达分类与识别[A];中国生物医学工程学会成立30周年纪念大会暨2010中国生物医学工程学会学术大会青年优秀论文[C];2010年
8 张小衡;;一个支持人工校对的中文简繁体转换工具[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
9 叶娜;吴雪军;朱靖波;陈文亮;;基于相似计算的信息抽取模板自动获取方法[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 崔磊;王穗苹;;副中央凹-中央凹效应的中文眼动研究[A];第十一届全国心理学学术会议论文摘要集[C];2007年
中国重要报纸全文数据库 前10条
1 张海桐;用中文把歌剧唱出来[N];人民日报海外版;2011年
2 张伟城;中文热持续升温[N];人民日报海外版;2009年
3 朱珉迕;说中文和“拌洋荤”[N];解放日报;2009年
4 本报驻巴黎记者 姚立;“中文热”在法升温速度令人始料不及[N];光明日报;2010年
5 刘菲;关注特殊的学中文群体[N];人民日报海外版;2011年
6 记者钟哲 通讯员李世举;合编首部“民族版”高校中文教材[N];中国社会科学报;2010年
7 ;“汉语桥”世界大学生中文比赛举行[N];人民日报;2011年
8 晓阳;《选报》落户起点中文网[N];中华新闻报;2009年
9 ;中文在线 “九死一生”的出版经历[N];电脑报;2010年
10 本报记者 原小瑛;欧特克发布中文工厂设计软件[N];中国化工报;2010年
中国博士学位论文全文数据库 前10条
1 温昌衍;客家方言特征词研究[D];暨南大学;2001年
2 曹廷玉;赣方言特征词研究[D];暨南大学;2001年
3 符其武;琼北闽语词汇研究[D];厦门大学;2007年
4 朱麟;中国人说英语的节奏模式及在教学中的运用[D];中央民族大学;2007年
5 于娟;基于文本的领域本体学习方法及其应用研究[D];大连理工大学;2010年
6 郭永明;XML文档交互式信息检索技术研究[D];东华大学;2010年
7 易高翔;粗糙集在Web挖掘中的应用研究[D];华中科技大学;2006年
8 付剑锋;面向事件的知识处理研究[D];上海大学;2010年
9 杨创新;基于机器学习的高性能中文文本分类研究[D];华南理工大学;2009年
10 李世奇;面向文景转换的中文浅层语义分析方法研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 李存青;中文意见挖掘中的特征词提取以及情感倾向分析[D];重庆大学;2010年
2 刘冬平;面向中文歌词的音乐情感分类研究[D];广东工业大学;2011年
3 余珍芝;中文网络产品评论的情感分析关键技术研究[D];杭州电子科技大学;2011年
4 林好兵;基于迁移学习的中文问句分类方法研究[D];昆明理工大学;2012年
5 汤明达;基于近邻传播算法的中文文本聚类的研究[D];广西师范大学;2012年
6 陈成海;评塞尔的中文屋论证[D];浙江大学;2010年
7 孙群虎;基于空间分布和信息熵的特征词提取方法[D];大连理工大学;2010年
8 史丽君;基于特征强化的中文产品评价挖掘研究[D];合肥工业大学;2011年
9 陈晓东;基于情感词典的中文微博情感倾向分析研究[D];华中科技大学;2012年
10 李丽娜;中文专家检索关键技术研究[D];昆明理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026