收藏本站
《湖南工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于朴素贝叶斯的中文文本情感倾向分类研究

杨鼎  
【摘要】:人们对事物的情感倾向是两面性的,例如正面和负面,褒义和贬义等。因此通常认为文本的情感倾向分类是一个两分类问题,也就是把文本的情感分成正面或者反面。文本情感倾向分类是文本分类领域一个比较新颖的研究方向,具有很大的商业价值,可以应用到舆论分析、信息过滤、产品评价、产品推荐、智能化搜索和用户兴趣发掘等方面。 本文以朴素贝叶斯方法构建文本情感分类器为主线,研究了文本情感倾向分类中情感语料采集和标注、情感词典构建、特征选择方法、特征权值与向量表示等关键问题,提出了一些新的观点和方法,并通过实验进行了验证。主要的研究工作和结果有: 1、利用DOM对中文宾馆评论网页进行分析,设计了对宾馆评论文本自动采集的算法,用这种算法从互联网上采集了700万字的中文宾馆评论作为语料库。该语料库来源可靠,情感特征明显,对研究互联网评论文本的情感分类问题具有一定的意义。并对其进行了中文分词和情感标注处理。 2、提出利用PMI算法,选用基础情感词典作为种子词,在中文宾馆评论语料库上构建宾馆评论领域情感词典的方法。并用这种方法构建了一个宾馆评论情感词典,基于该词典作为特征选择对宾馆评论进行情感分类效果比较好。 3、研究了利用朴素贝叶斯理论构建文本情感分类器的方法,以及先验概率和后验概率的估计问题,提出了一种新的后验概率Laplace转换的参数设置,这种设置方法对朴素贝叶斯分类器的分类性能有很大的提升。并且提出了一种基于情感词典作为特征选择的文本情感分类方法,这种方法具有分类速度快、分类效果好,鲁棒性等特点,比使用CHI统计进行特征选择的朴素贝叶斯文本情感分类器和基于情感倾向权值构建的文本情感分类器的分类效果都要好,可以对大量文本进行情感分类应用。 4、设计和实现了一个中文文本情感分类实验系统,该系统具有界面友好、速度快和稳定性高等特点。具有中文分词、特征权值计算、CHI特征选择、情感词典构建、朴素贝叶斯情感分类等文本情感分类的主要功能。
【学位授予单位】:湖南工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
4 王素格;李伟;;面向中日关系论坛的情感分类问题研究[J];计算机工程与应用;2007年32期
5 伍星;何中市;黄永文;;产品评论挖掘研究综述[J];计算机工程与应用;2008年36期
6 史瑞芳;;贝叶斯文本分类器的研究与改进[J];计算机工程与应用;2009年12期
7 王素格;杨安娜;李德玉;;基于汉语情感词表的句子情感倾向分类研究[J];计算机工程与应用;2009年24期
8 张成洪;古晓洪;白延红;;Web数据抽取技术研究进展[J];计算机科学;2004年02期
9 侯锋;王传廷;李国辉;;网络意见挖掘、摘要与检索研究综述[J];计算机科学;2009年07期
10 张玉芳;彭时名;吕佳;;基于文本分类TFIDF方法的改进与应用[J];计算机工程;2006年19期
中国重要会议论文全文数据库 前2条
1 邹嘉彦;;评述新闻报道或文章色彩-正负两极性自动分类的研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前2条
1 彭其伟;基于统计方法的中文文本情感倾向分类研究[D];山西大学;2007年
2 宋光鹏;文本的情感倾向分析研究[D];北京邮电大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 陈文;基于决策树的入侵检测的实现[J];安徽技术师范学院学报;2005年05期
2 彭莉芬;陈俊生;胡学钢;;基于粗糙集决策树算法的研究[J];安庆师范学院学报(自然科学版);2012年01期
3 赵玉鹏;;论机器学习[J];安阳工学院学报;2011年04期
4 张彦超;刘云;李勇;沈波;;基于自动生成模板的Web信息抽取技术[J];北京交通大学学报;2009年05期
5 孙雪;李昆仑;胡夕坤;赵瑞;;基于半监督K-means的K值全局寻优算法[J];北京交通大学学报;2009年06期
6 廉捷;刘云;;网络舆情中的信息预处理与自动摘要算法[J];北京交通大学学报;2010年05期
7 赵勇;刘凯;;数字挖掘方法在遥感分类中的应用研究[J];北京测绘;2009年03期
8 沈奕,滑峰,刘椿年;基于GDT的对FOIL系统的改进[J];北京工业大学学报;2005年02期
9 朱青;刘宇辉;;一种面向领域的组件质量度量算法[J];北京工业大学学报;2007年01期
10 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
中国重要会议论文全文数据库 前10条
1 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
2 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
3 吴苏红;王素格;;基于依存关系的旅游景点评论的特征-观点对抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 宋艳雪;张绍武;林鸿飞;;基于语境歧义词的句子情感倾向性分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 薛征;廖闻剑;;基于位置权重和实体识别的关键词提取[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
7 翟伟斌;许榕生;;基于Internet的CIS研究[A];第十三届全国核电子学与核探测技术学术年会论文集(下册)[C];2006年
8 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
9 王慧慧;杨国纬;;基于事例的问答系统研究[A];贵州制约逻辑学会2005年学术年会暨首届全国性逻辑系统专题研讨会论文集[C];2005年
10 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
3 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
4 高山;蛋白质点突变效果预测与突变数据库研究[D];南开大学;2010年
5 魏建香;学科交叉知识发现及其可视化研究[D];南京大学;2010年
6 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
7 郭戈;数字视频语义信息提取与分析[D];解放军信息工程大学;2010年
8 曹葵康;支持向量机加速方法及应用研究[D];浙江大学;2010年
9 林龙信;仿生水下机器人的增强学习控制方法研究[D];国防科学技术大学;2010年
10 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
3 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
4 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
5 杨勇;基于SOA的浙江永康某小家电企业应用系统集成平台开发与应用[D];浙江理工大学;2010年
6 王利明;一种基于PMIPv6的智能辅助高效切换方案[D];郑州大学;2010年
7 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
8 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
9 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
10 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期
2 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
3 徐延勇,周献中,井祥鹤,郭忠伟;基于最大熵模型的汉语句子分析[J];电子学报;2003年11期
4 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
5 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
6 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
7 孙春葵,李蕾,杨晓兰,钟义信;基于知识的文本摘要系统研究与实现[J];计算机研究与发展;2000年07期
8 李荣陆,胡运发;基于密度的kNN文本分类器训练样本裁剪方法[J];计算机研究与发展;2004年04期
9 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
10 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
中国重要会议论文全文数据库 前1条
1 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前4条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
3 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
4 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 吕国防;;注意新闻表述中的情感倾向[J];新闻实践;2011年06期
2 张为昱;;感情色彩在报道中的分量[J];记者摇篮;2009年04期
3 刘丽;;隐性采访的法理情多维思考[J];西南科技大学学报(哲学社会科学版);2008年06期
4 王笑因;;在新闻中正确地运用情感[J];新闻战线;1985年09期
5 王笑因;;在新闻中正确地运用情感[J];新闻实践;1985年09期
6 李纲;程明结;寇广增;;基于情感倾向识别的汽车评论挖掘系统构建[J];情报学报;2011年02期
7 王素格;杨安娜;李德玉;;基于汉语情感词表的句子情感倾向分类研究[J];计算机工程与应用;2009年24期
8 宋晓雷;王素格;李红霞;李德玉;;基于概率潜在语义分析的词汇情感倾向判别[J];中文信息学报;2011年02期
9 李钝;曹付元;曹元大;万月亮;;基于短语模式的文本情感分类研究[J];计算机科学;2008年04期
10 朱艳辉;阳爱民;王平;;基于特征情感色彩的文档流派分类研究[J];计算机工程与应用;2007年04期
中国重要会议论文全文数据库 前10条
1 韩健;;浅谈李十三剧作的艺术特色[A];三秦文化研究会年録(2008)[C];2008年
2 田庆敏;;借助范文,培养学生写作兴趣[A];江苏省教育学会2006年年会论文集(文科专辑)[C];2006年
3 林慧恩;林世平;;中文情感倾向分析中主观句子抽取方法的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
4 黄高辉;姚天昉;刘全升;;汉语意见型主观性语句类型分析[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
5 左维松;昝红英;张坤丽;吴云芳;;规则和统计相结合的情感分析研究[A];第五届全国信息检索学术会议论文集[C];2009年
6 陶富民;高军;周凯;;面向话题的新闻评论的情感特征选取[A];第五届全国信息检索学术会议论文集[C];2009年
7 吴苏红;王素格;;基于依存关系的旅游景点评论的特征-观点对抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
8 吴琼;谭松波;张刚;段洣毅;程学旗;;基于图排序模型的跨领域倾向性分析算法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
9 闫志功;张占友;;营造良好心理气氛与构建和谐班集体[A];国家教师科研基金十一五阶段性成果集(陕西卷)[C];2010年
10 何慧;陈博;郭军;;基于流形学习的半监督文本情感分类算法[A];第五届全国信息检索学术会议论文集[C];2009年
中国重要报纸全文数据库 前10条
1 唐楠;新闻应避免情感倾向[N];中国新闻出版报;2005年
2 阎晶明(文学评论家);看善良如何面对残酷[N];中国图书商报;2006年
3 松桃民族中学 石桂仙;略谈艺术创作中的情感逻辑和情感性质[N];经济信息时报;2007年
4 姜兰剑;会议营销是一场完美伏击[N];医药经济报;2006年
5 江都市二姜中学 蔡美华;动之以情,晓之以理,导之以行[N];成才导报.教育周刊;2007年
6 高苏芳;在表演中巩固 在巩固后感悟[N];中国教师报;2008年
7 杨勇涛;让摄影唤起心灵的本真[N];中国摄影报;2005年
8 费度;“电视病”及其预防[N];中国中医药报;2007年
9 阿炳;中国当代版画十家之代大权[N];文艺报;2008年
10 苟永新;关注民生新闻 反映热点问题[N];张掖日报;2005年
中国博士学位论文全文数据库 前7条
1 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
2 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
3 李实;中文网络客户评论中的产品特征挖掘方法研究[D];哈尔滨工业大学;2009年
4 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
5 赵宝春;中国消费者伦理行为研究[D];华中科技大学;2008年
6 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
7 郭延红;朝鲜抒情小赋研究[D];中央民族大学;2012年
中国硕士学位论文全文数据库 前10条
1 米菲;网络流行体舆情信息的情感倾向研究[D];河北大学;2013年
2 宋光鹏;文本的情感倾向分析研究[D];北京邮电大学;2008年
3 陈静雅;吉林省本科护生临床带教教师评判性思维情感倾向的调查研究[D];吉林大学;2009年
4 潘玉洁;苏辙旅游诗文研究[D];上海师范大学;2009年
5 孙慧;基于组块分析的中文短语情感倾向研究[D];哈尔滨工业大学;2010年
6 杨国峰;基于支持向量机的篇章情感倾向分析系统研究与实现[D];中山大学;2011年
7 郭叶;中文句子情感倾向分析[D];北京邮电大学;2010年
8 薛宾;基于评价搭配的产品情感倾向聚类方法研究[D];山西大学;2013年
9 任斌;唐代落第诗研究[D];华东师范大学;2007年
10 谢振立;基于观点挖掘的用户情感倾向性分析[D];华南理工大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026