收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web的评论文本情感分类问题研究

王素格  
【摘要】: 随着网络技术的迅猛发展,Internet已成为越来越多的人们获取信息的重要来源,同时,也成为人们表达自己观点的平台。面对迅速增长的网上评论,如何有效地组织承载着大量信息的数据?如何针对特定的需求获取最新的信息?如何区分有用的信息和无用的“垃圾”信息逐渐成为当前信息科学和技术领域面临的一大挑战。文本情感分类是指通过挖掘和分析文本中的立场、观点、看法、情绪等主观信息,对文本的情感倾向做出类别判断。它可以广泛地应用于社会舆情分析、产品在线跟踪与质量评价、影视评价等方面。 本论文针对评论文本的情感分类问题,借助于计算语言学、统计学、机器学习等领域的理论与方法,从词、搭配、产品特征与情感词汇关联对等文本表示的不同语言粒度入手,开展文本情感倾向性建模、分析与计算研究,探索文本情感分类的新技术与新方法。本论文主要研究内容及创新点包括: (1)文本情感分类的特征选取方法 本文分别从限定特征选取范围、特征的类别区分能力角度,提出了限定词性词语+信息增益、类别区分能力+信息增益、以及基于词频的Fisher判别准则三种特征选择方法。实验结果表明,类别区分能力+信息增益特征选择方法和基于词频的Fisher判别准则特征选择方法优于限定词性词语+信息增益特征选择方法。 (2)汉语情感词语搭配的自动获取方法 根据情感词语搭配的特点,本文设计了10种情感词语搭配模式,考察了词语之间窗口长度对情感词语搭配的影响,提出了两个词语之间的关联性度量方法,以及基于搭配模式和词语关联性的情感词语搭配获取方法。 (3)产品特征与情感词汇关联对的自动识别方法 从词性、词间距、依存语法等影响关联对构成的环境信息出发,本文探索了基于最大熵模型的产品特征与情感词语关联对自动识别方法。提出了基于词性信息+词间距信息和基于依存语法信息的两种最大熵模型的特征构造方法,设计了多种复合特征模板,并在多个句子集上进行了对比实验。 (4)文本情感分类的多层次语言粒度分析 基于低层语言粒度表示高层语言粒度的思想,本文设计了由词汇(搭配或关联对)→句子→文本的分层次文本表示模型。词汇的情感倾向直接影响更高层次语言粒度的情感倾向,鉴于此,提出了基于同义词的词汇情感倾向判别方法,探索了基于词的搭配及关联对情感倾向判别方法。提出了基于加权线性组合的句子及文本的情感分类方法。 (5)基于推广粗糙集模型的文本情感分类方法 为使粗糙集理论适用于文本情感分类问题,本文推广了经典粗糙集理论中的数据表示模型,提出了带情感倾向强度的文本向量表示模型;基于情感倾向强度序的属性离散化方法,用于对文本表示维数的压缩;构造了赋权粗糙隶属函数,用于文本的情感类别判定。 (6)构建了一个面向用户的汽车产品评价系统 利用本论文的理论研究成果,开发了一个面向用户的汽车产品评价系统。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 亢婷;魏立力;;一种基于粗糙集理论的启发式特征选择算法[J];计算机工程与应用;2008年30期
2 简清明;曾黄麟;叶晓彤;;粗糙集特征选择和支持向量机在入侵检测系统中的应用[J];四川理工学院学报(自然科学版);2009年05期
3 肖迪;张广明;;基于粗糙集理论的肺癌细胞图像识别[J];南京工业大学学报(自然科学版);2007年06期
4 台德艺;谢飞;胡学钢;;文本分类技术研究[J];合肥学院学报(自然科学版);2007年03期
5 张小艳;宋丽平;;论文本分类中特征选择方法[J];现代情报;2009年03期
6 张翔;周明全;耿国华;;基于粗糙集的中文文本特征选择方法研究[J];计算机应用与软件;2010年03期
7 赵俊杰;;论文抄袭检测中特征选择[J];计算机系统应用;2009年09期
8 张志飞;苗夺谦;;基于粗糙集的文本分类特征选择算法[J];智能系统学报;2009年05期
9 段丽;张建明;;基于粗糙集的表情特征选择[J];计算机工程与应用;2010年32期
10 钱宇华;梁吉业;王锋;;面向非完备决策表的正向近似特征选择加速算法[J];计算机学报;2011年03期
11 吴克寿;陈玉明;谢荣生;王晓栋;;基于粗糙集与蚁群优化算法的特征选择方法研究[J];计算机应用研究;2011年07期
12 袁赣;张巍;蔡庆生;;具有非一致性数据预处理的粗糙集特征选择算法[J];计算机科学;2004年10期
13 孙春明;徐燕;林碧英;;一种基于词条频率的文档频率方法的改进[J];中国电力教育;2006年S3期
14 李菊;王军;王兴;;粗糙集的特征选择在客户关系管理中的应用[J];计算机工程与设计;2008年22期
15 曾晓宁;崔勇;蔺旭东;;基于粗糙集的视频片段自动分类方法[J];河北科技师范学院学报;2009年01期
16 肖迪;林锦国;何亚群;;粗集特征选择的人脸识别算法[J];计算机工程与应用;2009年19期
17 邵晓根;段丽;张建明;;基于UWPCA与粗糙集相结合的表情识别[J];计算机工程与应用;2010年09期
18 王璐;邱桃荣;何妞;刘萍;;基于粗糙集和蚁群优化算法的特征选择方法[J];南京大学学报(自然科学版);2010年05期
19 冯林;原永乐;;一种基于(μ+λ)-ES进化策略的特征选择方法[J];计算机科学;2011年08期
20 孙丽君;苗夺谦;;基于粒度计算的特征选择方法[J];计算机科学;2008年04期
中国重要会议论文全文数据库 前10条
1 徐燕;王斌;李锦涛;孙春明;;知识增益:文本分类中一种新的特征选择方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
4 蒋苏萍;吴今培;;粗糙集神经网络的应用研究[A];中国运筹学会第八届学术交流会论文集[C];2006年
5 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
6 马玉良;赵光宙;;粗糙集理论及其在工程中的应用研究[A];第11届全国电气自动化电控系统学术年会论文集[C];2002年
7 刘碧森;姚宇;;粗SVM理论及其在税收预测中的应用[A];第三届全国信息获取与处理学术会议论文集[C];2005年
8 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
9 杨斌;闫桦;;基于粗糙集理论的农业水价承受能力研究[A];第十一届中国管理科学学术年会论文集[C];2009年
10 朱江华;潘丰;;基于蚁群算法的粗糙集知识约简[A];2005年全国自动化新技术学术交流会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
4 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
5 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
6 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
7 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
8 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
9 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
10 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
中国硕士学位论文全文数据库 前10条
1 王丽红;基于粗糙集理论的文本分类技术研究[D];天津师范大学;2009年
2 马宏伟;基于SVM的中文文本分类系统的建模与实现[D];大连理工大学;2006年
3 赵环宇;中文专利自动分类技术的研究[D];沈阳航空工业学院;2009年
4 张亚平;基于粗糙集和神经网络的数据分类技术研究[D];大连理工大学;2008年
5 林宏正;基于粗糙集和神经网络的邮件分类研究[D];暨南大学;2008年
6 王小燕;文本分类相关技术与应用研究[D];西北大学;2007年
7 李淑鹏;基于神经网络的文本自动分类系统的研究[D];武汉理工大学;2008年
8 卢扬竹;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2009年
9 夏侯振宇;基于粗糙集和支持向量机的文本分类方法研究[D];南昌大学;2008年
10 张青枝;基于粗糙集的专家系统研究[D];武汉理工大学;2003年
中国重要报纸全文数据库 前10条
1 唐楠;新闻应避免情感倾向[N];中国新闻出版报;2005年
2 周晓娟;TD已过分水岭[N];通信产业报;2008年
3 上渊;新一代网络技术IPv9走向商用[N];中国高新技术产业导报;2004年
4 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
5 松桃民族中学 石桂仙;略谈艺术创作中的情感逻辑和情感性质[N];经济信息时报;2007年
6 王萍;Web文本的知识化管理[N];计算机世界;2006年
7 阎晶明(文学评论家);看善良如何面对残酷[N];中国图书商报;2006年
8 姜兰剑;会议营销是一场完美伏击[N];医药经济报;2006年
9 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
10 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978