收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本褒贬倾向性分类研究

朱万山  
【摘要】:现今,由于互联网技术飞速的前进,在互联网中人们表达自己观点这一现象越来越普遍,这一现象,引发了互联网中信息资源的爆炸性增长,促使人们想要获取缤纷复杂的信息来源几乎全来自于互联网,为此,网民们非常酷爱把互联网当作形影不离的工具。例如互联网上的微博、论坛等产生了巨多的含有观点,评论性的中文文本信息,这些中文文本信息呈现了人们丰富的感情色彩和表达人们对某事物的情感的倾向性,如褒、贬等。但面对这些海量的中文文本评论信息,人们迫切需要将这些中文文本进行自动的褒贬分类,那么,如何利用先进技术高效地快速将其进行褒贬倾向性分类,挖掘互联网信息,满足用户的需要等,值得深入的研究。因此,近些年来有关中文文本褒贬倾向性方面的分类问题的研究在数据挖掘领域受很大的关注。 本文通过研究了很多关于中文文本褒贬倾向性分类的中文文本褒贬特征提取方法,重点研究了以下几种中文文本褒贬特征提取算法,包括常用的互信息、简单的文档频率、效果不错的信息增益等算法,之后利用其中的优点,研究了一种在褒贬特征提取时,对分类效果不错的特征提取算法(MIDF);并对褒贬义词典对分类结果的影响进行了研究。 本文主要工作包括:把文本中的词语进行分割成一个一个短的词语,也叫做分词,之后去掉一些对分类结果无意义的词,也叫做去除停用词,并使用两类信息差值的特征提取算法(MIDF)进行中文文本褒贬特征提取,TFIDF权值计算方法进行的特征权值计算,并结合SVM对待分类文本进行最后的类别上的判断,结果有两类,一类是褒义的类别,另一类就是贬义的类别。在实验过程中,对比了特征数量的大小对褒贬分类结果的影响、布尔权值、TF权值和TFIDF权值三种不同计算方法对情感分类结果的影响以及SVM分类器对于不同类型文本数据的分类效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 薛丽敏;李殿伟;肖斌;;中文文本情感倾向性五元模型研究[J];通信技术;2011年07期
2 游荣彦;中文文本简易压缩与即时加密研究[J];计算机工程与设计;1999年06期
3 刘来旸,樊孝忠,李淑芳;基于变长编码集合扩展的中文文本压缩算法[J];北京理工大学学报;2001年04期
4 汪维家,陈笑蓉,秦进,陆汝占;一种基于窗口技术的中文文本自动校对方法[J];贵州大学学报(自然科学版);2003年02期
5 张仰森,曹元大,徐波;中文文本自动校错系统中知识库及其构造方法研究[J];小型微型计算机系统;2004年12期
6 徐永东;徐志明;王晓龙;刘远超;;中文文本时间信息获取及语义计算[J];哈尔滨工业大学学报;2007年03期
7 杨志晓;徐朝辉;张德贤;;基于虚拟和物理化身的中文文本信息具体化[J];系统仿真学报;2007年10期
8 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[J];杭州电子科技大学学报;2010年05期
9 刘文;吴陈;;一种新的中文文本分类算法——One Class SVM-KNN算法[J];计算机技术与发展;2012年05期
10 贾满磊;李大展;王水;;巧用R进行中文文本信息处理[J];电脑编程技巧与维护;2012年22期
11 刘茂福;李妍;姬东鸿;;基于事件语义特征的中文文本蕴含识别[J];中文信息学报;2013年05期
12 贺前华,徐秉铮,彭磊;中文文本压缩的自适应算法[J];中文信息学报;1993年03期
13 鲍敢峰,刘宗田;中文文本自适应压缩模型[J];电子学报;1997年08期
14 侯亚南;黄映辉;;用于形式背景提取的中文文本表示[J];计算机技术与发展;2010年09期
15 任小燕;;中文情感分析综述[J];科技信息;2011年31期
16 邹箭;钟茂生;孟荔;;中文文本分割模式获取及其优化方法[J];南昌大学学报(理科版);2011年06期
17 李纲;毛进;陈璟浩;;基于语义指纹的中文文本快速去重[J];现代图书情报技术;2013年09期
18 龚小谨,罗振声,骆卫华;中文文本自动校对中的语法错误检查[J];计算机工程与应用;2003年08期
19 杨俊丽;彭新光;;中文文本复制检测系统[J];山西大同大学学报(自然科学版);2008年02期
20 钟茂生;胡熠;刘磊;;基于词典词语量化关系的中文文本分割方法[J];计算机工程与应用;2008年21期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
3 宋兰;孙茂松;;中文文本全文查重的实验研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
4 李思;张浩;徐蔚然;郭军;;基于合并模型的中文文本情感分析[A];第五届全国信息检索学术会议论文集[C];2009年
5 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 徐艳华;;中文文本中时间日期表达形式的自动检索[A];2004年辞书与数字化研讨会论文集[C];2004年
7 张云涛;龚玲;王永成;;识别中文文本中的未登录专有名词的类别[A];2007年中国智能自动化会议论文集[C];2007年
8 甘灿;孙星明;刘玉玲;向凌云;;一种改进的基于同义词替换的中文文本信息隐藏方法[A];第七届全国信息隐藏暨多媒体信息安全学术大会论文集[C];2007年
9 蒙应杰;司蕾;是垚;;基于矢量图形的中文文本零水印算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
10 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
中国博士学位论文全文数据库 前3条
1 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年
2 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
3 张春菊;中文文本中事件时空与属性信息解析方法研究[D];南京师范大学;2013年
中国硕士学位论文全文数据库 前10条
1 朱万山;中文文本褒贬倾向性分类研究[D];北方工业大学;2015年
2 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
3 夏恒;基于沙普利值的中文文本识错研究[D];湖北工业大学;2013年
4 徐琼;面向自然场景图像中的中文文本定位技术研究[D];南京邮电大学;2014年
5 邹娟;面向中文文本的特征值提取[D];湘潭大学;2005年
6 马鹏飞;中文文本分类算法研究[D];南京理工大学;2012年
7 张会昌;基于领域词典的中文文本相似度匹配[D];山东大学;2014年
8 许林杰;中文文本分词研究[D];山东师范大学;2003年
9 刘全升;面向主题的中文文本观点检索研究[D];上海交通大学;2010年
10 赵志伟;中文文本倾向性分析研究[D];安徽大学;2012年
中国重要报纸全文数据库 前4条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 詹亦文;签英文合同谨防陷阱[N];中国改革报;2003年
3 熊建;让汉字插上信息化的翅膀[N];人民日报;2013年
4 绨星;注意合同形式和背面条款[N];中国船舶报;2002年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978