收藏本站
《安徽大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本倾向性分析研究

赵志伟  
【摘要】:随着互联网的迅速普及,互联网应用越来越简易,使得上网人数与日俱增。互联网生活呈现出多元化,复杂化的趋势,越来越多的人们开始关注互联网,开始通过互联网来发出自己的声音,而且形式不一,比如,微博,论坛,博客,BBS等。人们通过这些媒体发表自己对其他的人或事件的评价,看法,这些评价看法常常带有明显的倾向性信息,如何让计算机自动准确提取这些有用的倾向性信息,这个问题吸引了大量的研究学者,逐渐就演化成了文本的倾向性分析课题。 文本倾向性分析研究目前已经成为自然语言处理领域的研究热点之一。文本倾向性分析具有重要研究意义,在学术领域,商业领域,管理领域等都有着巨大的使用价值。 中文文本的情感倾向性研究相对于英文的情感倾向性研究起步较晚,很多问题还需要全方位的研究,中文情感倾向性分析有很多子课题,本文在研究了大量的基础资料后,分别选择了两个子课题,中文句子的情感倾向性识别和中文文本的主客观分类,并且进行了一系列的实验研究。 本文的主要工作是: 1.研究了中文句子的情感倾向性识别课题 中文句子的情感倾向性识别课题的主要研究内容是让计算机可以有效的判断给出的中文句子是褒义还是贬义的,并且给出其倾向性程度。文本倾向性识别的一个重要的基础性工作是句子倾向性识别,从目前的研究论文可以看出,提取实体间关联难度很大,这个问题在主观性文本信息的提取上表现的更加严重。而有针对性的提取倾向性信息的研究,目前进行的还比较少。基于这个问题,本文在综合大量资料的基础上,提出了一种基于情感词语义加权的句子情感倾向性识别方法。本文通过实验验证了该算法的可行性以及有效性。 2.研究了中文文本的主客观分类课题 人们在买一种产品或者选择一项服务之前,都想在互联网上获得该项产品或者服务的用户评价,以便参考,从而决定是否购买。因此文本的主客观分析是一个非常重要的,具有可观的研究价值的基础性课题。中文文本的主客观分析的主要目的是让计算机可以自动的准确的识别出待分析的中文文本是属于主观文本还是客观文本。只有主观性的文本才能体现出某种情感倾向信息。该课题也可以看做是一个特殊的分类问题,分类的依据是文本是否包含情感倾向。由于中文语言的多样性,语义的丰富性,主客观句的特征并不明显,基于统计的分析方法难以很好的反映中文的语义内涵,而基于语义的分析方法需要大量的专家知识,并且存在着主客观区分知识难以抽取,难以表示的问题。基于这个问题,本文提出了一种基于语义的TriPos模式的中文文本主客观分析的方法。本文通过实验验证了该算法的可行性以及有效性。 本文的主要创新点是: 1.提出了一种基于情感词语义加权的句子情感倾向性识别方法 该方法采用遗传学基因的思想,把情感词看做基因,在不同的上下文环境中呈现出不同的情感倾向性,首先确定情感词的静态显性,界定情感词的辖域,构建情感词分析器,在情感词辖域内针对可以影响情感词情感倾向性的各种类型的因素进行分析,得出最终的情感词情感倾向,进而采用相应句式的分析方法得出整个句子的情感倾向性。从实验的结果来看,本文提出的基于情感词语义加权的句子情感倾向性识别方法在褒义和贬义句子的倾向性识别上分别取得了不错的判全率和判准率,并且F值能达到0.95以上,充分说明本文提出的算法的有效性。 2.提出了一种基于语义的TriPos模式的中文文本主客观分析的方法 该方法通过语义和规则相结合的处理方式对文本进行处理。首先通过对大量的标注语料的分析,使用卡方统计方法,获取一个TriPos的语义模式库,然后利用这个语义模式库对待分析文本进行模式匹配,从而计算得到文本的主观性强度,为了进一步提高分析结果的准确性,本文在模式匹配之后,使用制定好的易于应用的主客观特征分析的规则对前一步计算的结果进行二次处理,最后通过加权计算得到文本的最终主观性程度,然后按照设定的阈值,通过比较得到的主观性程度与阈值的关系,确定待分析文本是否为主观性文本。实验显示,在相同的语料下,把该算法得到的实验数据与同行提出的算法得到的数据进行了对比,从而有力的证明了该方法是可行的。
【学位授予单位】:安徽大学
【学位级别】:硕士
【学位授予年份】:2012
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前1条
1 梅兴龙;文本倾向性分析在涉农网络舆情系统中的应用研究[D];南京农业大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 王素格;杨安娜;李德玉;;基于汉语情感词表的句子情感倾向分类研究[J];计算机工程与应用;2009年24期
2 李钝;曹付元;曹元大;万月亮;;基于短语模式的文本情感分类研究[J];计算机科学;2008年04期
3 关毅,张凯,付国宏;基于统计的计算语言模型[J];计算机应用研究;1999年06期
4 杨鼎;阳爱民;;一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J];计算机应用研究;2010年10期
5 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
6 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[J];中文信息学报;2007年01期
7 王根;赵军;;基于多重冗余标记CRFs的句子情感分析研究[J];中文信息学报;2007年05期
8 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
9 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[J];中文信息学报;2009年02期
10 王素格;李德玉;魏英杰;宋晓雷;;基于同义词的词汇情感倾向判别方法[J];中文信息学报;2009年05期
中国重要会议论文全文数据库 前1条
1 左维松;昝红英;张坤丽;吴云芳;;规则和统计相结合的情感分析研究[A];第五届全国信息检索学术会议论文集[C];2009年
中国硕士学位论文全文数据库 前1条
1 张霄凯;汉语主客观文本分类及预处理研究[D];上海交通大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 李荣军;王小捷;周延泉;;PageRank模型在中文情感词极性判别中的应用[J];北京邮电大学学报;2010年05期
2 崔大志;刘影;李媛;;论网络社区评论情感语义的模糊化[J];大连海事大学学报(社会科学版);2010年03期
3 庞娜;;增量学习算法对文本情感识别模型的改进[J];电脑开发与应用;2011年07期
4 梁坤;古丽拉·阿东别克;;基于SVM的中文新闻评论的情感自动分类研究[J];电脑知识与技术;2009年13期
5 张彬;杨志晓;;基于基准词的文本情感倾向性研究[J];电脑知识与技术;2011年08期
6 李新;;基于语义的文本信息安全过滤平台[J];信息化研究;2009年06期
7 李艺红;蒋秀凤;;中文句子倾向性分析[J];福州大学学报(自然科学版);2010年04期
8 许细清;林世平;;面向中文文本的观点检索技术研究[J];福州大学学报(自然科学版);2010年05期
9 廖祥文;张小琴;;基于句型结构的领域倾向词表构建[J];福州大学学报(自然科学版);2011年04期
10 杨亮;潘凤鸣;林鸿飞;;基于组块分析的评价对象识别及其应用[J];广西师范大学学报(自然科学版);2011年01期
中国重要会议论文全文数据库 前10条
1 吴苏红;王素格;;基于依存关系的旅游景点评论的特征-观点对抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 覃张华;王景中;;基于语境框架的倾向性文本过滤算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
4 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
5 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
6 ;Comparing Chinese reviews based on Fuzzy PROMETHEE: A new approach to sentiment analysis[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
7 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
8 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[A];第三届学生计算语言学研讨会论文集[C];2006年
9 姚天昉;聂青阳;李建超;李林琳;娄德成;陈珂;付宇;;一个用于汉语汽车评论的意见挖掘系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 李斌;卢俊之;章成志;陈小荷;;基于聚类引擎的话题褒贬度计算[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 郭戈;数字视频语义信息提取与分析[D];解放军信息工程大学;2010年
4 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
5 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
6 杨峰;本体映射关键技术研究[D];吉林大学;2011年
7 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
8 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
9 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
10 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
4 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
5 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
6 邓忠莹;中文文本倾向性分类系统研究[D];昆明理工大学;2009年
7 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
8 李海林;网络舆情热点信息发现及其倾向性研究[D];武汉理工大学;2010年
9 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
10 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 王娟;;网络舆情监控分析系统构建[J];长春理工大学学报(高教版);2007年04期
2 徐晓日;;网络舆情事件的应急处理研究[J];华北电力大学学报(社会科学版);2007年01期
3 欧阳旭;武建华;程洁;;浅论新形势下网络舆情监控体系的建立[J];警察技术;2012年01期
4 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
5 陈菲菲;桂小林;;基于机器学习的动态信誉评估模型研究[J];计算机研究与发展;2007年02期
6 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
7 姜维;关毅;王晓龙;;基于条件随机域的词性标注模型[J];计算机工程与应用;2006年21期
8 佟晓筠;宋国龙;刘强;张俐;姜伟;;中文分词及词性标注一体化模型研究[J];计算机科学;2007年09期
9 李钝;曹付元;曹元大;万月亮;;基于短语模式的文本情感分类研究[J];计算机科学;2008年04期
10 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
中国博士学位论文全文数据库 前1条
1 吴科;基于机器学习的文本分类研究[D];上海交通大学;2008年
中国硕士学位论文全文数据库 前6条
1 刘华煜;基于支持向量机的机器学习研究[D];大庆石油学院;2005年
2 杨梅;网络舆论的发展与社会控制[D];东北师范大学;2006年
3 林斌;基于语义技术的中文信息情感分析方法研究[D];哈尔滨工业大学;2006年
4 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
5 张紫琼;面向中文情感分析的词类组合模式研究[D];哈尔滨工业大学;2007年
6 刘依璐;基于机器学习的中文文本分类方法研究[D];西安电子科技大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 李静梅,孙丽华,张巧荣,张春生;一种文本处理中的朴素贝叶斯分类器[J];哈尔滨工程大学学报;2003年01期
2 关毅,王晓龙,张凯;基于转移的音字转换纠错规则获取技术[J];计算机研究与发展;1999年03期
3 王素格;杨安娜;李德玉;;基于汉语情感词表的句子情感倾向分类研究[J];计算机工程与应用;2009年24期
4 温滔,朱巧明,吕强;一种快速汉语分词算法[J];计算机工程;2004年19期
5 张宁,贾自艳,史忠植;使用KNN算法的文本分类[J];计算机工程;2005年08期
6 柳位平;朱艳辉;栗春亮;向华政;文志强;;中文基础情感词词典构建方法研究[J];计算机应用;2009年10期
7 赵伟,戴新宇,尹存燕,陈家骏;一种规则与统计相结合的汉语分词方法[J];计算机应用研究;2004年03期
8 李红莲,何伟,袁保宗;一种文本相似度及其在语音识别中的应用[J];中文信息学报;2003年01期
9 代六玲,黄河燕,陈肇雄;中文文本分类中特征抽取方法的比较研究[J];中文信息学报;2004年01期
10 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
中国重要会议论文全文数据库 前1条
1 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
2 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
3 李丽双;黄德根;毛婷婷;徐潇潇;;基于支持向量机的中国人名的自动识别[J];计算机工程;2006年19期
4 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
5 毛雪岷;丁友明;;基于语义引导与支持向量机的中文文本分类[J];情报杂志;2007年11期
6 龚静;周经野;;一种基于多重因子加权的文本特征项权值计算方法[J];计算技术与自动化;2007年01期
7 张雪英;Jürgen Krause;;中文文本关键词自动抽取方法研究[J];情报学报;2008年04期
8 葛亮;赵建国;;一个中文网络文本过滤系统的设计[J];电脑知识与技术;2008年26期
9 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[J];杭州电子科技大学学报;2010年05期
10 石晓敬;韩燮;;文本聚类算法的设计与实现[J];计算机工程与设计;2010年09期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
6 蒙应杰;司蕾;是垚;;基于矢量图形的中文文本零水印算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
7 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
9 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
10 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
3 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
4 ;健康、成本兼顾[N];中国计算机报;2004年
5 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
6 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
7 赛迪评测外设测试实验室;Canonxnu i320喷墨打印机[N];中国计算机报;2002年
8 赛迪评测计算机外围设备实验室;Epson Stylus Photo 915彩色喷墨打印机[N];中国计算机报;2003年
9 ;为专业打印提供更高扩展性[N];中国计算机报;2004年
10 詹亦文;签英文合同谨防陷阱[N];中国改革报;2003年
中国博士学位论文全文数据库 前10条
1 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年
2 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 毛昱;基于流形正则化和情感要素的半监督中文文本情感分类[D];北京邮电大学;2012年
5 徐迎晖;文本载体信息隐藏技术研究[D];北京邮电大学;2006年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
8 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
9 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
10 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
2 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
3 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
4 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
5 许林杰;中文文本分词研究[D];山东师范大学;2003年
6 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
7 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
8 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
9 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
10 朱红灿;基于SOM的两阶段中文文本聚类算法的研究[D];湘潭大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026