收藏本站
《上海交通大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

基于主题相关性的中文文本情感分类研究

来火尧  
【摘要】: 文本情感分类是文本处理的重要研究领域,对于互联网舆情监管、信息获取、信息过滤等信息内容安全领域的研究具有重要意义。本文对情感分类问题的文本向量表示形式和向量权值计算进行了深入的讨论和研究,设计实现了基于主题相关性的中文文本情感分类系统。 在传统主题分类系统的基础上,考虑了文本语义信息对情感分析的重要性,提出了以下几方面的见解和方法: 第一,改进了情感分类问题的文本向量表示形式,提出了文本概念空间向量模型。在情感类文本中,文本作者往往通过对文本主题对象或者对象的属性及属性间关系的评价来表达情感态度和观点偏向,概念空间向量模型充分体现了文本情感语义表达的这一特点。 第二,提出了文本概念抽取和归纳算法。用概念来表示文本的主题对象和对象属性及其属性间关系。通过知网知识系统,对概念空间进行归纳,有效地解决了维数过高和概念间的同义、近义相关性问题。本文给出了概念抽取和归纳的具体算法和详细流程图,实验数据表明,通过概念归纳,分类准确度提高了4%。 第三,引入了主题相关度函数作为特征概念选择的评价标准。充分考虑了概念相似性与相关性之间的联系,利用知网知识系统概念义原间的关系建立相关度计算模型。 第四,提出了概念情感度量值的计算方法。基于知网知识系统的情感类词汇词典,结合句子成分的依存关系分析,详细讨论了概念的情感权值计算方法,并给出了具体的计算公式。该方法综合考虑了程度副词的影响,并通过引入反文档倾向系数,消除了对情感表达区分度小的概念情感分值的影响。实验数据显示,程度副词的分级加权,使分类准确率提高了2%。 最后,根据文本概念空间向量模型和概念情感权值计算方法,实现了基于主题相关性的中文文本情感分类系统。在系统实验中,通过k最近邻、朴素贝叶斯和支持向量机三种分类算法对多个主题的文档进行了测试并验证了概念空间维数大小对分类准确率的影响,实验结果表明,本文所设计的分类系统,准确率和召回率分别达到83%和84%,表现出了较好的性能和稳定性。
【学位授予单位】:上海交通大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP391.1

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前3条
1 刘冬平;面向中文歌词的音乐情感分类研究[D];广东工业大学;2011年
2 徐叶强;基于情感分类的产品评论垂直搜索引擎的研究[D];湖南工业大学;2012年
3 胡恩星;越南语文语转换系统中的前端文本分析方法[D];云南大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
2 陈龙;范瑞霞;高琪;;基于概念的文本表示模型[J];计算机工程与应用;2008年20期
3 袁军鹏;朱东华;李毅;李连宏;黄进;;文本挖掘技术研究进展[J];计算机应用研究;2006年02期
4 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
5 毛伟;徐蔚然;郭军;;基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J];中文信息学报;2006年03期
6 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[J];中文信息学报;2007年01期
7 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
8 徐军;丁宇新;王晓龙;;使用机器学习方法进行新闻的情感自动分类[J];中文信息学报;2007年06期
9 刘伟权,王明会,钟义信;建立现代汉语依存关系的层次体系[J];中文信息学报;1996年02期
10 邹涛,王继成,黄源,张福炎;中文文档自动分类系统的设计与实现[J];中文信息学报;1999年03期
中国重要会议论文全文数据库 前1条
1 王红玲;吕强;徐瑞;;一种基于知网的中文语义相关度计算模型[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
【共引文献】
中国期刊全文数据库 前10条
1 胡锡衡;;垃圾邮件过滤系统模型的研究与设计[J];鞍山师范学院学报;2009年02期
2 胡锡衡;;径向基函数在文本分类中的应用[J];鞍山师范学院学报;2011年02期
3 李荣军;王小捷;周延泉;;PageRank模型在中文情感词极性判别中的应用[J];北京邮电大学学报;2010年05期
4 郭淼霞;;中文网页分类研究综述[J];赤峰学院学报(自然科学版);2011年12期
5 陈晓明;梁雄友;;一种实用的PCFG多阶段全局寻优句法分析算法[J];长春理工大学学报(自然科学版);2010年02期
6 何海江;凌云;;由向量空间相关模型识别博客文章的垃圾评论[J];长沙大学学报;2008年02期
7 杨柳;张俊芝;;浅谈聚类算法及其存在的问题[J];产业与科技论坛;2012年02期
8 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
9 朱君;曲超;汤庸;;利用单词超团的二分图文本聚类算法[J];电子科技大学学报;2008年03期
10 崔大志;刘影;李媛;;论网络社区评论情感语义的模糊化[J];大连海事大学学报(社会科学版);2010年03期
中国重要会议论文全文数据库 前10条
1 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 覃张华;王景中;;基于语境框架的倾向性文本过滤算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
3 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
4 陈伟萍;王琳;封化民;杨鼎才;方勇;;一种基于语义概念的中文文本分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
5 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
6 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
7 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
8 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
9 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
10 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
5 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
6 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
7 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
8 杨峰;本体映射关键技术研究[D];吉林大学;2011年
9 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
10 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
4 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
5 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
6 丛肖为;敏感信息监管系统的设计与实现[D];华东师范大学;2010年
7 涂传唐;基于行为识别的反垃圾邮件技术的探讨[D];华东师范大学;2010年
8 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
9 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
10 孙萍;面向事件的多文档自动文摘研究[D];江苏大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张冉;李茜;;浅论歌唱中语感的价值[J];承德民族师专学报;2010年01期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 文坤梅;卢正鼎;李瑞轩;孙小林;;语义搜索引擎Smartch的设计与实现(英文)[J];Journal of Southeast University(English Edition);2007年03期
4 潘赫;;歌唱艺术中的情感表达[J];大舞台;2007年03期
5 ;下一代智能搜索技术[J];新电脑;2006年05期
6 杨坚争;李朝平;;垂直搜索引擎及其应用[J];电子商务;2006年10期
7 马世军;姚建;乔文;;基于贝叶斯理论的垃圾邮件过滤技术[J];硅谷;2009年13期
8 胡熠;陆汝占;李学宁;段建勇;陈玉泉;;基于语言建模的文本情感分类研究[J];计算机研究与发展;2007年09期
9 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
10 洪铭材;张阔;唐杰;李涓子;;基于条件随机场(CRFs)的中文词性标注方法[J];计算机科学;2006年10期
中国重要会议论文全文数据库 前1条
1 许小颖;陶建华;;汉语情感系统中情感划分的研究[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年
中国博士学位论文全文数据库 前3条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 吴义坚;基于隐马尔科夫模型的语音合成技术研究[D];中国科学技术大学;2006年
3 凌震华;基于统计声学建模的语音合成技术研究[D];中国科学技术大学;2008年
中国硕士学位论文全文数据库 前10条
1 鲁骁;基于条件随机场的中文分词技术的研究与实现[D];华中科技大学;2011年
2 徐思昊;基于HMM的中文语音合成研究[D];北京邮电大学;2007年
3 徐琳宏;基于语义资源的文本情感计算[D];大连理工大学;2007年
4 蒋红;中文文本分类中文本表示及分类算法研究[D];浙江师范大学;2007年
5 张龙;基于粗糙集和神经网络的中文文本分类研究与实现[D];西北大学;2008年
6 庞娜;基于OCC模型的文本情感识别方法的研究[D];太原理工大学;2008年
7 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
8 曹卫峰;中文分词关键技术研究[D];南京理工大学;2009年
9 潘凤鸣;基于语义搭配的评论倾向性分析[D];大连理工大学;2009年
10 张春华;面向恶意软件的分类与特征自动生成方法的研究[D];山东大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 许云,樊孝忠,张锋;基于知网的语义相关度计算[J];北京理工大学学报;2005年05期
2 周颜军,王双成,王辉;基于贝叶斯网络的分类器研究[J];东北师大学报(自然科学版);2003年02期
3 冯志伟;;特思尼耶尔的从属关系语法[J];国外语言学;1983年01期
4 林鸿飞,姚天顺;基于示例的中文文本过滤模型[J];大连理工大学学报;2000年03期
5 徐建斌,施亚东;基于概念的文本自动分类研究的综述[J];福建电脑;2005年02期
6 史磊,王永成;英文文献自动摘要系统的研制与开发[J];高技术通讯;1999年11期
7 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
8 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
9 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
10 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
【相似文献】
中国期刊全文数据库 前10条
1 朱华宇,孙正兴,张福炎;一个基于向量空间模型的中文文本自动分类系统[J];计算机工程;2001年02期
2 张杰,战学刚,冯金平,陈文亮;中文文本分类器的评价[J];鞍山科技大学学报;2005年Z1期
3 朱红灿,孟志青;一种基于SOM和层次凝聚的中文文本聚类方法[J];湘潭大学自然科学学报;2005年03期
4 李丽双;黄德根;毛婷婷;徐潇潇;;基于支持向量机的中国人名的自动识别[J];计算机工程;2006年19期
5 李丽双;黄德根;陈春荣;杨元生;;基于支持向量机的中文文本中地名识别[J];大连理工大学学报;2007年03期
6 毛雪岷;丁友明;;基于语义引导与支持向量机的中文文本分类[J];情报杂志;2007年11期
7 龚静;周经野;;一种基于多重因子加权的文本特征项权值计算方法[J];计算技术与自动化;2007年01期
8 张雪英;Jürgen Krause;;中文文本关键词自动抽取方法研究[J];情报学报;2008年04期
9 葛亮;赵建国;;一个中文网络文本过滤系统的设计[J];电脑知识与技术;2008年26期
10 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[J];杭州电子科技大学学报;2010年05期
中国重要会议论文全文数据库 前10条
1 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
2 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
4 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
5 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
6 蒙应杰;司蕾;是垚;;基于矢量图形的中文文本零水印算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
7 施水才;肖诗斌;王弘蔚;王洪俊;苏东庄;;TRS中文文本信息检索技术的发展——从全文检索到基于自然语言处理的知识检索[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
8 张宝艳;王庆辉;;中文文本聚类的研究与实现[A];第一届学生计算语言学研讨会论文集[C];2002年
9 高楚舒;丁于思;;因特网中文文本信息分析[A];计算机模拟与信息技术会议论文集[C];2001年
10 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
3 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
4 ;健康、成本兼顾[N];中国计算机报;2004年
5 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
6 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
7 赛迪评测外设测试实验室;Canonxnu i320喷墨打印机[N];中国计算机报;2002年
8 赛迪评测计算机外围设备实验室;Epson Stylus Photo 915彩色喷墨打印机[N];中国计算机报;2003年
9 ;为专业打印提供更高扩展性[N];中国计算机报;2004年
10 詹亦文;签英文合同谨防陷阱[N];中国改革报;2003年
中国博士学位论文全文数据库 前10条
1 王鉴全;基于概念图挖掘的中文文本倾向性研究[D];大连理工大学;2012年
2 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 毛昱;基于流形正则化和情感要素的半监督中文文本情感分类[D];北京邮电大学;2012年
5 徐迎晖;文本载体信息隐藏技术研究[D];北京邮电大学;2006年
6 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
7 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
8 张冬梅;文本情感分类及观点摘要关键问题研究[D];山东大学;2012年
9 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
10 徐永东;多文档自动文摘关键技术研究[D];哈尔滨工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
2 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
3 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
4 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
5 许林杰;中文文本分词研究[D];山东师范大学;2003年
6 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
7 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
8 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
9 马国俊;潜在语义索引在中文文本聚类中的应用研究[D];西安建筑科技大学;2004年
10 朱红灿;基于SOM的两阶段中文文本聚类算法的研究[D];湘潭大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026