收藏本站
《郑州大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于文本分类技术的文本情感倾向性研究

郭明  
【摘要】: 文本情感倾向性研究在近些年成为众多学者关注的热点,其应用领域也在不断的拓宽。从社会舆论监督到产品口碑检测都离不开文本情感倾向性研究。本文在传统的文本分类技术基础上提出一种基于规则与统计方法相结合的情感分析模型。并将该模型在两种有代表性的语料中做了实验。语料一:领域背景复杂且分布极不平衡的新闻文本语料;语料二:领域背景单一的股票领域的专家的股评语料。 (1)分析新闻文本的情感倾向性,为新闻文本自动播报提供情感信息。本文提出一种中心句确定方法,并在提取的中心句的基础上运用统计方法提取潜在规则来对人工构建的规则库做补充,使规则库相对完备提高情感分析的效果。实验中采用支持向量机、贝叶斯分类器和K近邻分类器作为分类器与规则结合,并且使用多种特征提取方法和特征权重计算方法来进行对比实验。由于新闻语料自身的分布的极不平衡性,导致单纯的统计的方法在稀有类上的表现比较差,而规则与统计相结合的方法虽然没有能够完全解决这一难题,但却在一定程度上改善了实验效果。实验效果表明规则与统计方法相结合的情感分析模型相比于单纯的统计模型在效果上有了较明显的提高,表明规则结合统计的方法具有很好的普适性。 (2)本研究是建立在股票领域的垂直搜索应用上的。该应用需要对股评专家对某支股票的评论做看多、看平、看空、不确定进行分类。在这部分实验中因为所用语料短小、领域性非常强、口语化比较严重,通用的分词软件不能很好的进行分词。本文提出一种简便的定位特征词的方法,不仅满足了实验需求且时间效率非常高,时间复杂度为0(n)。由于领域单一容易提取较完备的规则,在这部分实验中规则的平均准确率均在90%以上,且均优于统计的方法。 本文提出的规则结合统计方法的分类模型在背景复杂的新闻文本语料中取得了很好的效果,较单纯的统计方法分类效果有了明显的提高,有效地改善了稀有类的分类效果。但是在背景单一的股票领域语料上并没有多大的提高,说明规则的方法较适用于背景单一的语料。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
2 周立柱;贺宇凯;王建勇;;情感分析研究综述[J];计算机应用;2008年11期
3 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
4 王国江;王志良;杨国亮;王玉洁;陈锋军;;人工情感研究综述[J];计算机应用研究;2006年11期
5 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
6 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[J];中文信息学报;2007年01期
7 王根;赵军;;基于多重冗余标记CRFs的句子情感分析研究[J];中文信息学报;2007年05期
8 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
9 徐军;丁宇新;王晓龙;;使用机器学习方法进行新闻的情感自动分类[J];中文信息学报;2007年06期
10 姚天昉;程希文;徐飞玉;汉思·乌思克尔特;王睿;;文本意见挖掘综述[J];中文信息学报;2008年03期
中国重要会议论文全文数据库 前1条
1 陈建美;林鸿飞;杨志豪;;基于贝叶斯模型的词汇情感消歧[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前5条
1 熊德兰;中文网页褒贬倾向性分类研究[D];郑州大学;2006年
2 娄德成;基于NLP技术的中文网络评论观点抽取方法的研究[D];上海交通大学;2007年
3 倪茂树;基于语义理解的观点评论挖掘研究[D];大连理工大学;2007年
4 彭其伟;基于统计方法的中文文本情感倾向分类研究[D];山西大学;2007年
5 宋光鹏;文本的情感倾向分析研究[D];北京邮电大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
2 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
3 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
4 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
5 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
6 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
7 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
8 周世斌;白敬华;刘玉树;;统计流形上基于核近邻算法的文本分类研究[J];北京理工大学学报;2010年03期
9 何元娇;张国英;;基于本体语义的简单向量距离分类方法[J];北京石油化工学院学报;2007年03期
10 陈爽;陈福;杜天苍;;一种启发式网络信息采集系统设计与实现[J];北京石油化工学院学报;2007年04期
中国重要会议论文全文数据库 前10条
1 吴苏红;王素格;;基于依存关系的旅游景点评论的特征-观点对抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
4 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
5 ;Discussion on Chinese Chess Decision-making System with Emotion[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
6 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
7 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
8 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
9 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
10 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
6 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
7 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
8 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
9 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
10 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
2 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
3 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
4 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
5 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
6 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
7 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
8 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
9 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
10 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期
3 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
4 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
5 卢志茂,刘挺,张刚,李生;基于依存分析改进贝叶斯模型的词义消歧[J];高技术通讯;2003年05期
6 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
7 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
8 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
9 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
10 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
中国博士学位论文全文数据库 前2条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
中国硕士学位论文全文数据库 前2条
1 朱国华;文本信息处理中汉语句法分析方法研究[D];大连理工大学;2006年
2 张会鹏;中文词法分析技术的研究与实现[D];哈尔滨工业大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 谭敏;;基于UML的公安情报自动分类系统设计[J];价值工程;2011年11期
2 高洁,吉根林;文本分类技术研究[J];计算机应用研究;2004年07期
3 薛燕波;WEB文本分类技术在企业竞争情报分析中的应用[J];情报科学;2004年03期
4 李国栋,李卫;基于文本分类技术的垃圾邮件识别系统[J];微电子学与计算机;2004年06期
5 王汉萍,孟庆春,张继军,李占斌,殷波;基于粗糙集的文本自动分类方法的研究[J];信息技术;2003年08期
6 王涛,孙河山;Web挖掘技术在搜索引擎中的应用[J];情报理论与实践;2002年04期
7 孟庆春,王汉萍,魏天滨,葛艳,高云;一种基于粗糙集的文本分类规则抽取方法[J];青岛海洋大学学报(自然科学版);2003年06期
8 李淑文;试论文本自动分类[J];现代计算机;2004年07期
9 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
10 程美群,陈能华;高校信息资源专业搜索引擎建设探讨[J];情报科学;2004年02期
中国博士学位论文全文数据库 前1条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
中国硕士学位论文全文数据库 前5条
1 熊大康;中文短文本分类技术的研究与实现[D];安徽大学;2014年
2 陈乐;基于智能文本分类技术的素材管理软件的设计与开发[D];南京师范大学;2003年
3 姚松源;文本自动分类系统的研究与实现[D];北京工业大学;2003年
4 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
5 张利军;数据挖掘系统及其应用研究——用关联特征提高朴素贝叶斯文本分类器的性能[D];西北工业大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026