收藏本站
《郑州大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于文本分类技术的文本情感倾向性研究

郭明  
【摘要】: 文本情感倾向性研究在近些年成为众多学者关注的热点,其应用领域也在不断的拓宽。从社会舆论监督到产品口碑检测都离不开文本情感倾向性研究。本文在传统的文本分类技术基础上提出一种基于规则与统计方法相结合的情感分析模型。并将该模型在两种有代表性的语料中做了实验。语料一:领域背景复杂且分布极不平衡的新闻文本语料;语料二:领域背景单一的股票领域的专家的股评语料。 (1)分析新闻文本的情感倾向性,为新闻文本自动播报提供情感信息。本文提出一种中心句确定方法,并在提取的中心句的基础上运用统计方法提取潜在规则来对人工构建的规则库做补充,使规则库相对完备提高情感分析的效果。实验中采用支持向量机、贝叶斯分类器和K近邻分类器作为分类器与规则结合,并且使用多种特征提取方法和特征权重计算方法来进行对比实验。由于新闻语料自身的分布的极不平衡性,导致单纯的统计的方法在稀有类上的表现比较差,而规则与统计相结合的方法虽然没有能够完全解决这一难题,但却在一定程度上改善了实验效果。实验效果表明规则与统计方法相结合的情感分析模型相比于单纯的统计模型在效果上有了较明显的提高,表明规则结合统计的方法具有很好的普适性。 (2)本研究是建立在股票领域的垂直搜索应用上的。该应用需要对股评专家对某支股票的评论做看多、看平、看空、不确定进行分类。在这部分实验中因为所用语料短小、领域性非常强、口语化比较严重,通用的分词软件不能很好的进行分词。本文提出一种简便的定位特征词的方法,不仅满足了实验需求且时间效率非常高,时间复杂度为0(n)。由于领域单一容易提取较完备的规则,在这部分实验中规则的平均准确率均在90%以上,且均优于统计的方法。 本文提出的规则结合统计方法的分类模型在背景复杂的新闻文本语料中取得了很好的效果,较单纯的统计方法分类效果有了明显的提高,有效地改善了稀有类的分类效果。但是在背景单一的股票领域语料上并没有多大的提高,说明规则的方法较适用于背景单一的语料。
【学位授予单位】:郑州大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

知网文化
【参考文献】
中国期刊全文数据库 前10条
1 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
2 周立柱;贺宇凯;王建勇;;情感分析研究综述[J];计算机应用;2008年11期
3 庞剑锋,卜东波,白硕;基于向量空间模型的文本自动分类系统的研究与实现[J];计算机应用研究;2001年09期
4 王国江;王志良;杨国亮;王玉洁;陈锋军;;人工情感研究综述[J];计算机应用研究;2006年11期
5 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
6 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[J];中文信息学报;2007年01期
7 王根;赵军;;基于多重冗余标记CRFs的句子情感分析研究[J];中文信息学报;2007年05期
8 唐慧丰;谭松波;程学旗;;基于监督学习的中文情感分类技术比较研究[J];中文信息学报;2007年06期
9 徐军;丁宇新;王晓龙;;使用机器学习方法进行新闻的情感自动分类[J];中文信息学报;2007年06期
10 姚天昉;程希文;徐飞玉;汉思·乌思克尔特;王睿;;文本意见挖掘综述[J];中文信息学报;2008年03期
中国重要会议论文全文数据库 前1条
1 陈建美;林鸿飞;杨志豪;;基于贝叶斯模型的词汇情感消歧[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国硕士学位论文全文数据库 前5条
1 熊德兰;中文网页褒贬倾向性分类研究[D];郑州大学;2006年
2 娄德成;基于NLP技术的中文网络评论观点抽取方法的研究[D];上海交通大学;2007年
3 倪茂树;基于语义理解的观点评论挖掘研究[D];大连理工大学;2007年
4 彭其伟;基于统计方法的中文文本情感倾向分类研究[D];山西大学;2007年
5 宋光鹏;文本的情感倾向分析研究[D];北京邮电大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 洪颖;;基于改进VSM算法的智能个性化信息检索系统研究[J];北京服装学院学报(自然科学版);2010年01期
2 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
3 李文斌;刘椿年;钟宁;;基于两阶段集成学习的分类器集成[J];北京工业大学学报;2010年03期
4 文翰;肖南峰;;基于特征分布的半监督分类[J];北京工业大学学报;2012年01期
5 宋昊苏;李宁;张伟;;VSM模型在文档结构识别中的应用[J];北京信息科技大学学报(自然科学版);2011年06期
6 战守义,井新;加入时间因素的个性化信息过滤技术[J];北京理工大学学报;2005年09期
7 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
8 周世斌;白敬华;刘玉树;;统计流形上基于核近邻算法的文本分类研究[J];北京理工大学学报;2010年03期
9 何元娇;张国英;;基于本体语义的简单向量距离分类方法[J];北京石油化工学院学报;2007年03期
10 陈爽;陈福;杜天苍;;一种启发式网络信息采集系统设计与实现[J];北京石油化工学院学报;2007年04期
中国重要会议论文全文数据库 前10条
1 吴苏红;王素格;;基于依存关系的旅游景点评论的特征-观点对抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 马春雷;;基于向量空间模型的中文文本检索研究[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
4 单大甫;周斌;黄九鸣;;基于CAAR算法的文本倾向性分析技术[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
5 ;Discussion on Chinese Chess Decision-making System with Emotion[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
6 张娟;王慧锋;;文本分类技术在海量金融信息处理中的应用[A];第二十四届中国控制会议论文集(下册)[C];2005年
7 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
8 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
9 胡金柱;陈俊平;卢丽君;赵东萌;张琮;王益维;;基于本体视图的特征项抽取方法研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
10 陈庆轩;郑德权;郑博文;赵铁军;李生;;中文文本分类中基于文档频度分布的特征选择方法[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
2 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
3 张晓艳;新闻话题表示模型和关联追踪技术研究[D];国防科学技术大学;2010年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
6 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
7 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
8 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
9 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
10 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
中国硕士学位论文全文数据库 前10条
1 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
2 张军珲;基于统计的常用汉语副词用法自动识别研究[D];郑州大学;2010年
3 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
4 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
5 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
6 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
7 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
8 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
9 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
10 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
2 熊德兰,柴玉梅,昝红英;基于内容的名人网页褒贬性评价[J];平顶山工学院学报;2005年04期
3 詹卫东;80年代以来汉语信息处理研究述评──作为现代汉语语法研究的应用背景之一[J];当代语言学;2000年02期
4 金博,史彦军,滕弘飞;基于语义理解的文本相似度算法[J];大连理工大学学报;2005年02期
5 卢志茂,刘挺,张刚,李生;基于依存分析改进贝叶斯模型的词义消歧[J];高技术通讯;2003年05期
6 胡佳妮,徐蔚然,郭军,邓伟洪;中文文本分类中的特征选择算法研究[J];光通信研究;2005年03期
7 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
8 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
9 李蕾,钟义信,郭祥昊;面向特定领域的理解型中文自动文摘系统[J];计算机研究与发展;2000年04期
10 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
中国博士学位论文全文数据库 前2条
1 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
2 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
中国硕士学位论文全文数据库 前2条
1 朱国华;文本信息处理中汉语句法分析方法研究[D];大连理工大学;2006年
2 张会鹏;中文词法分析技术的研究与实现[D];哈尔滨工业大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 董梅;胡学钢;;基于多特征选择的中文文本分类[J];计算机技术与发展;2007年07期
2 王鹏;樊兴华;;中文文本分类中利用依存关系的实验研究[J];计算机工程与应用;2010年03期
3 陈文亮,朱慕华,朱靖波,姚天顺;基于Bootstrapping的文本分类模型[J];中文信息学报;2005年02期
4 崔彩霞;;停用词的选取对文本分类效果的影响研究[J];太原师范学院学报(自然科学版);2008年04期
5 钟延辉;傅彦;陈安龙;关娜;;基于抽样的垃圾短信过滤方法[J];计算机应用研究;2009年03期
6 林永民;朱卫东;;模糊kNN在文本分类中的应用研究[J];计算机应用与软件;2008年09期
7 代六玲,黄河燕,陈肇雄;一种用于文本分类的语义SVM及其在线学习算法[J];计算机工程与应用;2004年36期
8 谭建龙;张吉;郭莉;;基于通用后缀树模型的垃圾邮件过滤方法[J];计算机工程;2007年09期
9 王树梅,戴保存,吴慧中,王飞;文本分类的字典生成[J];南京理工大学学报(自然科学版);2002年05期
10 台德艺;谢飞;胡学钢;;基于位置权重的文本分类[J];安徽水利水电职业技术学院学报;2008年01期
中国重要会议论文全文数据库 前10条
1 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
2 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
5 潘文锋;王斌;谭松波;;贝叶斯垃圾邮件过滤研究[A];全国网络与信息安全技术研讨会’2004论文集[C];2004年
6 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
9 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
10 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
2 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
3 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
4 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
5 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
6 山枫;McAfee 用贝叶斯强化处理垃圾邮件[N];中国计算机报;2004年
7 ;神奇的贝叶斯邮件过滤器[N];网络世界;2003年
8 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
9 本报记者 姚从权;我国自己的大规模口语库即将建成[N];中国社会科学院院报;2004年
10 通讯员 侯晓斌;运用现代科学技术研究中国传统文化[N];中国社会科学院院报;2006年
中国博士学位论文全文数据库 前10条
1 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
2 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
3 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
4 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
5 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
6 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
7 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
8 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
9 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
10 祝翠玲;基于类别结构的文本层次分类方法研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
3 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
4 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
5 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
6 闫晨;KNN文本分类研究[D];燕山大学;2010年
7 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
8 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
9 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
10 范小丽;文本分类中特征选择的研究与实现[D];西北大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026