收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

文本倾向性分析中的情感词典构建技术研究

杜伟夫  
【摘要】: 随着计算机与网络技术的迅猛发展,Internet已经成为现代主要的信息载体,网络在线文档也成为人们日常生活中不可或缺的主要信息来源。而随着互联网进入Web2.0时代,Internet又逐步地从静态的信息载体变成人们表达意见、交流情感的平台,人们通过各种途径,以各种方式表达自身对于各种事物的意见、看法:新闻评论、产品评论、情感博客等。这些观点性内容对于网络电子商务、网络社区发现、网络信息安全、网络信息检索等多方面都具有重要的意义和实用价值。面对如此海量的富含情感信息的文本,亟待找到一种快速的自动分析方法对这些网络文本进行处理。对网络文本观点性内容的自动情感分析成为近期web信息处理的一个研究热点,而其中的核心技术就是文本倾向性分析。情感词典构建是文本倾向性分析的基础。本文以高质量的情感词典构建算法作为研究目标,着重对以下几个方面进行了深入的研究: 首先,介绍了文本倾向性分析研究的背景,分析了文本倾向性分析及情感词典构建所面临的挑战;然后分析了当前文本倾向性分析及情感词典构建技术的研究现状;最后进一步明确了研究情感词典构建算法的意义和必要性。 为了减少通用情感词典构建算法对于基准词的依赖,提出了基于函数优化的通用词典构建方法。目前多数通用情感词典构建方法根据语气待定词语与之前人工进行语气标注的基准词之间的局部信息来确定语气待定词语的语气倾向。这样导致了两方面的问题:①由于对于语气待定词语与测试集中所有词语之间的全局信息利用不充分,致使算法准确率仍存在提高空间;②该方法对领域专家的依赖较强,对基准词的选择和数量较为敏感。针对该问题,本文从图划分的角度提出基于函数优化的通用情感词典构建方法,该方法将通用情感词典构建问题转化为函数优化问题,并利用模拟退火算法进行求解。 为了解决基于图划分方法在某些应用场景中易于陷入局部极值的问题,提出了基于词语聚团性的通用词典构建方法。在利用函数优化求解图分解问题的算法中,多数以“最小切分”作为切分的目标。但当子图大小和数目不固定时,采用“最小切分”策略的目标函数在求解过程易于陷入局部极值:即倾向于把所有节点划入一个子图,而使的另外的子图中的节点数目为零。针对该问题,本文采用复杂网络社区发现中的基于Modularity优化的方法来构建通用情感词典。本文对于传统Modularity方法的改进在于,只比较所有二分情况下的Modularity值并进行优化,这样既使得Modularity方法能够适用于本问题,又极大的降低了运算量。 为了解决情感词典的领域移植问题,提出了基于扩展信息瓶颈的领域词典构建方法。领域情感词典被广泛应用于细粒度的文本倾向性分析中,自动构建领域情感词典文本倾向性分析研究中一个重要且基础的工作。现有的构建算法只考虑了新旧领域之间词语的关系,算法准确率仍存在提升空间。针对该问题,本文对传统信息瓶颈聚类方法进行改进,通过充分利用源领域与目标领域的情感词与文档之间的相互关系,来建立目标领域的领域情感词典。 最后,设计并实现了一个细粒度的产品属性挖掘系统。在该系统中,通过利用产品属性和评论语气词之间的互相推荐,可以实现同时对商品属性词类别和评论语气词类别进行构建,并将相关的产品属性类别与评论词类别进行关联;进而通过情感词典的引入,实现了基于属性的产品比较和推荐。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张婧;李珏峰;;数据挖掘技术在BBS管理中的应用[J];福建电脑;2008年04期
2 大鱼儿;;自动扩展大小的TEdit[J];软件;2001年07期
3 赵春红;刘国华;王柠;何玲玲;;外包数据库模型中文本数据的完整性检测方案[J];小型微型计算机系统;2010年09期
4 仲志平;刘渝妍;翟从鸿;;基于BWC的XML文本数据索引技术[J];安徽师范大学学报(自然科学版);2011年03期
5 仲志平;刘渝妍;孙建洪;;基于BWC的XML文本数据索引技术研究[J];昆明学院学报;2011年03期
6 杜德生;田小军;;Lucene应用中Pdf文档文本数据提取方法研究[J];自动化技术与应用;2009年03期
7 王成强;;基于不平衡数据集的文本分类技术[J];电脑知识与技术;2009年36期
8 孙开放;使用通信控件实现字节通信方式[J];微计算机信息;2002年03期
9 薛冰冰,普杰信;数据挖掘技术及其在电子邮件中的应用[J];信息技术;2003年07期
10 崔时珍;;纯文本数据在VFP中导入导出[J];电脑学习;2009年01期
11 王东兴,冷惠文;大量编程用文本数据的统一处理[J];鞍山钢铁学院学报;1997年06期
12 李文龙;保护文本数据案例的巧妙方法[J];计算机安全;2003年04期
13 ;保护文本数据安全的巧妙方法[J];电脑知识与技术;2003年13期
14 李文龙;保护文本数据安全的巧妙方法[J];网络与信息;2003年04期
15 于得海;王银;;巧借表格向Excel中导入文本数据[J];电脑迷;2006年09期
16 金凤霞;找回损坏磁盘中的文本数据[J];计算机周刊;1997年22期
17 周芝梅,陈志刚,李明山,何小巧;基于数据库的设计资料管理系统[J];南华大学学报(理工版);2001年02期
18 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
19 李玉兰,黄海涛;房产图文数据管理技术[J];电脑学习;1996年02期
20 杨宁生,葛常水;文本型数据向CDS/ISIS数据库数据的转换[J];情报理论与实践;1994年01期
中国重要会议论文全文数据库 前10条
1 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
4 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 彭泽映;俞晓明;许洪波;;大规模短文本的不完全聚类[A];第六届全国信息检索学术会议论文集[C];2010年
7 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
8 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
9 张小琴;蒋秀凤;;基于句子级的领域倾向词表构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 张丹;王静;;水利系统档案馆信息化管理[A];第十届中国科协年会文化强省战略与科技支撑论坛文集[C];2008年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
3 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
4 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
5 崔安颀;微博热点事件的公众情感分析研究[D];清华大学;2013年
6 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
7 卢敏;具有自然分组特性文本的分类研究[D];南开大学;2013年
8 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
9 布凡;文本信息度量研究[D];清华大学;2013年
10 邓莎莎;支持决策研讨的文本分析方法研究[D];上海交通大学;2013年
中国硕士学位论文全文数据库 前10条
1 朱敏;基于丰心工学的情感信息可视化与充实度分析[D];北京邮电大学;2011年
2 徐淑坦;基于改进RBF神经网络的文本情感分类研究[D];吉林大学;2011年
3 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
4 李正林;中文文本数据分类研究[D];上海师范大学;2004年
5 罗晖霞;网络舆情监测系统研究与开发[D];中北大学;2010年
6 陈鸿;Web网页的时态文本索引研究[D];中国科学技术大学;2011年
7 暴自强;结合LSA的文本谱聚类算法研究[D];重庆大学;2010年
8 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
9 文星;基于位置感知的Web文本搜索技术研究[D];大连海事大学;2011年
10 暴艳;多领域的文本情感倾向分类方法研究[D];山西大学;2012年
中国重要报纸全文数据库 前10条
1 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
2 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
3 Jim Goodnight;BI:演进中勾勒未来[N];网络世界;2007年
4 张耀南 杨海 韦五周 景通桥 张军强;寒区旱区数据管理平台[N];计算机世界;2006年
5 王;汇总通话、加速Web显示[N];中国计算机报;2001年
6 本报记者 谢斌鑫;视频的短板[N];中国计算机报;2004年
7 苏和;电子检务该如何推行[N];检察日报;2007年
8 ;BI的新方向[N];网络世界;2007年
9 金翔 王钰;全国文物普查通过验收[N];广元日报;2010年
10 杨前有;柞水建成土地利用现状数据库[N];商洛日报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978