收藏本站
《哈尔滨工业大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

情感标签抽取相关技术研究

刘鸿宇  
【摘要】: 随着Web2.0技术的蓬勃发展,互联网上产生了海量的用户评论信息,如何从这些评论中挖掘出有价值的信息,越来越受到研究者们的关注。从产品评论中挖掘意见信息,一方面可以帮助用户在购买产品时作出决策,另一方面可以帮助商家即时了解用户对自己产品的意见。情感标签由评价对象和评价词组成,包含了用户评论的详细信息,能够有效地体现出用户评论的核心内容。为此,本文针对情感标签抽取中的三项任务:评价词集构建、评价对象识别以及情感标签抽取进行了深入研究。 在评价词集构建中,为了构建准确且全面的评价词集合,本文采用了融合语义知识库和大规模语料库的方法来获取候选评价词集合,进而通过候选评价词在语料库中的上下文为其设置置信度,根据置信度来度量候选评价词正确的可能性,最终选取置信度较高的评价词构成评价词集合。使用本方法构建的评价词集合参加了第一届中文倾向性分析评测中的任务一,取得了较好成绩。 在评价对象识别中,本文首先基于短语结构获取候选评价对象集合,进而针对评价对象具有领域相关性的特点引入了基于网络挖掘的PMI(Pointwise mutual information)值过滤方法,针对评价对象中的名词冗余现象引入了名词剪枝算法,最终对评论句进行分类,以评价对象集为基础找出评论文本中用户进行评论的评价对象。本方法实现的系统参加了第一届中文倾向性分析评测中的任务三,取得了较好成绩。 情感标签抽取方面,本文提出了基于短语句法路径的情感标签抽取方法,本方法通过句法关系挖掘评价词与评价对象之间的修饰关系,解决了就近查找方法存在的经验性过强问题,同时,本文采取全自动的句法路径库获取方法,解决了传统人工制定规则方法存在的规则覆盖不全的问题,最后,本文在句法路径匹配的过程中引入了编辑距离进行松弛,从而有效的提高了系统召回率。 最后,针对传统情感标签抽取方法无法解决的隐式标签抽取问题,本文尝试使用主题模型对文本进行情感标签标注,提出了基于互信息和基于概率相似度的两种具体标注方案,实验结果表明主题模型在抽取隐式标签时能够起到一定的作用,本文最终对主题模型应用于情感标签标注存在的问题进行了详细的分析。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前1条
1 朱嫣岚;闵锦;周雅倩;黄萱菁;吴立德;;基于HowNet的词汇语义倾向计算[J];中文信息学报;2006年01期
中国硕士学位论文全文数据库 前1条
1 林洋港;概率主题模型在文本分类中的应用研究[D];中国科学技术大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 李荣军;王小捷;周延泉;;PageRank模型在中文情感词极性判别中的应用[J];北京邮电大学学报;2010年05期
2 庞娜;;增量学习算法对文本情感识别模型的改进[J];电脑开发与应用;2011年07期
3 梁坤;古丽拉·阿东别克;;基于SVM的中文新闻评论的情感自动分类研究[J];电脑知识与技术;2009年13期
4 张彬;杨志晓;;基于基准词的文本情感倾向性研究[J];电脑知识与技术;2011年08期
5 李艺红;蒋秀凤;;中文句子倾向性分析[J];福州大学学报(自然科学版);2010年04期
6 廖祥文;张小琴;;基于句型结构的领域倾向词表构建[J];福州大学学报(自然科学版);2011年04期
7 李迎凯;徐小良;;一种改进的基于知网的句子相似度计算方法[J];电子科技;2012年07期
8 罗安;王勇;张福浩;刘纪平;;基于角色标注的中文POI名称语义分类方法[J];测绘通报;2012年S1期
9 杜伟夫;谭松波;云晓春;程学旗;;一种新的情感词汇语义倾向计算方法[J];计算机研究与发展;2009年10期
10 李国林;万常选;边海容;杨莉;钟敏娟;;基于语素的金融证劵域文本情感探测[J];计算机研究与发展;2011年S3期
中国重要会议论文全文数据库 前10条
1 边海容;万常选;李国林;杨莉;;Web金融信息情感倾向与上市公司财务危机的关系研究[A];信息化、工业化融合与服务创新——第十三届计算机模拟与信息技术学术会议论文集[C];2011年
2 朱宏博;张芊;赵海;宋纯贺;;基于贝叶斯网络英文电影对白的潜在语义分析[A];第八届沈阳科学学术年会论文集[C];2011年
3 ;Comparing Chinese reviews based on Fuzzy PROMETHEE: A new approach to sentiment analysis[A];第六届(2011)中国管理学年会——商务智能分会场论文集[C];2011年
4 王根;赵军;;中文褒贬义词语倾向性的分析[A];第三届学生计算语言学研讨会论文集[C];2006年
5 徐琳宏;林鸿飞;杨志豪;;基于语义理解的文本倾向性识别机制[A];第三届学生计算语言学研讨会论文集[C];2006年
6 姚天昉;聂青阳;李建超;李林琳;娄德成;陈珂;付宇;;一个用于汉语汽车评论的意见挖掘系统[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 李斌;卢俊之;章成志;陈小荷;;基于聚类引擎的话题褒贬度计算[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 倪茂树;林鸿飞;;基于关联规则和极性分析的商品评论挖掘[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
9 蔡健平;林世平;;基于机器学习的词语和句子极性分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 申晓晔;封化民;毋非;;基于语义理解的Web新闻倾向性分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
中国博士学位论文全文数据库 前10条
1 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
4 杨峰;本体映射关键技术研究[D];吉林大学;2011年
5 李荣军;中文商品评论倾向性分析研究[D];北京邮电大学;2011年
6 徐军;面向金融信息检索的体裁分类与情感分析技术研究[D];哈尔滨工业大学;2011年
7 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
8 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
9 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
10 何慧;WEB文本挖掘中关键问题的研究[D];北京邮电大学;2009年
中国硕士学位论文全文数据库 前10条
1 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
2 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
3 杨鼎;基于朴素贝叶斯的中文文本情感倾向分类研究[D];湖南工业大学;2010年
4 苏麒匀;基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究[D];北京交通大学;2011年
5 邓忠莹;中文文本倾向性分类系统研究[D];昆明理工大学;2009年
6 周杰;网络舆情话题情感倾向性分析技术研究[D];解放军信息工程大学;2010年
7 李海林;网络舆情热点信息发现及其倾向性研究[D];武汉理工大学;2010年
8 汪前秀;基于改进的VSM的不良文本过滤模型研究[D];东北财经大学;2010年
9 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
10 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年
【二级参考文献】
中国期刊全文数据库 前3条
1 王建芬,曹元大;支持向量机在大类别数分类中的应用[J];北京理工大学学报;2001年02期
2 周宁,文燕平,严亚兰;信息检索可视化初探[J];情报科学;2004年02期
3 孙丽华,张积东,李静梅;一种改进的kNN方法及其在文本分类中的应用[J];应用科技;2002年02期
中国硕士学位论文全文数据库 前1条
1 李威;基于向量空间的文本自动分类系统的研究和实现[D];兰州理工大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 程慧荣;黄国彬;张永杰;;国外大众标注系统研究进展[J];图书馆杂志;2008年11期
2 李枫林;张景;;基于用户标注行为的相关性分析及重排序[J];情报理论与实践;2010年10期
3 蒋翠清;张玉;丁勇;;基于PLSA的大众标注潜在语义发现[J];现代图书情报技术;2010年10期
4 陈远浩;张本宇;张宏江;;一种基于权重融合的聚类算法及其在语义树生成中的应用[J];小型微型计算机系统;2009年07期
5 宣云干;朱庆华;;基于熵的社会化标注系统资源模型研究[J];计算机应用与软件;2011年03期
6 李宝山;罗春青;;RFID防碰撞算法计算机仿真模型的研究[J];自动化与仪器仪表;2010年05期
7 李杉;李兵;潘伟丰;侯婷婷;;一种mashup服务描述本体的自动构建方法[J];小型微型计算机系统;2011年09期
8 顾复;陈芨熙;;一种基于标签的产品和零部件网页的自组织分类编码方法[J];成组技术与生产现代化;2007年02期
9 王翠英;;Folksonomies的结构模式研究[J];现代情报;2008年02期
10 吴芬;;协同标注系统的语义丰富[J];情报杂志;2010年01期
中国重要会议论文全文数据库 前10条
1 韩敏;唐常杰;段磊;李川;巩杰;;基于TF/IDF相似度的标签聚类方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
2 房冠南;袁彩霞;王小捷;李江;宋占江;;面向对话语料的标签推荐[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李静;林鸿飞;;基于用户情感标签的音乐检索算法[A];第六届全国信息检索学术会议论文集[C];2010年
4 李志云;周国祥;;面向XML结构查询的标签位图过滤加速技术[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(下册)[C];2009年
5 王波;唐常杰;段磊;尹佳;左劼;李川;;RT-Rank:基于RSS标签排名相关性的文档聚类[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
6 冯时;阳峰;王大玲;于戈;;基于虚拟观点社群的用户个性化推荐[A];第六届全国信息检索学术会议论文集[C];2010年
7 李先斌;袁平波;俞能海;;基于局部最优的情感标签图像自动标注算法[A];第六届和谐人机环境联合学术会议(HHME2010)、第19届全国多媒体学术会议(NCMT2010)、第6届全国人机交互学术会议(CHCI2010)、第5届全国普适计算学术会议(PCC2010)论文集[C];2010年
8 陈峰;张欣;乐嘉锦;;EKS:XML文档上的关键字查询[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 曹小华;周强;;基于子集划分与动态匹配机制的智能标签防冲突算法[A];第二十六届中国控制会议论文集[C];2007年
10 郑伟;王朝坤;刘璋;王建民;;一种基于随机游走模型的多标签分类算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
中国重要报纸全文数据库 前10条
1 记者 张珂 尹航 李彩霞;2007国际标签印刷展览会(Labelexpo Asia 2007)蓄势待发[N];中国包装报;2007年
2 见习记者 刘世昌;2007国际标签印刷展览会将在上海举行[N];中国新闻出版报;2007年
3 记者 张建琛通讯员 许长水;厦门将全力发展射频识别新兴产业[N];科技日报;2007年
4 本报记者 刘英赫;重新认识WAP[N];中国电子报;2000年
5 网文;WAP知多少[N];中国商报;2000年
6 记者 曲俊雅;为鼓励氢燃料技术研究,美众院立法设大奖[N];新华每日电讯;2006年
7 余天;大海捞针之术[N];计算机世界;2004年
8 李梅;保护RFID信息[N];计算机世界;2004年
9 许长水;厦门鼓励发展射频识别新兴产业[N];福建科技报;2007年
10 记者 周军;攀钢明确明年科技攻关四大重点领域[N];中国冶金报;2007年
中国博士学位论文全文数据库 前10条
1 靳延安;社会标签推荐技术与方法研究[D];华中科技大学;2011年
2 吴超;在线社会化网络的语义分析和语义社会网的构建[D];浙江大学;2010年
3 宣云干;基于潜在语义分析的社会化标注系统标签语义检索研究[D];南京大学;2011年
4 王萍;网络环境下的领域知识挖掘[D];华东师范大学;2010年
5 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
6 栗华;UHF RFID多标签防碰撞算法的研究与性能分析[D];山东大学;2011年
7 贺建军;基于高斯过程模型的机器学习算法研究及应用[D];大连理工大学;2012年
8 张智;面向物联网的多层次无线感知识和识别系统[D];浙江大学;2012年
9 孙珂;大规模文档标签自动标注技术研究[D];哈尔滨工业大学;2011年
10 陈毅恒;文本检索结果聚类及类别标签抽取技术研究[D];哈尔滨工业大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘鸿宇;情感标签抽取相关技术研究[D];哈尔滨工业大学;2010年
2 葛艳艳;基于社会标签系统的推荐技术研究[D];大连理工大学;2011年
3 陆洲;基于标签的个性化推荐系统研究[D];湖南大学;2010年
4 周桂清;视频标签互动系统的研究与实现[D];华南理工大学;2012年
5 朱运;多标签隐含狄利克雷分配及其并行化应用[D];复旦大学;2012年
6 王传豹;基于协同过滤和文本相似度的标签推荐及搜索优化[D];河北大学;2011年
7 苏巧;基于社会化标签的个性化信息推荐服务[D];电子科技大学;2012年
8 张新伦;社会化标签推荐系统中标签模糊和冗余的研究[D];广西大学;2011年
9 刘志丽;基于内容的社会标签推荐技术研究[D];哈尔滨工程大学;2012年
10 朱俊彦;以标签为导向的网页摘要技术[D];浙江大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026