收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

意见挖掘中若干关键问题研究

罗芳  
【摘要】:随着互联网的普及和电子商务的迅速发展,互联网上存储了大量消费者对产品的评论信息,这些评论中包含消费者对产品性能或功能等方面褒义或者贬义的评价。商家/厂商可以通过跟踪这些信息,及时获取消费者的反馈意见,从而改进产品;潜在消费者可以了解其他消费者的使用体验,为合理购买产品提供帮助。然而面对Web上海量的无结构化或半结构化的评论信息,通过人工阅读的方式获取是一个费时费力的过程。因此,用户评论的意见挖掘研究应运而生,并成为近年来Web信息处理的一个研究热点。 本文旨在研究意见挖掘中评价对象识别、评价内容分析及评价情感获取等关键问题,探索领域本体对其提供支持的方式和作用,并结合信息抽取、文本分类和自然语言处理等技术进行深入探讨。本文研究采取了方法论探索与实证分析相结合的方式,所做工作及创新点如下: (1)在分析已有方法和技术的基础上,借鉴软件工程中基于生命周期的模型,提出了增量迭代模型的构建方法。该方法将本体构建分成三个阶段,多步骤实施,结合本文实际应用,通过创建实例,丰富和完善了领域本体的知识结构,最终构建了一个用于产品命名实体识别中的笔记本电脑电子产品的领域本体NBO (Notebook Ontology)。 (2)在定义并系统分析产品命名实体识别任务和方法的基础上,研究利用条件随机域CRFs(Conditional Random Fields)模型进行产品命名实体识别的方法,对识别过程中“观察窗口”大小的选取、建模粒度的选取、标注集的确定、特征的选择等关键问题通过实验验证其有效性;为了进一步提高产品命名实体识别的性能,提出了在CRFs模型中引入新的外部特征——本体特征,实验表明,融合内外部特征对产品名称实体、产品属性名称实体、产品构件名称实体的识别性能达到了理想的效果。 (3)在研究传统基于主题的文本分类方法的基础上,利用基于机器学习的方法来进行文本的粗粒度情感分类,为解决数据稀疏问题,提出利用情感向量空间模型来进行文本表示,并通过实验对情感分类过程中的分类算法的选取,特征选择方法的运用、特征维数的选取等关键问题进行了分析和比较。为了综合考虑特征词对整个语料的贡献度和各个类别的贡献度,结合了文档频率和卡方统计的思想,提出了一个褒贬类卡方差值特征选择方法CDPNC,其分类性能F-度量值的宏平均和微平均分别达到了90.18%,90.08%。 (4)在研究基于语义分析的情感分类方法基础上,利用依存句法分析来进行特征观点对的提取;对观点词的情感分类,针对中英文语言表达的差异,结合实际对基于逐点互信息的语义倾向方法中褒贬基准词对的选取、阈值的设定等问题进行改进,验证了其在中文评论文本情感分类上的可行性,并弥补了基于HowNet语义相似度的观点词情感分类方法的不足。 (5)在上述研究成果的基础上,本文给出了一个意见挖掘系统的系统构架并设计实现了其原型系统。该系统可以从不同的粒度,对产品的整体评论、产品的综合特征及细节特征的评论进行全方位的意见挖掘,最终可将产品及评论的查询结果,产品意见的查询结果和产品的意见比较结果以可视化的方式呈现给用户。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 冯冲;陈肇雄;黄河燕;;采用主动学习策略的组织机构名识别[J];小型微型计算机系统;2006年04期
2 倪茂树;赵晶;林鸿飞;;生物医学文本分类方法比较研究[J];计算机工程与应用;2007年12期
3 鞠久朋;张伟伟;宁建军;周国栋;;CRF与规则相结合的地理空间命名实体识别[J];计算机工程;2011年07期
4 张晓艳;王挺;陈火旺;;基于混合统计模型的汉语命名实体识别方法[J];计算机工程与科学;2006年06期
5 葛金虎;;基于条件随机场的中文命名实体识别的研究[J];科技信息;2010年16期
6 朱锁玲;包平;;方志类古籍地名识别及系统构建[J];中国图书馆学报;2011年03期
7 李中言,李普跃;信息抽取方法综述[J];廊坊师范学院学报;2005年03期
8 刘海鹏;王小捷;;基于条件随机场和知识库的手机短信命名实体识别[J];广西师范大学学报(自然科学版);2009年01期
9 李桂兰;余正涛;毛存礼;郭剑毅;侯波;线岩团;;旅游领域实体答案的抽取[J];广西师范大学学报(自然科学版);2009年01期
10 佘俊;张学清;;音乐命名实体识别方法[J];计算机应用;2010年11期
11 金明;杨欢欢;单广荣;;藏语命名实体识别研究[J];西北民族大学学报(自然科学版);2010年03期
12 邱莎;;几种基于机器学习的生物命名实体识别模型比较[J];电脑知识与技术(学术交流);2007年05期
13 林旭东;彭宏;林丕源;邓健爽;;基于依存关系的问句理解与问句分类[J];计算机科学;2007年07期
14 许晓丽;卢志茂;张格森;;基于条件随机场的中文命名实体识别研究[J];中国新技术新产品;2009年02期
15 林旭东;孙爱东;林丕源;刘汉兴;;基于依存关系与支持向量机的中文问题分类方法[J];郑州大学学报(理学版);2009年01期
16 马续补;郭菊娥;;基于GATE的任务信息抽取研究[J];情报杂志;2010年01期
17 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
18 张朝胜;郭剑毅;线岩团;余正涛;雷春雅;王海雄;;基于条件随机场的英文产品命名实体识别[J];计算机工程与科学;2010年06期
19 邹涛;;一种电子产品领域命名实体识别方法研究[J];情报学报;2010年06期
20 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[J];通信学报;2006年02期
中国重要会议论文全文数据库 前10条
1 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
2 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 李渝勤;孙丽华;;面向互联网舆情的热词分析技术[A];第六届全国信息检索学术会议论文集[C];2010年
4 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
5 陈肖霞;王霞;;对朗读语料的音素标注与研究[A];第六届全国现代语音学学术会议论文集(下)[C];2003年
6 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
7 诺明花;张立强;刘汇丹;吴健;丁治明;;汉藏短语抽取[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 蒋宏飞;曹海龙;杨沐昀;;基于大规模语料的中文词聚类研究与实现[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 刘亚斌;李爱军;;朗读语料与自然口语的差异分析[A];第六届全国人机语音通讯学术会议论文集[C];2001年
10 李勇龙;王承发;徐近霈;;特定领域电话语音数据库的建立[A];第四届全国人机语音通讯学术会议论文集[C];1996年
中国博士学位论文全文数据库 前10条
1 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
2 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
3 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
4 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
5 史树敏;基于领域本体的汉语共指消解及相关技术研究[D];南京理工大学;2008年
6 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
7 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
8 陈慧;基于DCC动态流通语料库的中文组织名考察与研究[D];北京语言大学;2008年
9 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
10 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
2 周昆;基于规则的命名实体识别研究[D];合肥工业大学;2010年
3 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
4 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
5 陈扬;基于命名实体识别的学科智能答疑模型研究[D];东北师范大学;2010年
6 王江伟;基于最大熵模型的中文命名实体识别[D];南京理工大学;2005年
7 王峰;基于CRF的中文命名实体识别方法研究[D];中北大学;2011年
8 李阳;英文文本中命名实体识别及关系抽取技术研究[D];华东理工大学;2012年
9 闫萍;基于统计与规则相结合的命名实体识别研究[D];河南工业大学;2012年
10 史海峰;基于CRF的中文命名实体识别研究[D];苏州大学;2010年
中国重要报纸全文数据库 前10条
1 温端政;山西社科院试建“汉语俗语语料数据库”[N];中国社会科学院院报;2003年
2 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
3 佟文柱;语料更实 题材更广 语速更快[N];中国教师报;2002年
4 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
5 如东县马塘镇邱升中学 邱亚琴;教师研读文本[N];学知报;2011年
6 记者 吕诺;掌握千字万词,即可看懂九成中文读物[N];新华每日电讯;2006年
7 本报记者 姚从权;我国自己的大规模口语库即将建成[N];中国社会科学院院报;2004年
8 通讯员 侯晓斌;运用现代科学技术研究中国传统文化[N];中国社会科学院院报;2006年
9 本报记者 杨阳;瓦特开元:一条翻译流水线[N];经济观察报;2007年
10 李玉兰;中国语言文字观念正在变化[N];光明日报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978