收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文产品评论挖掘关键技术研究

黄永文  
【摘要】: 随着网络的蓬勃发展,以用户为中心反映了用户使用体验、包含了用户对产品的特征、功能和性能等看法的产品评论越来越多。通过参考产品使用者所发表的产品评论,用户可以挑选最适合自己的产品,厂家也可据此对产品进行改进,从而增强企业竞争力,因此产品评论挖掘技术的研究也就变得越来越重要。本文应用机器学习方法对产品评论挖掘的相关技术如短文本分类技术、特征观点对的挖掘方法、特征观点对的优化算法及产品特征的层次关系提取技术进行了研究。取得的主要成果和创新工作概括如下: 提出基于语义特征的产品评论分类方法。产品评论的自动分类可以获取更好的研究素材,降低评论挖掘算法的复杂性,从而提高挖掘效率。基于产品评论普遍较短,本文从短文本的角度处理产品评论的分类问题。首先对从网上获取的产品评论进行人工标注,获得训练集;然后提取出产品评论中位于前列的χ2统计量和语义内容(产品特征、观点词、程度词)作为分类特征,把语义内容的数量、未挑选的语义内容和评论文本长度也加入分类特征;再使用二分类具有优势的支持向量机分类方法对所获取的分类特征进行学习,获得分类器;最后对网上时时更新的产品评论进行分类,挖掘出优秀的评论,建立评论语料库。实验表明,语义内容的加入对产品评论分类效果的改善是很明显的,准确率提升了9%,达到了80%,对属于短文本类型的产品评论来说分类效果是很不错的。 采用半监督学习思想,提出在产品评论挖掘过程中把特征挖掘和观点挖掘相结合以获取特征观点对的方法。针对产品特征和观点词具有对应的修饰关系,本文使用半监督学习方法,把用户发表的产品部件、功能、性能等特征和表达了情感的观点词结合在一起进行挖掘,从而保留特征和观点的对应关系。半监督学习方法既可以利用少量标注样本获得专家的标注知识,又可以利用大量未标注数据来改善学习性能,增强学习算法的泛化能力。因此本文把人工定义的少量特征观点对作为种子,结合评论语句中的词、词性和修饰关系等组成的模式特征集对评论库进行挖掘,获取用户真正感兴趣的产品特征和评价。然后使用获得的产品特征词和观点词对多特征的评论进行了处理,实验表明这种处理使准确率和召回率都提升了2%左右。虽然把特征与观点结合在一起进行挖掘的准确率不是很高,但较高的召回率可使半监督学习算法能够挖掘到新的信息。 为了改善挖掘结果的性能,提出基于最大化调和平均数(Maximize Harmonic-Mean,MHM)的原则,对观点序列进行优化的方法。针对半监督学习方法具有准确率随着迭代次数的增加而急剧下降的缺点,本文在准确率不高、获取的特征观点对中有很多错误的情况下,利用调和平均数易受极端值的影响,尤其受极小值的影响比受极大值的影响更大的特点,对标准差大的观点序列进行调整,删除序列中的低频元素时,通过最大化调和平均数在确保召回率的同时提高准确率。实验结果显示在准确率上升17%的情况下,召回率只降低了5%,此时准确率达到77.3%。 提出从产品说明书和编辑评测中获取产品特征层次关系的方法,该方法采用结构化挖掘方法对产品说明书挖掘得到规格特征及其层次关系,使用半监督学习方法对编辑评测挖掘获得描述特征及其层次关系。现有的评论挖掘系统在获得特征及对应的观点词后没有对上下位的特征、同一特征的不同词语表达进一步处理,这样就会把同一个特征的不同词语表示作为不同的特征、上下位的特征作为平行特征展现给用户。本文首先使用结构化数据挖掘方法对厂家的产品说明书进行挖掘,获取规格特征之间的层次关系,再利用半监督学习方法对网站所提供的编辑评测进行挖掘,获取描述特征及其层次关系。然后把一段中获取的描述特征与规格特征进行相似度比较,从而获得规格特征和描述特征之间的层次关系。 本文最后把获取的特征观点对与特征之间的层次关系相连接,合并相同特征的不同表示,对上下位的特征进行归类,统计出各个特征所获得的观点,并以树状的形式从上至下展现整个产品不同层次特征所获得的评价。


知网文化
【相似文献】
中国期刊全文数据库 前16条
1 李治;;纽马克、赖斯的文本分类及翻译方法论的比较分析[J];未来与发展;2010年10期
2 彭佳;;另一种文本中心——回应尤里·洛特曼的文本观[J];符号与传媒;2011年02期
3 王霞;;巧将文本数值变为数字[J];科学24小时;2006年09期
4 孙艳妙;CSS样式在Flash MX 2004中的应用[J];中小学电教;2005年08期
5 尤里·M·洛特曼;彭佳;;文本运动过程——从作者到读者,从作者到文本[J];符号与传媒;2011年02期
6 薛笛;;打造多彩的文本[J];程序员;2006年03期
7 刘全升;姚天昉;黄高辉;刘军;宋鸿彦;;汉语意见型主观性文本类型体系的研究[J];中文信息学报;2008年06期
8 陈立强;;论电视频道自文本导读系统及其功能[J];新闻知识;2008年02期
9 许延祥;罗铁坚;周佳;王竹;;评价文本中意见分布规律研究[J];中文信息学报;2014年03期
10 牛可刚;;在物理课件中让文本滚动起来[J];实验教学与仪器;2005年04期
11 陈立强;张宜迁;;电视导读的多媒介联动现象及其意义[J];中国广播电视学刊;2008年08期
12 阮国龙;;在Authorware中用TTS实现中英文混合朗读[J];中小学信息技术教育;2006年10期
13 曾波;;生物学课件中的文本滚动[J];生物学教学;2009年08期
14 金键;;利用冗余构造思想分析文本信息隐藏技术研究方法[J];福建电脑;2008年06期
15 张丽娟;;宋代儒家经书版本的文本类型[J];南阳师范学院学报;2013年07期
16 邢素萍;杨立力;;基于FLASH文本操作——电话簿的制作[J];微型电脑应用;2010年09期
中国重要会议论文全文数据库 前4条
1 岳福新;白玫;;浅析英语旅游信息文本的写作与翻译[A];译学辞典与翻译研究——第四届全国翻译学辞典与翻译理论研讨会论文集[C];2007年
2 张智军;沈昉;朱伟;;文本组织方式对介绍性文章搜索绩效的影响研究[A];中国人类工效学学会第六次学术交流会论文摘要汇编[C];2003年
3 刘全升;姚天昉;黄高辉;刘军;宋鸿彦;;汉语意见型主观性文本类型体系的研究[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
4 程世和;;“《诗》亡然后《春秋》作”——对一个文学缺失时代的文学反题之研究[A];东方丛刊(2004年第4辑 总第五十辑)[C];2004年
中国博士学位论文全文数据库 前7条
1 陈洁倩;阅读理解的文本类型和答题形式对外语水平的效力[D];上海外国语大学;2006年
2 刘健;基于近似文本分析的意见挖掘[D];上海大学;2007年
3 刘桂兰;论重译的世俗化取向[D];上海外国语大学;2011年
4 段瑞雪;基于依存关系的用户意图的研究[D];北京邮电大学;2011年
5 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
6 孟朋;自然语言信息隐藏与检测研究[D];中国科学技术大学;2012年
7 黄永文;中文产品评论挖掘关键技术研究[D];重庆大学;2009年
中国硕士学位论文全文数据库 前10条
1 翟海群;《大学英语》文本类型与阅读绩效相关性研究[D];长沙理工大学;2010年
2 杨绪志;基于文本类型理论的英语商务文本汉译策略研究[D];西北师范大学;2011年
3 刘庚玉;文本类型和语境观视角下的诗词翻译[D];广西民族大学;2012年
4 高文龙;赖斯文本类型学视角下调查报告的英汉翻译[D];中国海洋大学;2013年
5 张云凤;文本类型学视角下的中国园林英译[D];中国海洋大学;2013年
6 李媛媛;基于文本类型学的三种非文学文本翻译策略研究[D];中北大学;2010年
7 姚蓓蓓;论联合国文件翻译中的辅助性文本分析[D];上海外国语大学;2011年
8 姜思雯;功能研究视角下历史类文本的翻译[D];兰州大学;2013年
9 罗红;文本类型理论下企业推介翻译[D];中国海洋大学;2013年
10 王玥;汉语信息型文本英译探析[D];中南大学;2012年
中国重要报纸全文数据库 前8条
1 李承贵;学术视域中的文本[N];社会科学报;2001年
2 山东 王霞;巧将文本数值变数字[N];电子报;2006年
3 江苏 许向前;在课件中让文本滚动起来[N];电脑报;2004年
4 辽宁 鸣涧;为光盘制作漂亮的封套[N];电脑报;2002年
5 ;制作CD封套[N];电脑报;2002年
6 广东 Pcking;FlashMX 2004新功能实战[N];电脑报;2003年
7 王先明 李尹蒂;关于义和团各种记忆文本类型比较[N];团结报;2010年
8 编译 李茂;美国统一课程标准定稿[N];中国教师报;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978