收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向电子商务的虚假评论检测的关键技术研究

张考  
【摘要】:评论数据作为电商平台的重要信息数据,在商业活动中发挥着重要的作用,但大量的虚假评论的存在,给消费者和商业组织带来错误导向,造成巨大损失,因此,对其进行检测和控制具有重要意义。电商平台存在大量的评论数据,面对如此多的评论数据,已有的虚假评论检测方法存在一定局限性。电商平台商品种类多,涉及到的评论数据类型纷繁复杂,基于内容特征的方法采用的分类特征通常具有领域依赖性,分类性能依赖大量正确的领域标注评论数据,泛化能力差。基于行为分析的方法虽然不需要标注评论数据,但其依赖特定的用户评论行为,识别率不高。针对这些问题,本文提出系统性的面向电商平台虚假评论的检测方法。研究内容包括三个方面。其一是识别含有虚假评论的目标商品;其二是评论文本相似性度量;其三是虚假评论识别特征挖掘以及虚假评论检测模型构建。论文的主要工作如下:1)提出一种面向电商平台的虚假评论目标商品的识别算法。电商评论涉及范围广、数据量大,导致现有虚假评论检测方法准确率下降。为了从大数据量的电商评论中获得虚假评论样本数据,进行有针对性的研究,先对虚假评论目标商品的识别进行研究。研究发现商品的用户评分行为服从特定统计规律,当存在一定量虚假评分行为时,会表现出与正常评分行为规律相背离,通过把这种差异指标化,利用数值指标识别对商品列表排序,排序高的商品含有大量虚假评论的可能性越大。实验结果表明,该方法排序的TOP商品对应的评论确实含有大量虚假评论,该方法可以有效识别含有虚假评论的目标商品。2)提出了一种评论文本相似性的度量算法。针对传统文本相似性度量方法准确率不高,本文利用评论文本的内容组织特征,构建评论文本树形结构,将其相似性度量分解为对应树各层之间的相似性度量,从而使得每层相似度的度量对象都为同类型的词语,进而分别采用对应的相似性度量方法计算各层的相似性,最后再对各层相似度按照权重融合得到整体的相似度。在真实数据集上的实验结果表明本文方法较其它常见度量方法更加有效,准确率更高。3)提出一种动静态特征融合的虚假评论检测算法。针对现有虚假评论检测方法未充分利用用户历史行为中蕴含的动态信息。本文首先利用时序分析模型从这些动态信息中挖掘能够刻画用户行为的动态特征;其次,融合这些动态特征与用户层面静态特征发现可疑用户,并将用户可疑概率传播至用户所发表评论得到评论可疑概率;最后,结合评论可疑概率与评论层面静态特征,使用PU-Learning学习策略训练高性能的分类器,实现虚假评论的检测。在真实数据集上的实验表明,本文方法的性能优于现有方法。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王晓龙;袁艳;张泰山;;一种实体运动模式相似性度量方法的研究[J];计算机仿真;2009年11期
2 王黎;帅建梅;;图像重排序中与查询相关的图像相似性度量[J];计算机系统应用;2010年11期
3 文成林;周哲;徐晓滨;;一种新的广义梯形模糊数相似性度量方法及在故障诊断中的应用[J];电子学报;2011年S1期
4 仝朝阳,石教英;一种关于布尔模式的相似性度量及其应用[J];计算机研究与发展;1996年08期
5 杜培军,方涛,唐宏;基于集合论的光谱相似性度量及在影像检索中的应用[J];上海交通大学学报;2004年S1期
6 熊家军,涂静,李庆华;入侵检测聚类中相似性度量的等效性研究[J];计算机工程;2005年07期
7 鞠可一;周德群;吴君民;;混合概念格在案例相似性度量中的应用[J];控制与决策;2010年07期
8 刘海涛;魏汝祥;蒋国萍;;软件成本数据的相似性度量[J];上海交通大学学报;2012年11期
9 郑翠翠;李林;;协同过滤算法中的相似性度量方法研究[J];计算机工程与应用;2014年08期
10 吴德;叶传标;;时间序列相似性度量在水文数据挖掘中的应用研究[J];现代计算机(专业版);2008年11期
11 刘海桃;徐向纮;;颜色相似性度量在色差检测中的应用[J];中国计量学院学报;2009年01期
12 时慧琨;;图像检索中的相似性度量方法[J];福建电脑;2010年03期
13 赵秀丽;徐维祥;;一种移动物体时空轨迹聚类的相似性度量方法[J];信息与控制;2012年01期
14 孙杰;吴陈;;相似性度量在基因表达聚类分析中的应用研究[J];现代电子技术;2012年06期
15 涂静,熊家军;入侵检测聚类中相似性度量的等效性研究[J];空军雷达学院学报;2004年02期
16 吴学雁;黄道平;;基于事件的时间序列相似性度量方法[J];计算机应用;2010年07期
17 李年攸;;基于等价类的图像相似性度量[J];三明学院学报;2006年04期
18 董晓莉;顾成奎;王正欧;;基于形态的时间序列相似性度量研究[J];电子与信息学报;2007年05期
19 刘懿;鲍德沛;杨泽红;赵雁南;贾培发;王家钦;;新型时间序列相似性度量方法研究[J];计算机应用研究;2007年05期
20 隋正伟;邬阳;刘瑜;;基于签到数据的用户空间出行相似性度量方法研究[J];地理信息世界;2013年03期
中国重要会议论文全文数据库 前10条
1 刘喜平;万常选;;一种二维的树型文档结构相似性度量[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
2 刘俊义;王润生;;仿射不变的多边形相似性度量[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
3 杨艳春;孟祥武;;P2P网络服务环境中的节点相似性度量研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
4 李彬彬;罗乐;;基于信源学的光谱相似性度量方法的比较研究[A];2009全国计算机网络与通信学术会议论文集[C];2009年
5 罗阳;赵伟;;相似性度量研究及最优相似系数[A];中国气象学会2008年年会天气预报准确率与公共气象服务分会场论文集[C];2008年
6 周晓蕾;唐明浩;於思俊;;服装款式系统中的相似性度量算法研究[A];2008年中国高校通信类院系学术研讨会论文集(下册)[C];2009年
7 刘宝生;闫莉萍;周东华;;图像匹配中相似性度量[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
8 李新光;郑君君;祝一薇;刘建军;夏胜平;谭立球;;基于属性图模型的图像相似性度量[A];第十五届全国图象图形学学术会议论文集[C];2010年
9 沈君;马生全;;两种新的相似性度量在模糊推理中的应用[A];中国运筹学会模糊信息与模糊工程分会第五届学术年会论文集[C];2010年
10 廉鑫;林伟坚;张海威;袁晓洁;;基于双向路径约束模型的XML文档结构相似性度量[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
中国博士学位论文全文数据库 前5条
1 白雪;聚类分析中的相似性度量及其应用研究[D];北京交通大学;2012年
2 张明;基于内容的图象相似性度量技术研究及其在水利中的应用[D];河海大学;2003年
3 邱明;语义相似性度量及其在设计管理系统中的应用[D];浙江大学;2006年
4 周瑜;视频跟踪中的目标建模及相似性度量研究[D];华中科技大学;2014年
5 戚文静;基于范例的图案创作关键技术研究[D];山东大学;2012年
中国硕士学位论文全文数据库 前10条
1 曹莉莉;基于GC-MS的高速谱库搜索算法研究[D];安徽大学;2015年
2 蒋欣;基于粒子滤波的故障预报算法研究[D];福建师范大学;2015年
3 张豪;符号序列相似性度量及聚类新算法[D];福建师范大学;2015年
4 周汉海;基于少量选点的社团检测算法研究[D];兰州大学;2015年
5 张考;面向电子商务的虚假评论检测的关键技术研究[D];解放军信息工程大学;2015年
6 黄彧;相似性度量的研究及其在数据挖掘中的应用[D];福建师范大学;2009年
7 练仕榴;生物医学信号的相似性度量研究[D];天津理工大学;2011年
8 朱波;程序代码相似性度量方法研究[D];长春工业大学;2015年
9 汤渊;面向词袋模型的相似性度量方法在特征降维中的应用[D];广东工业大学;2015年
10 孟晓峰;基于异质信息网络的相似性度量研究[D];北京邮电大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978