收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

推荐系统中协同过滤算法若干问题的研究

张亮  
【摘要】: 随着互联网的飞速发展,互联网的应用也在快速普及,并受到了公众的认可和赞同。同时,互联网也渗透到我们每个人的生活中,网上交易购物,也变得越来越流行。但是,对于互联网的使用者来说,在网上购物还要面临一个巨大的问题。由于互联网信息的种类繁多,商品数量庞大,如何在众多商品中正确的选择商品和购买到自己需要的商品成为用户要面临的一个问题。为了帮助用户在互联网上更好地选择商品,推荐系统应运而生。推荐系统是用来帮助用户选择商品和产生商品智能推荐的系统。其中最重要的推荐技术是协同过滤技术,协同过滤技术利用用户品味间的相似来产生推荐。目前,协同过滤技术在研究和应用领域上均取得了很大成功,但依然有很多问题需要解决和研究。 目前,国内外学者研究的热点问题主要有三个。第一是算法的准确性问题。为了使推荐的结果更加准确,研究者们一直在推荐准确性方面做着不懈的努力,但是由于用户和产品的数据的稀疏性,其推荐的准确性受到严重的影响。由于用户并不能购买所有商品,而是只能购买其中很少的一部分,从而导致数据矩阵十分稀疏,数据稀疏性也成为影响协同过滤技术最主要的原因。第二是算法的可伸缩性问题。由于用户和产品数量庞大,并且用户和产品的数量都在高速增长,因此如何使算法更加适合不断增长的大规模数据,以提高算法的可伸缩性成为一个重要的研究课题。第三是协同过滤算法的评估问题。推荐系统的评估是一个非常重要的课题,它不但可以帮助我们评估推荐系统的推荐质量,还可以针对不同的数据及数据属性选择合适的推荐算法。 针对上述问题,本文开展了以下创新性的研究工作: 第一,提出了一种新的基于模型的协同过滤算法。传统的基于用户的协同过滤算法基于一个如下假设:如果用户对一些项目的评分比较相似,则他们对其它项目的评分也比较相似;如果大部分用户对一些项的评分比较相似,则当前用户对这些项的评分也比较相似。但是两个用户存在品位的相似往往只是针对部分项目而言。传统的协同过滤算法往往忽略了这一点,而是把所有的项目都考虑进来。针对这个问题,本文提出了一个新的基于聚类的模型算法。这种算法在聚类的同时试图在类别中发现簇中用户所共有的部分偏好相似项目,并依据偏好相似程度赋予不同的权值,然后再在每个簇中使用本文定义的新的相似度计算方法来计算最近邻并产生预测。实验结果表明,该方法有比较高的准确度,同时由于使用了聚类的方法,可以有效的减少计算复杂度,提高算法的可伸缩性。 第二,针对目前协同过滤算法存在的预测准确度受数据稀疏性影响比较大的问题,提出了一种新的基于用户和基于项目结合的协同过滤算法。数据稀疏或者是由于某些用户选择项目太少或者某些项目被用户选择次数过少而导致。因此,本文的算法首先定义了用户稀疏度和项目稀疏度,并根据用户稀疏度的不同来结合基于用户和基于项目的协同过滤算法。实验结果表明,该方法能够有效地解决数据稀疏的问题,并能很好的提高算法的准确性。 第三,提出了一种新的最近邻选择方式。最近邻的选择是协同过滤算法中最为核心的问题,因为最后的预测结果要使用选择后的最近邻来进行组合预测,因此如何选择最近邻将对算法的准确性产生至关重要的影响。本文指出了传统的最近邻选择和计算方法所带来的弊端和存在的问题,并对该类问题进行了定义和分析,针对这类问题,提出了一种新的最近邻选择方法,该方法考虑了两个用户相似时的用户的部分偏好相似问题,从而结合项目间的影响来选择最近邻。实验结果表明,该方法能够更加正确的选择最近邻,从而改善了协同过滤算法的准确性。 最后,文本还提出了一种新的评估和测量协同过滤算法的方法。有效性和时间消耗作为推荐系统的重要指标,其评价准则的设计一直是一个热点,但是没有统一的结论。最常用的协同过滤的有效性的评估指标是MAE (mean absolute error)。这个指标只能笼统地描述算法准确性,并没有针对协同过滤算法的特殊性进行评价。文本认为一个好的推荐系统应该满足如下三个条件:(1)准确性,能够正确反映用户的品位;(2)完整性,能够推荐用户可能忽略或者没有足够时间去查找的商品项目;(3)可信任性,要能真正赢得用户的信任。并根据这些特殊性提出了三个指标:修正的平均绝对偏差(JMAE),漏荐率(LRR)和误荐率(WRR)。这三个指标分别从正面和反面来对推荐系统中的协同过滤算法进行有效的评估。通过实验对比了当前最为流行和权威的几种协同过滤算法,并基于上述新指标对比分析了各种协同过滤算法的准确性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 游文;叶水生;;电子商务推荐系统中的协同过滤推荐[J];计算机技术与发展;2006年09期
2 赵智;孙琰;;协同过滤算法中推荐集选取方法的研究[J];电脑编程技巧与维护;2009年S1期
3 顾晔;吕红兵;;改进的增量奇异值分解协同过滤算法[J];计算机工程与应用;2011年11期
4 孙小华;陈洪;孔繁胜;;在协同过滤中结合奇异值分解与最近邻方法[J];计算机应用研究;2006年09期
5 杨风召;;一种基于特征表的协同过滤算法[J];计算机工程与应用;2007年06期
6 胡慧蓉;;电子商务个性化推荐系统分析与设计[J];科技创新导报;2009年08期
7 王景波;郑丽英;;混合推荐技术在Web挖掘中的研究[J];科技信息;2010年33期
8 沈磊;周一民;李舟军;;基于心理学模型的协同过滤推荐方法[J];计算机工程;2010年20期
9 李涛;王建东;;基于非负矩阵分解的隐私保护协同过滤算法[J];信息与控制;2008年06期
10 王惠敏;聂规划;;基于模糊聚类和资源平滑的协同过滤推荐[J];情报杂志;2007年07期
11 金亚亚;牟援朝;;基于改进信任度的协同过滤推荐算法[J];现代图书情报技术;2010年10期
12 罗耀明;聂规划;;语义相似性与协同过滤集成推荐算法研究[J];武汉理工大学学报;2007年01期
13 陆洲;程京;张璇;;基于用户兴趣模型聚类的协同过滤推荐算法[J];微计算机信息;2010年33期
14 王惠敏;聂规划;;融合用户和项目相关信息的协同过滤算法研究[J];武汉理工大学学报;2007年07期
15 刘鲁;任晓丽;;推荐系统研究进展及展望[J];信息系统学报;2008年01期
16 王卫平;刘颖;;基于客户行为序列的推荐算法[J];计算机系统应用;2006年09期
17 李益群;张文生;杨柳;刘琰琼;;基于标签的强化学习推荐算法研究与应用[J];计算机应用研究;2010年08期
18 哈进兵;郑锐;甘利人;;一种基于加权关联规则的协同推荐算法[J];情报学报;2010年04期
19 李聪;;电子商务协同过滤可扩展性研究综述[J];现代图书情报技术;2010年11期
20 陈超;张颖超;缪进;;一种基于三部图网络的协同过滤算法[J];南京信息工程大学学报(自然科学版);2010年04期
中国重要会议论文全文数据库 前10条
1 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
2 谢科;刘奕群;岑荣伟;马少平;茹立云;杨磊;;基于维基百科层次分类框架的主题推荐系统的研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年
4 赵勇;高凤荣;邢春晓;;基于用户权威的协作过滤算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 何发镁;冯勇;许榕生;王旭仁;;推荐系统安全问题研究综述[A];第13届全国计算机、网络在现代科学技术领域的应用学术会议论文集[C];2007年
6 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
7 李建国;姚良超;汤庸;郭欢;;基于认知度的协同过滤推荐算法[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
8 曾春;周立柱;邢春晓;;基于近邻法的协作过滤算法的改进[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
9 黄创光;印鉴;汪静;刘玉葆;王甲海;;不确定近邻的协同过滤推荐算法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
10 李雪;左万利;赫枫龄;王英;;传统Item-Based协同过滤推荐算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 张亮;推荐系统中协同过滤算法若干问题的研究[D];北京邮电大学;2009年
2 沈磊;心理学模型与协同过滤集成的算法研究[D];北京航空航天大学;2010年
3 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
4 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年
5 李涛;推荐系统中若干关键问题研究[D];南京航空航天大学;2009年
6 夏培勇;个性化推荐技术中的协同过滤算法研究[D];中国海洋大学;2011年
7 薛福亮;电子商务协同过滤推荐质量影响因素及其改进机制研究[D];天津大学;2012年
8 张寅;个性化技术及其在数字图书馆中应用的研究[D];浙江大学;2009年
9 任磊;推荐系统关键技术研究[D];华东师范大学;2012年
10 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前10条
1 章晋波;推荐系统中协同过滤算法的研究与实现[D];北京邮电大学;2010年
2 李惠民;电子商务推荐系统中协同过滤算法的研究[D];吉林大学;2011年
3 王霞;协同过滤在电子商务推荐系统中的应用研究[D];河海大学;2003年
4 寇艳艳;电子商务推荐系统中用户聚类问题与用户兴趣变化问题研究[D];中国科学技术大学;2011年
5 杨焱;基于项目聚类的协同过滤推荐算法的研究[D];东北师范大学;2005年
6 黄合鑫;电子商务协同过滤算法的研究与实现[D];北京交通大学;2011年
7 杨晨醒;数字图书馆协同过滤及GPU计算技术研究[D];浙江大学;2010年
8 曾小波;基于协同过滤的推荐系统的研究[D];电子科技大学;2010年
9 苏天斌;协同过滤的研究及引擎的实现[D];昆明理工大学;2005年
10 杨帆;基于数据挖掘的电子商务个性化推荐技术研究[D];西安电子科技大学;2008年
中国重要报纸全文数据库 前10条
1 本报记者 冯卫东;网络导购:找出你的最爱[N];科技日报;2007年
2 林嘉澍;从搜索到发现[N];经济观察报;2007年
3 商报记者 金朝力;奇艺推3套推荐引擎抢夺视频新制高点[N];北京商报;2011年
4 饶宇锋;微软策动互联网跨越搜索时代[N];财经时报;2007年
5 熊明华;九江人才市场打造就业“助推器”[N];中国人事报;2006年
6 镡立勇;2007年度省科技奖推荐工作启动[N];河北经济日报;2007年
7 本报记者  何小龙;委员履职:量化打分[N];江淮时报;2006年
8 ;基于CAP 2+技术的iMSC新业务[N];人民邮电;2001年
9 刘溟;互联网 个性化营销最佳载体[N];经济日报;2004年
10 记者 温跃通讯员 朱锋 朱沙;农行山东省分行与省教育厅全面合作[N];金融时报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978