收藏本站
《北京邮电大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

推荐系统中协同过滤算法若干问题的研究

张亮  
【摘要】: 随着互联网的飞速发展,互联网的应用也在快速普及,并受到了公众的认可和赞同。同时,互联网也渗透到我们每个人的生活中,网上交易购物,也变得越来越流行。但是,对于互联网的使用者来说,在网上购物还要面临一个巨大的问题。由于互联网信息的种类繁多,商品数量庞大,如何在众多商品中正确的选择商品和购买到自己需要的商品成为用户要面临的一个问题。为了帮助用户在互联网上更好地选择商品,推荐系统应运而生。推荐系统是用来帮助用户选择商品和产生商品智能推荐的系统。其中最重要的推荐技术是协同过滤技术,协同过滤技术利用用户品味间的相似来产生推荐。目前,协同过滤技术在研究和应用领域上均取得了很大成功,但依然有很多问题需要解决和研究。 目前,国内外学者研究的热点问题主要有三个。第一是算法的准确性问题。为了使推荐的结果更加准确,研究者们一直在推荐准确性方面做着不懈的努力,但是由于用户和产品的数据的稀疏性,其推荐的准确性受到严重的影响。由于用户并不能购买所有商品,而是只能购买其中很少的一部分,从而导致数据矩阵十分稀疏,数据稀疏性也成为影响协同过滤技术最主要的原因。第二是算法的可伸缩性问题。由于用户和产品数量庞大,并且用户和产品的数量都在高速增长,因此如何使算法更加适合不断增长的大规模数据,以提高算法的可伸缩性成为一个重要的研究课题。第三是协同过滤算法的评估问题。推荐系统的评估是一个非常重要的课题,它不但可以帮助我们评估推荐系统的推荐质量,还可以针对不同的数据及数据属性选择合适的推荐算法。 针对上述问题,本文开展了以下创新性的研究工作: 第一,提出了一种新的基于模型的协同过滤算法。传统的基于用户的协同过滤算法基于一个如下假设:如果用户对一些项目的评分比较相似,则他们对其它项目的评分也比较相似;如果大部分用户对一些项的评分比较相似,则当前用户对这些项的评分也比较相似。但是两个用户存在品位的相似往往只是针对部分项目而言。传统的协同过滤算法往往忽略了这一点,而是把所有的项目都考虑进来。针对这个问题,本文提出了一个新的基于聚类的模型算法。这种算法在聚类的同时试图在类别中发现簇中用户所共有的部分偏好相似项目,并依据偏好相似程度赋予不同的权值,然后再在每个簇中使用本文定义的新的相似度计算方法来计算最近邻并产生预测。实验结果表明,该方法有比较高的准确度,同时由于使用了聚类的方法,可以有效的减少计算复杂度,提高算法的可伸缩性。 第二,针对目前协同过滤算法存在的预测准确度受数据稀疏性影响比较大的问题,提出了一种新的基于用户和基于项目结合的协同过滤算法。数据稀疏或者是由于某些用户选择项目太少或者某些项目被用户选择次数过少而导致。因此,本文的算法首先定义了用户稀疏度和项目稀疏度,并根据用户稀疏度的不同来结合基于用户和基于项目的协同过滤算法。实验结果表明,该方法能够有效地解决数据稀疏的问题,并能很好的提高算法的准确性。 第三,提出了一种新的最近邻选择方式。最近邻的选择是协同过滤算法中最为核心的问题,因为最后的预测结果要使用选择后的最近邻来进行组合预测,因此如何选择最近邻将对算法的准确性产生至关重要的影响。本文指出了传统的最近邻选择和计算方法所带来的弊端和存在的问题,并对该类问题进行了定义和分析,针对这类问题,提出了一种新的最近邻选择方法,该方法考虑了两个用户相似时的用户的部分偏好相似问题,从而结合项目间的影响来选择最近邻。实验结果表明,该方法能够更加正确的选择最近邻,从而改善了协同过滤算法的准确性。 最后,文本还提出了一种新的评估和测量协同过滤算法的方法。有效性和时间消耗作为推荐系统的重要指标,其评价准则的设计一直是一个热点,但是没有统一的结论。最常用的协同过滤的有效性的评估指标是MAE (mean absolute error)。这个指标只能笼统地描述算法准确性,并没有针对协同过滤算法的特殊性进行评价。文本认为一个好的推荐系统应该满足如下三个条件:(1)准确性,能够正确反映用户的品位;(2)完整性,能够推荐用户可能忽略或者没有足够时间去查找的商品项目;(3)可信任性,要能真正赢得用户的信任。并根据这些特殊性提出了三个指标:修正的平均绝对偏差(JMAE),漏荐率(LRR)和误荐率(WRR)。这三个指标分别从正面和反面来对推荐系统中的协同过滤算法进行有效的评估。通过实验对比了当前最为流行和权威的几种协同过滤算法,并基于上述新指标对比分析了各种协同过滤算法的准确性。
【学位授予单位】:北京邮电大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP393.09

【引证文献】
中国期刊全文数据库 前3条
1 张阳;申华;;基于近邻用户和近邻项目的协同过滤改进算法[J];沈阳师范大学学报(自然科学版);2012年03期
2 欧阳剑;曹红兵;;基于联机公共检索目录的读者隐性信息行为个性化书目推荐引擎构建[J];情报理论与实践;2012年11期
3 洪立印;徐蔚然;;一种结构化数据关系特征抽取和表示模型[J];软件;2013年12期
中国博士学位论文全文数据库 前3条
1 陈根浪;基于社交媒体的推荐技术若干问题研究[D];浙江大学;2012年
2 冷亚军;协同过滤技术及其在推荐系统中的应用研究[D];合肥工业大学;2013年
3 孔维梁;协同过滤推荐系统关键问题研究[D];华中师范大学;2013年
中国硕士学位论文全文数据库 前10条
1 曹小娜;基于分类领域的个性化礼品推荐系统的设计与实现[D];北京邮电大学;2011年
2 陈蹊遥;基于拓扑势的社区协同过滤方法的设计与实现[D];北京邮电大学;2011年
3 肖丹萍;基于用户特征和偏好的协同过滤推荐算法[D];暨南大学;2011年
4 史秦格;基于Web的数据挖掘技术及应用[D];西安工业大学;2012年
5 章晋波;推荐系统中协同过滤算法的研究与实现[D];北京邮电大学;2010年
6 陈剑;林产品贸易信息推送的文本信息过滤技术的研究[D];北京林业大学;2012年
7 石丽丽;个性化推荐中协同过滤算法研究[D];河南大学;2012年
8 张宇成;基于内容基因组的协同过滤推荐技术的研究与应用[D];南昌大学;2012年
9 李文刚;奢侈品电子商务推荐的协同过滤算法研究与应用[D];复旦大学;2012年
10 鲁城华;基于用户特征模型和兴趣度的协同过滤研究[D];天津财经大学;2012年
【参考文献】
中国期刊全文数据库 前2条
1 赵亮,胡乃静,张守志;个性化推荐算法设计[J];计算机研究与发展;2002年08期
2 邓爱林,朱扬勇,施伯乐;基于项目评分预测的协同过滤推荐算法[J];软件学报;2003年09期
【共引文献】
中国期刊全文数据库 前10条
1 覃遵跃;在左边是单属性的函数依赖集中寻找关系模式候选码的算法[J];安庆师范学院学报(自然科学版);2003年02期
2 张友志;程玉胜;王一宾;;基于Web日志挖掘的Markov预测模型及算法研究[J];安庆师范学院学报(自然科学版);2010年01期
3 冀俊忠,沙志强,刘椿年,郎青;B2C电子商务站点中知识发现的研究[J];北京工业大学学报;2003年02期
4 张帆;林建;;智能搜索引擎信息过滤机制研究[J];图书与情报;2007年04期
5 高灵渲;张巍;霍颖翔;滕少华;;改进的聚类模式过滤推荐算法[J];江西师范大学学报(自然科学版);2012年01期
6 纪良浩;;协作过滤信息推荐技术研究[J];重庆邮电大学学报(自然科学版);2012年01期
7 许建潮;王红梅;;改进的协同过滤算法[J];吉林大学学报(信息科学版);2008年01期
8 辛勤芳;;基于项目聚类的协同过滤算法研究[J];赤峰学院学报(自然科学版);2011年09期
9 何兴无;;用户兴趣实例模型与K_means算法的改进[J];重庆师范大学学报(自然科学版);2006年02期
10 战坤;曾凡;康运生;戴黎阳;;个性化——医院网站信息服务的趋势[J];重庆医学;2009年21期
中国重要会议论文全文数据库 前7条
1 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年
2 赵琦;骆志刚;田文颖;李聪;丁凡;;一种基于负反馈信息的用户兴趣模型修正方法[A];中国通信学会第六届学术年会论文集(下)[C];2009年
3 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
4 庞秀丽;冯玉强;姜维;;电子商务个性化文档推荐技术研究[A];第十届中国管理科学学术年会论文集[C];2008年
5 周军锋;汤显;郭景峰;;一种优化的协同过滤推荐算法[A];第二十一届中国数据库学术会议论文集(研究报告篇)[C];2004年
6 汤显;郭景峰;高英飞;;基于类别相似性的增量协同过滤推荐算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
7 李雪;左万利;赫枫龄;王英;;传统Item-Based协同过滤推荐算法改进[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 张寅;个性化技术及其在数字图书馆中应用的研究[D];浙江大学;2009年
2 王文兴;服装网络营销策略研究[D];东华大学;2010年
3 蔺源;基于用户行为的网格资源发现相关问题研究[D];北京交通大学;2011年
4 靳延安;社会标签推荐技术与方法研究[D];华中科技大学;2011年
5 胡慕海;面向动态情境的信息推荐方法及系统研究[D];华中科技大学;2011年
6 刘毅捷;视频社区中海量数据管理方法研究[D];中国科学技术大学;2011年
7 刘玉国;基于内容的互联网舆情信息挖掘关键技术研究[D];山东大学;2011年
8 马春山;移动增值业务的个性化推荐研究[D];北京邮电大学;2011年
9 冯景瑜;开放式P2P网络环境下的信任管理技术研究[D];西安电子科技大学;2011年
10 夏培勇;个性化推荐技术中的协同过滤算法研究[D];中国海洋大学;2011年
中国硕士学位论文全文数据库 前10条
1 吴则则;支持动态演进的用户兴趣模型挖掘方法研究[D];山东科技大学;2010年
2 蔡宏果;基于基因表达式编程的Web个性化推荐技术研究[D];广西师范学院;2010年
3 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
4 何莹杰;个性化图书信息服务技术研究[D];哈尔滨工程大学;2010年
5 刘佳荟;基于信任度量的网构软件动态演化研究[D];哈尔滨工程大学;2010年
6 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
7 李春;协同过滤推荐算法的研究[D];湘潭大学;2010年
8 渠连恩;智能家庭中个性化规则生成与多Agent技术应用研究[D];中国海洋大学;2010年
9 程淑玉;基于协同过滤算法的个性化推荐系统的研究[D];合肥工业大学;2010年
10 董全德;基于双信息源的协同过滤算法及其应用研究[D];合肥工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 孙多;;基于兴趣度的聚类协同过滤推荐系统的设计[J];安徽大学学报(自然科学版);2007年05期
2 徐莉;;结合人口分类特征知识的协同过滤算法[J];安徽科技学院学报;2007年02期
3 张磊;陈俊亮;孟祥武;沈筱彦;段锟;;基于BP神经网络的协作过滤推荐算法[J];北京邮电大学学报;2009年06期
4 苏玉召;赵妍;;个性化关键技术研究综述[J];图书与情报;2011年01期
5 许建潮;王红梅;;改进的协同过滤算法[J];吉林大学学报(信息科学版);2008年01期
6 袁少锋;高英;郑玉香;;面子意识、地位消费倾向与炫耀性消费行为——理论关系模型及实证检验[J];财经论丛;2009年05期
7 刘迎清;;国内信息推送研究综述[J];长沙大学学报;2006年05期
8 蔺世杰;;图书馆个性化信息服务系统的技术分析[J];常熟理工学院学报;2005年06期
9 邓秀勤,姜莲花;电子商务推荐系统研究[J];辽东学院学报;2005年04期
10 楼揽月;;彩铃业务发展探讨[J];电信工程技术与标准化;2006年12期
中国博士学位论文全文数据库 前10条
1 何建民;面向网络社区聆听客户声音方法研究[D];合肥工业大学;2010年
2 靳延安;社会标签推荐技术与方法研究[D];华中科技大学;2011年
3 谭婷婷;网络微内容推荐方法及支持系统研究[D];华中科技大学;2011年
4 胡慕海;面向动态情境的信息推荐方法及系统研究[D];华中科技大学;2011年
5 刘倩;基于客户关系发展阶段的推荐系统特性需求分析[D];华中科技大学;2011年
6 叶红云;面向金融营销问题的个性化推荐方法研究[D];合肥工业大学;2011年
7 马春山;移动增值业务的个性化推荐研究[D];北京邮电大学;2011年
8 夏培勇;个性化推荐技术中的协同过滤算法研究[D];中国海洋大学;2011年
9 邓爱林;电子商务推荐系统关键技术研究[D];复旦大学;2003年
10 孙小华;协同过滤系统的稀疏性与冷启动问题研究[D];浙江大学;2005年
中国硕士学位论文全文数据库 前10条
1 何克勤;基于标签的推荐系统模型及算法研究[D];华东师范大学;2011年
2 黄卫平;个性化搜索引擎的研究与实现[D];武汉理工大学;2011年
3 王霞;协同过滤在电子商务推荐系统中的应用研究[D];河海大学;2003年
4 裴蕾;基于Web数据挖掘的电子商务推荐系统研究[D];同济大学;2006年
5 何安;协同过滤技术在电子商务推荐系统中的应用研究[D];浙江大学;2007年
6 刘国光;基于聚类的Web使用挖掘研究[D];山东大学;2007年
7 罗锋;B2C购物网站商品信息推送系统的研究与设计[D];华中师范大学;2007年
8 彭玉;基于用户个人特征的多内容项目协同过滤推荐[D];西南大学;2007年
9 詹宇斌;Web日志挖掘相关算法研究[D];国防科学技术大学;2006年
10 赵伟;基于评分预测和概率融合的协同过滤研究[D];河南大学;2007年
【二级引证文献】
中国期刊全文数据库 前2条
1 王洲;;基于聚类算法的个性化蔬菜种子交易平台的研究[J];天津科技;2013年03期
2 黎邦群;;基于检索行为的非个性化图书推荐[J];图书馆杂志;2013年08期
中国硕士学位论文全文数据库 前6条
1 胡斌;科技项目评审专家推荐系统的研究与实现[D];杭州电子科技大学;2011年
2 黄敏;科技项目评审专家推荐系统研究[D];杭州电子科技大学;2013年
3 王亚平;内容平台类网站用户阅读偏好研究[D];北京印刷学院;2013年
4 方卫华;推荐系统中一种改进的协同过滤推荐算法的研究[D];西安电子科技大学;2013年
5 崔彦晓;高考志愿的个性化推荐方法研究[D];石家庄铁道大学;2013年
6 蒋晨;基于用户情景感知的动态兴趣模型及其应用[D];华中师范大学;2014年
【二级参考文献】
中国期刊全文数据库 前1条
1 周斌,吴泉源,高洪奎;用户访问模式数据挖掘的模型与算法研究[J];计算机研究与发展;1999年07期
【相似文献】
中国期刊全文数据库 前10条
1 邹晓红;李甲;郭景峰;柴然;;基于特征索引的图相似查询过滤算法[J];计算机工程;2011年14期
2 叶晓东,朱兆达;中值滤波的快速算法[J];南京航空航天大学学报;1997年02期
3 刘伟成,焦玉英;网络信息过滤的方法与相关技术研究[J];现代图书情报技术;2002年03期
4 潘伟洪;曾纪瑶;;教学评估系统的数据过滤算法的设计与实现[J];电脑知识与技术(学术交流);2006年14期
5 吴为民;;面向粗集的数据过滤方法讨论[J];科技资讯;2007年32期
6 廖小平;王志坚;刘山;;基于XML的发布/订阅型系统中过滤算法的改进[J];电脑开发与应用;2008年12期
7 吴海珍;陈沅涛;;基于超级节点的P2P信任模型[J];计算机工程;2009年11期
8 管建和;邓刚;;用贝叶斯算法实现垃圾邮件过滤[J];电脑编程技巧与维护;2006年06期
9 周文刚;孙挺;;Web页文本信息语义过滤系统设计与实现[J];周口师范学院学报;2007年02期
10 何苗;全宇;;基于关键词的文本内容过滤算法的改进[J];微计算机应用;2007年08期
中国重要会议论文全文数据库 前10条
1 赵勇;高凤荣;邢春晓;;基于用户权威的协作过滤算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
2 沈杰峰;杜亚军;唐俊;;一种基于项目分类的协同过滤算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
3 曾春;周立柱;邢春晓;;基于近邻法的协作过滤算法的改进[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
4 李俊薇;杨青;张连发;黄宇颖;;基于贝叶斯定理的个性化体检网站的研究[A];第二十三届中国(天津)2009IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2009年
5 李俊薇;杨青;张连发;黄宇颖;;基于贝叶斯定理的个性化体检网站的研究[A];第二十二届中国(天津)'2008IT、网络、信息技术、电子、仪器仪表创新学术会议论文集[C];2008年
6 陈志文;姜建国;王开云;;网络入侵检测系统警报过滤算法设计[A];中国工程物理研究院科技年报(2005)[C];2005年
7 林丽冰;师瑞峰;周一民;李月雷;;基于双聚类的协同过滤推荐算法[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
8 王茜;张卫星;;基于分类树相似度加权的协同过滤算法[A];2008年计算机应用技术交流会论文集[C];2008年
9 焦芬芬;章勇;;基于聚类分析的过滤算法在RSS信息服务中的研究[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
10 王晖;马军;;面向Web论坛的多文档摘要方法[A];第五届全国信息检索学术会议论文集[C];2009年
中国重要报纸全文数据库 前9条
1 ;基于CAP 2+技术的iMSC新业务[N];人民邮电;2001年
2 ;联想网御百兆防火墙[N];计算机世界;2002年
3 中国反垃圾邮件联盟 王兴宇 叶豪;反垃圾邮件方案谁堪重任?[N];计算机世界;2004年
4 艾文;反垃圾邮件 呼唤技术标准[N];中国计算机报;2004年
5 ;“快钱”的速度[N];网络世界;2005年
6 王翌;关于“垃圾桶”的两个悖论[N];计算机世界;2004年
7 ;天澄信息过滤系统协助短信监控管理[N];人民邮电;2004年
8 刘海英;快速搜索技术可提高检索速度20倍[N];科技日报;2009年
9 ;盈世科技:布局移动互联网[N];中国计算机报;2011年
中国博士学位论文全文数据库 前10条
1 张亮;推荐系统中协同过滤算法若干问题的研究[D];北京邮电大学;2009年
2 詹川;反垃圾邮件技术的研究[D];电子科技大学;2005年
3 郭艳红;推荐系统的协同过滤算法与应用研究[D];大连理工大学;2008年
4 黄文良;垃圾短信过滤关键技术研究[D];浙江大学;2008年
5 张泽明;人工免疫算法及其应用研究[D];中国科学技术大学;2007年
6 聂国梁;流数据统计算法研究[D];华中科技大学;2006年
7 史旻昱;基于RSS的个性化网络广告推荐系统研究[D];华中科技大学;2008年
8 张富国;基于信任的电子商务个性化推荐关键问题研究[D];江西财经大学;2009年
9 王铎;制造业产品配置管理的若干关键技术研究[D];吉林大学;2009年
10 夏虎;移动社交网络结构和行为研究及其应用[D];电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 孙德才;相似字符串匹配过滤算法研究[D];湖南大学;2009年
2 林泳;基于GPU的并行协同过滤算法及其应用[D];华南理工大学;2012年
3 代金龙;协同过滤算法中数据稀疏性问题研究[D];重庆大学;2013年
4 李惠民;电子商务推荐系统中协同过滤算法的研究[D];吉林大学;2011年
5 龚瑞君;多阶段协作过滤算法应用于移动商务的研究[D];西南财经大学;2011年
6 蔡观洋;个性化推荐中协同过滤算法的改进研究[D];吉林大学;2013年
7 石婷;推荐系统协同过滤算法的改进[D];云南大学;2014年
8 沈浅;电子商务推荐系统中协调过滤算法的分析与研究[D];南京理工大学;2011年
9 王强强;基于项目与情绪的协同过滤算法研究与实现[D];北京邮电大学;2013年
10 周军军;基于随机游走和聚类平滑的两阶段协同过滤算法[D];江西师范大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026