收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于迁移学习的跨领域排序学习算法研究

陈德品  
【摘要】: 随着互联网的普及和互联网内容的不断丰富,如何通过有效的方式获取需要的信息显得尤为重要。搜索引擎很好地解决了这个问题,成为了人们访问互联网的入口。如何对搜索引擎返回的结果进行排序成为近年来研究的热点,另一方面,搜索引擎结果排序的质量也直接决定了用户的使用体验,进而影响搜索引擎的市场份额。本文的研究工作正是以搜索引擎为大背景进行的。 纵观各大主流搜索引擎,查询的结果网页通常在经过排序后,以列表的形式返回给用户,排在最靠前的是系统认为最相关,最能满足用户信息需求的网页。近年来,运用大规模数据处理和机器学习技术训练最优排序模型成为学术界的研究热点,国内外研究者先后提出了一系列经典的方法,有些在工业界已经获得了良好的应用,比如排序支持向量机(Ranking SVM)。绝大多数这类方法都属于监督学习的范畴,为了获得一个可靠的排序模型,我们需要标注大量的训练数据,将这些数据输入到特定的学习机,经过一定时间的自动训练,学习机输出得到的排序模型。 在排序学习算法的实际应用中,标注数据数量不足,甚至根本没有标注数据的情况经常出现。现有的监督排序学习方法总是需要一定数量规模的标注数据,以保证最终获得的排序模型的可靠性,当标注数据不足时这些方法就无法得到应用。所幸的是,在排序学习算法的实际应用中,我们也发现,虽然目标领域的标注数据不足,但可能还存在另一部分数量较多的标注数据,这些数据来自一个与目标领域不同但相关的领域(我们称之为“源领域”)。如何利用这部分数据来帮助目标领域中的排序学习,以获得改进的排序模型是本文关注的重点。 本文针对排序学习实际应用中面临的标注数据不足的问题,充分利用来自源领域的标注数据,引入迁移学习的概念,创新性地提出了基于迁移学习的跨领域排序学习算法,并进行了应用研究。在系统分析排序学习算法的基本假设、损失函数、优化公式和学习算法之后,本文分别在实例和特征两个方面进行迁移学习,给出各自的基本假设、优化公式以及学习算法。最后,本文还研究了我们的方法在文档检索、垂直搜索中的应用。 对于基于实例的迁移排序学习,我们首先提出了一个启发式的方法TransRank,该方法首先对源领域标注数据进行两步预处理,然后将处理过的数据和目标领域的少量训练数据一起输入到Ranking SVM,经过训练得到排序模型。随后,我们又提出了一个改进的概率分布算法CLRankins。对于基于特征的情况,根据假设我们提出了一个统一的优化公式,并将其转换成依次优化两个变量的迭代过程。我们还研究了该优化问题和经典的Ranking SVM之间的关系,并通过证明得出,该优化问题可以使用Ranking SVM作为基础学习机。对该优化问题的求解最终形成了基于特征的迁移排序学习算法CLRankfeat。 跨领域的迁移排序学习在文档检索中有着广泛的应用前景。本文使用文档检索的一些公共数据集,模拟标注数据不足的情况,通过实验验证了迁移排序学习在文档检索中的应用效果。基于大规模公共数据集的实验表明,本文提出的三个迁移排序学习方法能不同程度地改进目标领域的排序模型。CLRankfeat能在所有的实验数据集上获得5-15%的性能提升;TransRank和CLRankins只能在部分数据集上获得较小的性能提升。同时,我们还在算法敏感性和鲁棒性上,对这些方法进行比较分析。 垂直搜索引擎是迁移排序学习的另一个应用场景。新开发的垂直搜索往往没有足够的时间去标注数据以训练排序模型,但我们可以利用其它垂直搜索的标注数据,通过迁移排序学习来获得排序模型,用于新开发的垂直搜索。在实验中,我们使用某商业搜索引擎的查询点击数据,抽取影响网页排序的特征集合,构造实验所需的数据集。实验表明,TransRank能有效提升新闻搜索上的排序性能,节省大约80%的目标领域标注数据。此外,我们还分析讨论了不同特征在迁移排序学习过程中所起的作用。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 周作涛;;垂直搜索在电子商务中的应用分析[J];陕西理工学院学报(自然科学版);2008年03期
2 赵宏中;李亚;;垂直搜索引擎应用研究[J];现代商贸工业;2010年04期
3 郑力明;易平;;基于HTMLParser信息提取的网络爬虫设计[J];微计算机信息;2009年15期
4 秦茜;;期待搜狗抹平新账旧债马云张朝阳合谋垂直搜索[J];IT时代周刊;2010年17期
5 刘金亮;苏琳;石云;;基于Nutch的垂直搜索技术研究[J];电脑知识与技术;2011年24期
6 李一;;无线搜索引擎的现状与发展[J];图书馆学研究;2007年11期
7 孙玲芳;黎维良;;基于定题爬虫的网页分类的多级判定算法[J];科学技术与工程;2009年18期
8 火凤凰;;商业搜索的价值体现在哪里[J];中国计算机用户;2008年11期
9 孔祥春;李义杰;郑凯明;;垂直搜索引擎应用研究[J];计算机系统应用;2009年07期
10 袁楚;;垂直搜索发展又现新样本[J];互联网天地;2009年11期
11 王海龙;赵冬;;农村信息化综合网站中信息采集设计与实现[J];计算机应用与软件;2010年06期
12 郑凯明;;垂直搜索引擎应用研究[J];赤峰学院学报(自然科学版);2011年02期
13 燕苗;;搜索引擎技术研究与发展[J];科技传播;2011年10期
14 ;有了百度、Google,还要别的搜索吗?[J];电脑爱好者;2007年23期
15 刘运强;;垂直搜索引擎的研究与设计[J];计算机应用与软件;2010年07期
16 刘瑞瑞;;基于移动搜索的图书馆参考咨询服务[J];图书馆学研究;2011年13期
17 李宇宁;忻展红;;移动搜索业务发展趋势分析[J];现代通信;2007年Z5期
18 申晋;;基于Lucene和Nutch的林业垂直搜索引擎的研建[J];农业网络信息;2008年04期
19 汲业;陈燕;杨健;慕蓉;;生活服务领域垂直搜索引擎的设计与实现[J];计算机工程;2010年24期
20 黄昆;;网亦有“道”,网易“有道”[J];中国计算机用户;2007年25期
中国重要会议论文全文数据库 前10条
1 刘源;詹舒波;;基于Solr的行业垂直搜索平台的研究[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
2 褚蓓蓓;刘丹;;垂直搜索引擎:搜索引擎发展方向[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
3 周明;刘晓华;蒋龙;Matt Scott;;利用网络挖掘技术建立英语学习平台[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
4 孙亚夫;常峰;;本地搜索服务的结构设计与关键技术[A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册)[C];2006年
5 刘悦;许洪波;程学旗;;互联网挖掘和搜索的研究进展[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 李华;;网络搜索服务的新经济模式——移动搜索[A];2009年中国索引学会年会暨学术研讨会论文集[C];2009年
7 付瑞吉;秦兵;刘挺;;面向音乐领域的文本检索与挖掘系统[A];第五届全国青年计算语言学研讨会论文集[C];2010年
8 郭瑞杰;程学旗;许洪波;张刚;王斌;;FirteX—高性能全文索引和检索平台[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 ;控寻移动增值业务市场与内容计费[A];四川省通信学会2007年学术年会论文集[C];2007年
10 ;天津大学应急平台研究中心[A];中国突发公共事件防范与快速处置2008优秀成果选编[C];2008年
中国博士学位论文全文数据库 前6条
1 管虎;普适环境下轻量级垂直搜索中数据挖掘理论研究[D];上海交通大学;2013年
2 陈竹敏;面向垂直搜索引擎的主题爬行技术研究[D];山东大学;2008年
3 陈德品;基于迁移学习的跨领域排序学习算法研究[D];中国科学技术大学;2010年
4 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
5 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
6 李东;在线旅行服务商业模式研究[D];华侨大学;2011年
中国硕士学位论文全文数据库 前10条
1 易平;生活服务行业垂直搜索的设计与实现[D];暨南大学;2010年
2 王振华;档案领域垂直搜索技术的研究与实现[D];东华大学;2011年
3 史磊峰;移动垂直搜索系统的研究[D];北京交通大学;2010年
4 宋国;面向分布式数据源的语义垂直搜索系统研究与实现[D];哈尔滨工业大学;2013年
5 邬亚文;威客垂直搜索系统的设计与实现[D];华南理工大学;2010年
6 雷洪;一个垂直搜索系统的设计与实现[D];中山大学;2012年
7 杨衍鹏;基于垂直搜索的移动阅读产品设计与研究[D];湖南大学;2011年
8 王晶;基于垂直搜索技术的竞争情报采集系统的设计与实现[D];上海交通大学;2011年
9 曾铭;垂直搜索技术在社交网站中的应用与研究[D];北京邮电大学;2013年
10 陶秋红;中文垂直搜索技术的研究与实现[D];河北科技大学;2012年
中国重要报纸全文数据库 前10条
1 李永胜;垂直搜索:Google们漏掉的空档?[N];中国计算机报;2006年
2 沉风;垂直搜索:互联网服务生活新方向[N];人民邮电;2007年
3 薛娟;垂直搜索盯紧风投的口袋?[N];中国经济时报;2006年
4 ;移动垂直搜索开拓中国搜索新天地[N];人民邮电;2006年
5 姜蓉;垂直搜索是搜索市场的新“钱景”[N];中国经营报;2005年
6 苏娟;中移动即将上线无线音乐垂直搜索业务[N];中国计算机报;2008年
7 建平;专业垂直搜索升温[N];计算机世界;2005年
8 魏蓓;中文商业搜索引擎提供垂直搜索服务[N];市场报;2006年
9 本报记者 廖庆升;在线旅游市场格局生变 垂直搜索降低出游成本[N];通信信息报;2010年
10 任一鸣;垂直搜索:抓住细分需求[N];计算机世界;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978