收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

异质数据相似度学习及其在网络搜索中的应用

武威  
【摘要】:本文研究异质数据相似度学习的问题,以及相似度学习在网络搜索中的应用。相似度学习在网络搜索,推荐系统,图片标注以及机器翻译等诸多应用中都扮演着重要的角色。本质上来说,这些应用的任务都可以归结为学习并利用一个相似度函数来匹配两种异质的实例。这两种实例在网络搜索中是查询和文档,在推荐系统中是用户和物品,在图片标注中是关键词和图片,在机器翻译中是两种语言下的翻译。特别的,在网络搜索中,搜索引擎是产生查询文档匹配的媒介网络上信息的急剧膨胀使人们的生活越来越离不开搜索引擎。搜索引擎的任务是对不同用户提出的查询检索相关文档,并根据其相关性大小产生文档排序。查询与文档是两种异质实例,它们的相关性由它们之间的相似度决定。相似度函数的好坏直接决定了搜索引擎性能的优劣。本文定义希尔伯特空间的内积作为相似度函数。具体来说,本文为两种异质 实例分别定义一个映射函数。映射函数将异质实例映射到相同的希尔伯特空间然后映射像的内积被定义为相似度函数。在这样的定义下,本文考虑以两种方式学习异质数据的相似度:(1)先学习映射函数,然后再计算映射像的内积得到相似度函数;(2)直接学习相似度函数。在每一种方式下,本文试图解决三个问题(1)如何综合利用来自不同源的各种信息。例如,在网络搜索中,查询与文档的内容以及用户点击数据(click through data)都可以被用来学习相似度函数;(2)如何提高学习算法的效率及扩展性(scalability),使其能够处理海量的数据;(3)如何分析学习算法的泛化能力。 本文首先考虑先学习映射,再通过映射像的内积定义相似度函数。特别的,本文考虑学习两个线性映射,那么最后的相似度函数由一个双线性型表示。在这种方法下,本文为线性映射定义了两种假设空间。首先,我们要求线性映射的列单位正交。在这个假设下,本文提出了一个多视角(multi-view)的学习方法。该方法能有效利用来自不同源的各种信息。随后,为了提高学习的效率和扩展性,本文又给出了一个正则化的方法。具体来说,我们约束线性映射行向量的l_1范数和l_2范数。这个假设保证了解的稀疏性,同时使得算法很容易并行化。最后,本文还系统地研究了相似度学习方法的泛化能力。 随后,本文考虑直接定义相似度函数的假设空间来学习异质数据相似度函数。特别的,本文利用了机器学习中的核方法,提出了一种基于核的相似度学习。具体来说,本文定义了一种特殊的半正定核:S-核。一个S-核可以生成一个相似度函数的假设空间。核方法可以保证解的最优性以及它的泛化能力。为了提高学习算法的效率,本文提出了一个算法的在线近似。 我们将异质数据相似度学习应用到网络搜索中,并说明本文提出的学习方法可以解决网络搜索中的词语不匹配(term mismatch)问题。我们在真实的大规模企业搜索数据和网络搜索数据上进行了实验。实验效果表明,本文提出的方法可以有效地克服词语不匹配问题,显著地改善传统方法在相关性排序,以及相似查询发现上的表现。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 程鸿;;技术——网络搜索的核心竞争力[J];互联网天地;2004年08期
2 邢志宇;;网络搜索中的检索式及其构建[J];科技情报开发与经济;2007年17期
3 武二伟;;网络搜索中的检索式及其构建[J];情报科学;2009年05期
4 王冰睿;;鲍尔默冀望bing改变竞争格局 微软新搜索品牌在敌视中诞生[J];IT时代周刊;2009年12期
5 一啸倾城;;搜出随心所欲[J];电脑迷;2010年06期
6 ;Windows 7哪种网络共享方式适合我?[J];数码世界(B版);2011年01期
7 飘零雪;;亮出你的搜索结果[J];电脑迷;2005年08期
8 邢志宇;;分类搜索引擎探析[J];河南图书馆学刊;2006年05期
9 ;新产品&工具点评[J];程序员;2007年05期
10 李红岩;;智能Agent技术浅谈[J];科技信息;2008年33期
11 老叶;;敬畏网络正义的力量[J];新闻记者;2009年03期
12 ;搜索 寻找新的游戏规则[J];计算机与网络;2009年Z1期
13 施建强;用Visual Basic 6.0制作网络搜索软件[J];微计算机应用;2002年02期
14 张松;吴先锋;;谈谈移动搜索[J];数字通信世界;2007年07期
15 庄芯;;为尽速走出强敌阴影 微软借挪威跳板开辟企业搜索战场[J];IT时代周刊;2008年Z1期
16 代维·维斯;马克·马儿西德;管重;;Google改变世界[J];数字通信;2008年22期
17 马华;;游走在道德和法律之间的人肉搜索[J];信息网络安全;2008年12期
18 黄玮夏;;分类搜索引擎的体系构建及其使用方法探析[J];情报科学;2009年04期
19 ;网络搜索未来将出现三大趋势[J];软件世界;2009年07期
20 童亚拉;;基于网页技术的网络搜索系统在农业信息技术中的应用前景分析[J];湖北植保;2006年02期
中国重要会议论文全文数据库 前10条
1 张阵阵;刘永昌;冯嘉礼;;最大相似结构互补结合与最大相似功能互补匹配的相似度函数建立[A];中国生物化学与分子生物学会第八届会员代表大会暨全国学术会议论文摘要集[C];2001年
2 卢福刚;赵荣椿;;红外图象斑块状目标自动检测[A];中国图象图形科学技术新进展——第九届全国图象图形科技大会论文集[C];1998年
3 郁梅;董海涛;蒋刚毅;;基于视差插值与相似度的多视点视差估计算法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 褚庭亮;王茂生;汤文杰;赵蕾;;基于网络搜索的CTP主流技术分析实验报告[A];2008印刷版材发展技术论坛论文集[C];2008年
5 苏航;张解;陈晓玲;木原重光;张永权;;多国钢铁材料牌号的计算机自动匹配技术[A];2005年全国计算材料、模拟与图像分析学术会议论文集[C];2005年
6 余小高;;P2P环境中k最近邻搜索算法研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
7 王新燕;范金刚;;初探云计算[A];两化融合与物联网发展学术研讨会论文集[C];2010年
8 刘素萍;仁立学;胡广春;胡永波;郝樊华;储诚胜;;夹角余弦法用于辐射源一致性判定的评估[A];第十四届全国核电子学与核探测技术学术年会论文集(下册)[C];2008年
9 刘素萍;仁立学;胡广春;胡永波;郝樊华;储诚胜;;夹角余弦法用于辐射源一致性判定的评估[A];第十四届全国核电子学与核探测技术学术年会论文集(2)[C];2008年
10 陈伯伦;陈崚;王俊生;;一种基于距离调节的聚类算法[A];2008年全国开放式分布与并行计算机学术会议论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 武威;异质数据相似度学习及其在网络搜索中的应用[D];北京大学;2012年
2 郑中团;基于随机图演化与图上随机游动的复杂网络研究[D];上海大学;2009年
3 檀敬东;文本挖掘的若干关键算法研究[D];中国科学技术大学;2010年
4 曲建华;基于群体智能的聚类分析[D];山东师范大学;2010年
5 董宝力;Web制造资源的语义发现关键技术研究[D];浙江大学;2007年
6 袁庆霓;基于网络化制造环境的制造资源共享服务语义关键技术研究[D];西南交通大学;2010年
7 黄杰贤;FPC外观缺陷自动光学检测关键技术研究[D];华南理工大学;2012年
8 吴宇;对等网络内容搜索及索引缓存研究[D];中国科学院研究生院(计算技术研究所);2006年
9 顾弘;基于半监督聚类分析及广义距离函数学习的图像识别技术研究[D];浙江大学;2011年
10 沈郑燕;声纳图像去噪与分割技术研究[D];哈尔滨工程大学;2010年
中国硕士学位论文全文数据库 前10条
1 于耀辉;网络搜索服务提供商侵犯著作权的刑事责任[D];中国政法大学;2010年
2 梁继能;基于三层体系结构的网络搜索与信息处理系统[D];广东工业大学;2005年
3 庞永杰;基于Web的社会网络搜索中人名同一性判断方法研究[D];华中科技大学;2011年
4 刘岚;Web News Hunter智能代理[D];中国科学院研究生院(软件研究所);2003年
5 刘小燕;上海大学生网络自我效能的实证研究[D];上海师范大学;2005年
6 罗琪;模糊聚类算法及其在入侵检测中的应用[D];西安电子科技大学;2008年
7 田震;字符识别研究及其应用[D];北方工业大学;2012年
8 刘树勋;Internet智能搜索Agent研究与实现[D];广东工业大学;2000年
9 王可为;基于统计的双语术语自动抽取[D];南京理工大学;2007年
10 张宇;数字图像椒盐噪声滤波算法研究[D];哈尔滨理工大学;2009年
中国重要报纸全文数据库 前10条
1 ;网络搜索谁主沉浮[N];中国高新技术产业导报;2004年
2 本报记者 惠正一;Google 12亿美元收购广播广告公司[N];第一财经日报;2006年
3 车文秋;关注网络搜索中的商标问题[N];中国知识产权报;2006年
4 ;打开搜索的窗户就打开了世界[N];中国经营报;2005年
5 记者 王俊鸣;美开发出新的网络搜索软件[N];科技日报;2000年
6 谭俞雄;网络搜索市场呼唤诚信[N];中华工商时报;2004年
7 李 贽;中国搜索:网络之行始于“猪”[N];大众科技报;2004年
8 南京工程学院仿真部 施建强;用VB制作网络搜索软件[N];计算机世界;2002年
9 本报记者 刘笑一;网络搜索指数将成购房“风向标”[N];中国房地产报;2004年
10 四川 许睿;网络搜索利器——GoToLink媒体中心[N];电脑报;2003年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978