收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于哈希的最近邻查找

王建峰  
【摘要】:最近邻查找是计算机视觉和机器学习领域中的一个重要的基础性问题。近年来,基于哈希的算法在处理最近邻查找的问题上,引起了很大的关注。其基本思想是用紧凑的二值码表示高维数据点,并且用二值码之间的相似性近似数据点之间在原空间的相似性。二值码表示具有存储消耗低和计算速度快的优点,故而哈希的方法在大规模数据环境下具有很广的应用前景。 尽管哈希方法有存储和计算上的优势,但是依据二值码排序的结果依然存在着一定的误差。这样的误差目前并没有得到很好地解决,故而本论文主要从多个方面提升哈希方法在最近邻查找中的准确性。 一般而言,基于哈希的最近邻查找的方法包括两个阶段。第一个是哈希映射,用于将数据点映射为二值码;第二个是针对二值码设计近似距离从而进行排序。为了提升基于哈希的最近邻查找的准确性,本文主要从这两个方面研究如何获得更优质的二值码和更准确的度量距离。 本文主要研究内容和创新成果如下: 1.提出序列保持哈希算法。该算法通过最大化原空间排序结果和汉明空间排序结果之间的一致性学习哈希映射,从而提升基于汉明距离的哈希映射在最近邻查找的准确性。数据点根据与查询点之间的汉明距离分成不同的类别,从而可以将排序问题建模成分类问题。哈希函数通过最小化在所有训练数据点上面的分类损失而得。该方法直接最大化最近邻查找最关注的排序的一致性,大量的与已有基于汉明距离的哈希方法的对比实验结果表明,序列保持哈希可以在相同的查找时间内取得更高的排序准确率。 2.提出优化的笛卡尔K均值算法。该算法用于提升基于空间量化的哈希映射在最近邻查找的准确率。传统的方法中,码本是多个子码本的笛卡尔乘积;而本文提出的方法采用多个这样的码本联合对数据进行编码。每一个数据点用多个码字的和近似,而每一个码字来自不同的码本。码本通过最小化失真误差优化而得。这样简单有效的策略不仅在实验中同时也在理论上保证了更低的失真误差,从而提升了排序的准确性。 3.提出二值码距离优化的算法。该算法用于在二值码给定的情况下,通过距离优化的方式提升最近邻查找的准确率。具体而言,由于二值码取值范围的有限性,本文通过一个非参数的查询表存储查询点到每一个二值码之间的距离。为了解决可能带来的存储空间大的问题,本文将二值码分成多个子码,每一个子码生成一个与查询相关的较小的距离查询表,近似距离定义为多个子表对应的表项的和。查询表中的元素值通过最小化近似距离和原真实距离的误差而得。该思想成功应用到对称的二值码之间的距离以及非对称的查询点与数据库二值码之间的距离中。由于理论上保证了更准确的近似距离,大量的实验表明了对距离的优化可以很大幅度提升基于哈希的最近邻查找的准确率。 综上,本文从如何获得二值码以及如何设计针对二值码距离两个方面,提出三个新颖算法,用于提升基于哈希的最近邻查找的准确性。理论证明和大量实验结果表明了所提出方法相对于已有方法的优越性。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 周屹;杨泽雪;邢传军;曲天伟;;一种连续最近邻查询的优化方法[J];黑龙江工程学院学报(自然科学版);2013年04期
2 张奋;黄铁;潘梅森;;不同维数下空间对象的反最近邻查询[J];湖南城市学院学报(自然科学版);2007年01期
3 李松;郝忠孝;;球面上最近邻空间关系处理方法[J];计算机工程;2010年06期
4 王恒;;路网中基于预计算的跳跃式查询最近邻的算法[J];天津理工大学学报;2011年02期
5 闵寻优;郝忠孝;;三维空间中的连续最近邻查询[J];软件;2011年02期
6 刘彬;王建国;;范围最近邻查询方法研究[J];泰山学院学报;2011年03期
7 李进;余建桥;;空间对象的反最近邻查询处理技术研究[J];计算机工程与应用;2011年33期
8 刘艳;郝忠孝;;高维主存的反向K最近邻查询及连接[J];计算机工程;2011年24期
9 杨泽雪;郝忠孝;;空间数据库中连续可视反向最近邻查询[J];西南交通大学学报;2012年03期
10 吴昊;;最近邻分类的改良模型[J];广西大学学报(自然科学版);2012年06期
11 管莹莹;肖迎元;李玉坤;;基于路网的连续K最近邻查询[J];天津理工大学学报;2012年06期
12 杨泽雪;郝忠孝;;空间数据库中的组障碍最近邻查询研究[J];计算机研究与发展;2013年11期
13 高峰;赵丹枫;刘国华;刘军生;张奇;张宇;;一种用于连续反最近邻查询的空间削减算法[J];计算机工程与科学;2007年10期
14 孙冬璞;郝忠孝;;局部范围受限的多类型最近邻查询[J];计算机研究与发展;2009年06期
15 朱婧;;移动点的反向最近邻查询[J];齐齐哈尔大学学报(自然科学版);2009年06期
16 王娜;侯爽;;K-最近邻分类技术的新发展与技术改进[J];河北省科学院学报;2009年04期
17 钟智;朱曼龙;张晨;黄樑昌;;最近邻分类方法的研究[J];计算机科学与探索;2011年05期
18 徐超;张东站;郑艳红;饶丽丽;;基于查询集空间分布的聚合最近邻查询算法[J];计算机应用;2011年09期
19 陈默;贾子熙;谷峪;于戈;;面向存在不确定对象的组最近邻查询方法[J];小型微型计算机系统;2012年04期
20 高峻;郝忠孝;;空间数据库平面曲线的点最近邻查询[J];计算机工程;2012年15期
中国重要会议论文全文数据库 前10条
1 张晓峰;王丽珍;肖清;赵丽红;;基于概念划分的连续最近邻查询研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 管猛;张剡;柏文阳;;基于地表的连续可见最近邻查询方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 陈璐;高云君;柳晴;陈刚;;受限相互最近邻查询处理[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
4 盛梅红;沙朝锋;宫学庆;嵇晓;周傲英;;道路网络环境中的多对象最近邻查询[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 刘月清;章勇;;一种改进的动态最近邻聚类算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
6 李传文;谷峪;李芳芳;于戈;;一种障碍空间中不确定对象的连续最近邻查询方法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
7 刘星毅;;基于欧式距离的最近邻改进算法[A];广西计算机学会2010年学术年会论文集[C];2010年
8 刘先康;梁菁;任杰;蒋光庆;;修正最近邻模糊分类算法在舰船目标识别中的应用[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
9 刘俊岭;孙焕良;;多维度量空间中发现相互kNN(英文)[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
10 余小高;;P2P环境中k最近邻搜索算法研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
中国博士学位论文全文数据库 前7条
1 杨泽雪;空间连接及最近邻变体查询研究[D];哈尔滨理工大学;2014年
2 孙冬璞;时空数据库多类型最近邻查询的研究[D];哈尔滨理工大学;2010年
3 王建峰;基于哈希的最近邻查找[D];中国科学技术大学;2015年
4 张得天;时间依赖路网高效k最近邻查询混搭机制的研究[D];中国科学技术大学;2014年
5 杜钦生;高维空间的K最近邻查询及连接问题研究[D];吉林大学;2015年
6 张军旗;支持最近邻查找的高维空间索引[D];复旦大学;2007年
7 李艳红;路网中移动对象最近邻及反向最近邻查询处理研究[D];华中科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 韩冬柏;基于R-树的最近邻查询研究[D];哈尔滨理工大学;2011年
2 王恒;基于路网的最近邻查询方法的研究[D];天津理工大学;2012年
3 宋娜;连续可视最近邻查询研究[D];哈尔滨理工大学;2014年
4 赵海宇;连续最近邻查询研究[D];哈尔滨理工大学;2014年
5 郭小发;空间对象的连续可视最近邻查询处理研究[D];浙江大学;2008年
6 曾令智;多类型反向最近邻查询的研究[D];广西大学;2013年
7 张佳佳;最近邻查询和反最近邻查询算法研究[D];哈尔滨理工大学;2009年
8 朱曼龙;最近邻方法在填充和分类中应用的新技术[D];广西师范大学;2010年
9 张晓峰;一种基于概念划分的不确定连续最近邻查询[D];云南大学;2010年
10 喻荣超;最近邻搜索方法在大可视目标识别中的应用[D];电子科技大学;2013年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978