收藏本站
《中国科学技术大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

基于量化的近似最近邻搜索技术研究

张婷  
【摘要】:最近邻搜索是机器学习、计算机视觉和信息检索里一个重要的基础性问题。然而,在大规模高维数据环境下,给定查询点,找到其精确的最近邻需要大量的计算及存储空间。近似最近邻搜索算法由于其存储空间少、查找效率高等优点引起了人们的广泛关注。而如何快速、高效、准确地进行近似最近邻搜索是目前学术研究的一个热点和难点。一般来说,近似最近邻搜索的算法在尽可能保证其准确性的情况下主要从两个方面提高搜索速度。第一个是利用特殊的数据结构来减少查询点与数据点的比较次数;第二个是利用紧凑码来加速计算查询点与数据点之间的距离,比如通过哈希算法或量化算法将数据点映射为紧凑码。本文主要从第二个方面——基于量化的近似最近邻搜索算法——研究如何获得更优质的紧凑码来提高查找准确率和查找效率。本文主要研究内容和创新成果如下:1.针对无监督的近似最近邻搜索,本文提出一种组合量化方法。其主要思想是用若干个子中心点之和作为重构点来近似数据点,其中每个子中心点来自不同的子字典,数据点用这些子中心点在各自子字典中的索引值来表示。同时,我们引入近似正交约束条件,使得计算查询点与重构点的距离可以用查询点和这几个子中心点的距离之和来代替进而加速距离计算。与已有的量化方法的对比实验结果表明,近似正交的组合量化可以获得更高的查找准确率。2.本文提出一种稀疏组合量化算法,用以减少组合量化中创建查阅表所需的时间。大规模数据的近似最近邻搜索通常结合倒排表进一步加速搜索。而组合量化在对倒排表返回的数据点进行排序的时候,创建查阅表所需的时间变得不可忽视。针对这一问题,本文提出的稀疏组合量化方法,引入了一个稀疏条件,使得重构字典里的每一个子中心点是一个稀疏向量。其好处是,当创建查阅表需要计算查询点与子中心点的欧氏距离的时候,由于子中心点是一个稀疏向量,可以加速距离计算。在大规模数据集上的近似最近邻搜索表明,稀疏组合量化相比较于组合量化,可以获得更快的查找速度。3.本文提出基于量化的近似最近邻搜索算法用于跨模态最近邻搜索领域中。所谓跨模态最近邻搜索,指的是查询点和数据点来自不同的数据模态,例如用图像查询点去搜索相似的文本数据点,或用文本查询点去搜索相似的图像数据点。本文提出的算法只假设一幅图像和一段文本是一一对应的,而不需要已知图像和文本的类别。该算法首先将来自不同模态的一对数据映射到同一空间中,之后在这个映射后的空间对不同模态的数据通过组合量化进行近似,同时使来自不同模态的一对数据的近似表示尽可能相同。大量的实验比较表明,本文提出的算法在跨模近似态最近邻搜索中可以获得更高的查找准确率。4.针对有监督近似最近邻搜索,本文提出了一种新的量化方法。不同于无监督近似最近邻搜索,量化算法直接在数据库上进行量化,本文提出的算法是使数据点首先通过一个线性变换,之后在线性变换后的数据点上进行组合量化。其优化的目的不仅要使得量化后的近似表达能准确地代表线性变换后的数据点,同时也使得数据点在线性变换后具有类别可分离性,即相同类别的数据点在线性变换后距离很近,不同类别的数据点在线性变换后的空间内相距很远。与现有的有监督近似最近邻搜索算法的实验比较表明,本文提出的算法可以获得更高的查找准确率。综上,本文在无监督的近似最近邻搜索,跨模态的近似最近邻搜索,以及有监督的近似最近邻搜索这三个领域提出了四个新颖的算法,用于提高近似最近邻搜索的查找准确率以及查找效率。大量实验结果表明了本文提出的方法的查找结果好于已有方法的查找结果。
【关键词】:最近邻搜索 近似最近邻搜索 量化 组合量化 近似正交的组合量化 稀疏组合量化 跨模态近似最近邻搜索 跨模态协同量化 有监督近似最近邻搜索
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP391.3
【目录】:
  • 摘要5-7
  • ABSTRACT7-17
  • 第1章 绪论17-29
  • 1.1 研究背景及意义17-18
  • 1.2 近似最近邻搜索研究现状18-20
  • 1.3 量化20-21
  • 1.4 基于量化的近似最近邻搜索算法21-25
  • 1.4.1 超立方体量化22-23
  • 1.4.2 笛卡尔量化23-25
  • 1.4.3 本论文关注的研究问题25
  • 1.5 研究内容和创新点25-27
  • 1.5.1 组合量化25-26
  • 1.5.2 稀疏组合量化26
  • 1.5.3 跨模态协同量化26
  • 1.5.4 有监督量化26-27
  • 1.6 论文组织结构27-29
  • 第2章 组合量化29-57
  • 2.1 引言29-31
  • 2.2 组合量化31
  • 2.3 正交组合量化31-32
  • 2.4 近似正交的组合量化32-34
  • 2.5 同时优化查找准确率和查找时间效率34-36
  • 2.6 讨论与分析36-42
  • 2.6.1 M个子字典与一个子字典36-37
  • 2.6.2 联系37-39
  • 2.6.3 近似正交约束条件39-40
  • 2.6.4 将基于欧氏距离的近邻查找转换成基于内积距离的近邻查找40-42
  • 2.7 优化算法42-45
  • 2.7.1 算法43-44
  • 2.7.2 实现细节44
  • 2.7.3 算法分析44-45
  • 2.8 实验验证45-51
  • 2.8.1 实验设置45-47
  • 2.8.2 实验分析47-48
  • 2.8.3 实验结果比较48-51
  • 2.9 应用51-54
  • 2.9.1 基于内积距离的最近邻搜索51-53
  • 2.9.2 移动端最近邻搜索的应用53
  • 2.9.3 在目标检索上的应用53-54
  • 2.10 本章小结54-57
  • 第3章 稀疏组合量化57-75
  • 3.1 引言57-58
  • 3.2 相关工作58-59
  • 3.3 稀疏组合量化59-61
  • 3.4 优化算法61-64
  • 3.4.1 更新{y_n}62
  • 3.4.2 更新ε62
  • 3.4.3 优化问题(3.6)的更新C公式62-64
  • 3.4.4 优化问题(3.7)的更新C公式64
  • 3.4.5 实现细节64
  • 3.5 讨论与分析64-65
  • 3.6 实验验证65-74
  • 3.6.1 实验设置65-66
  • 3.6.2 在中等规模和较大规模数据集上的近似最近邻搜索结果66-69
  • 3.6.3 在更大规模数据集上的最近邻搜索结果69-72
  • 3.6.4 目标检索应用72-74
  • 3.7 本章小结74-75
  • 第4章 跨模态协同量化75-95
  • 4.1 引言75-76
  • 4.2 相关工作76-78
  • 4.3 跨模态协同量化78-80
  • 4.3.1 共同空间上的量化79
  • 4.3.2 共同特征空间映射79-80
  • 4.3.3 总体优化目标函数80
  • 4.4 优化算法80-84
  • 4.4.1 共同特征空间映射81-82
  • 4.4.2 共同空间上的量化82-83
  • 4.4.3 查找过程83-84
  • 4.5 讨论与分析84-85
  • 4.5.1 与CCQ的联系84
  • 4.5.2 与LSSH的联系84-85
  • 4.6 实验验证85-94
  • 4.6.1 实验设置85-87
  • 4.6.2 实验结果87-90
  • 4.6.3 实验分析90-94
  • 4.7 本章小结94-95
  • 第5章 有监督量化95-113
  • 5.1 引言95-96
  • 5.2 相关工作96-97
  • 5.3 有监督量化97-99
  • 5.3.1 量化模型97-99
  • 5.3.2 查找过程99
  • 5.4 优化算法99-102
  • 5.4.1 初始化100
  • 5.4.2 W-更新100
  • 5.4.3 P-更新100
  • 5.4.4 ε-更新100
  • 5.4.5 C-更新100-101
  • 5.4.6 B-更新101
  • 5.4.7 收敛性101-102
  • 5.5 讨论与分析102-103
  • 5.5.1 与有监督稀疏编码之间的联系102
  • 5.5.2 分类损失与排序损失102-103
  • 5.6 实验验证103-110
  • 5.6.1 实验设置103-104
  • 5.6.2 实验比较104-108
  • 5.6.3 实验分析108-110
  • 5.7 本章小结110-113
  • 第6章 总结和展望113-115
  • 6.1 总结113-114
  • 6.2 展望114-115
  • 参考文献115-123
  • 致谢123-125
  • 在读期间发表的学术论文与取得的研究成果125

【相似文献】
中国期刊全文数据库 前10条
1 杨秀娟;;空间对象的双色反向最近邻查询研究[J];煤炭技术;2009年06期
2 张桂榕;;反向最近邻查询研究综述[J];电脑知识与技术;2011年28期
3 周屹;;不确定对象的反向最近邻查询研究[J];黑龙江工程学院学报(自然科学版);2012年04期
4 刘永山,薄树奎,张强,郝忠孝;多对象的最近邻查询[J];计算机工程;2004年11期
5 郝忠孝;刘永山;;空间对象的反最近邻查询[J];计算机科学;2005年11期
6 王淼;郝忠孝;;不确定性对象的反向最近邻查询[J];计算机工程;2010年10期
7 张旭;何向南;金澈清;周傲英;;面向不确定图的k最近邻查询[J];计算机研究与发展;2011年10期
8 杨泽雪;郝忠孝;;空间数据库中的障碍反向最近邻查询[J];计算机工程与应用;2011年34期
9 王丹丹;郝忠孝;;道路网络中的多类型K最近邻查询[J];计算机工程与应用;2012年03期
10 邓瑾;周梅;;基于R树及其变种的最近邻查询研究[J];现代计算机;2013年09期
中国重要会议论文全文数据库 前10条
1 张晓峰;王丽珍;肖清;赵丽红;;基于概念划分的连续最近邻查询研究[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
2 管猛;张剡;柏文阳;;基于地表的连续可见最近邻查询方法[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
3 陈璐;高云君;柳晴;陈刚;;受限相互最近邻查询处理[A];第29届中国数据库学术会议论文集(B辑)(NDBC2012)[C];2012年
4 盛梅红;沙朝锋;宫学庆;嵇晓;周傲英;;道路网络环境中的多对象最近邻查询[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
5 刘月清;章勇;;一种改进的动态最近邻聚类算法[A];全国自动化新技术学术交流会会议论文集(一)[C];2005年
6 李传文;谷峪;李芳芳;于戈;;一种障碍空间中不确定对象的连续最近邻查询方法[A];NDBC2010第27届中国数据库学术会议论文集A辑一[C];2010年
7 刘星毅;;基于欧式距离的最近邻改进算法[A];广西计算机学会2010年学术年会论文集[C];2010年
8 刘先康;梁菁;任杰;蒋光庆;;修正最近邻模糊分类算法在舰船目标识别中的应用[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
9 刘俊岭;孙焕良;;多维度量空间中发现相互kNN(英文)[A];NDBC2010第27届中国数据库学术会议论文集A辑二[C];2010年
10 余小高;;P2P环境中k最近邻搜索算法研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
中国博士学位论文全文数据库 前9条
1 张婷;基于量化的近似最近邻搜索技术研究[D];中国科学技术大学;2017年
2 杨泽雪;空间连接及最近邻变体查询研究[D];哈尔滨理工大学;2014年
3 孙冬璞;时空数据库多类型最近邻查询的研究[D];哈尔滨理工大学;2010年
4 王建峰;基于哈希的最近邻查找[D];中国科学技术大学;2015年
5 张得天;时间依赖路网高效k最近邻查询混搭机制的研究[D];中国科学技术大学;2014年
6 杜钦生;高维空间的K最近邻查询及连接问题研究[D];吉林大学;2015年
7 张军旗;支持最近邻查找的高维空间索引[D];复旦大学;2007年
8 李艳红;路网中移动对象最近邻及反向最近邻查询处理研究[D];华中科技大学;2011年
9 魏本昌;基于内容的大规模图像检索技术研究[D];华中科技大学;2015年
中国硕士学位论文全文数据库 前10条
1 杨根茂;基于哈希加速的近似最近邻检索算法研究[D];浙江大学;2015年
2 原玥;高维数据最近邻查询算法研究[D];西安电子科技大学;2014年
3 陈冲;路网中的k最近邻轨迹查询方法研究[D];东北大学;2014年
4 徐峰;基于优化码位分配与残差旋转的近似最近邻检索方法[D];吉林大学;2016年
5 韩灵珊;基于两种不同构图方法的半监督分类算法研究[D];重庆师范大学;2016年
6 高雅倩;云环境下密文数据的近似最近邻检索技术研究[D];西安电子科技大学;2014年
7 吴晓兵;基于Voronoi图的分布式反最近邻查询方法研究[D];重庆邮电大学;2016年
8 朱颖祥;基于改进自然最近邻聚类的道路网事故热点识别与评估[D];重庆大学;2016年
9 经海东;基于Voronoi图的空间数据k-最近邻查询技术的研究[D];哈尔滨理工大学;2016年
10 刘蕾;空间数据库中基于Voronoi图的反k最近邻查询研究[D];哈尔滨理工大学;2017年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026