高维数据索引结构研究
【摘要】:随着互联网和多媒体技术的迅速发展,人们可以访问到的多媒体数据急剧增长,如何实现多媒体数据对象的相似检索成为一个非常重要的研究课题。通常,人们利用特征提取算法从多媒体数据对象中提取出特征矢量,然后利用特征矢量之间距离表示多媒体对象之间相似度。相似性检索的实现就是通过计算查询矢量与数据库中矢量之间距离以找出满足条件的对象。当数据库中矢量很多时,简单的顺序扫描搜索将导致极大查询代价,无法满足用户需求。为了有效实现快速相似性检索,就必须借助于高效的高维数据索引结构。
在最近几十年中,人们提出了很多高维数据索引结构,其中大多是树形结构,如R-Tree、R~*-Tree等,这些索引结构在维数升高时性能会急剧下降,即所谓的“维数灾难”,为此,有人提出了通过近似压缩矢量来减少磁盘I/O代价的VA-File,但仍不能为高维数据的相似性检索提供良好的查询性能。针对高维数据索引结构的现状,我们在该领域进行了深入研究,取得了一定的成果。
首先,我们提出了四种新的索引结构:1) Angle-Tree:用高维空间中单位超球面上的超弧对空间进行划分,并借助于树形结构实现索引,可有效支持以矢量之间夹角余弦为相似度度量的查询方式;2) VAR-Tree:将VA-File与R-Tree有机结合起来,用R-Tree来管理和组织近似矢量数据,并借助R-Tree类相似查询算法实现基于VAR-Tree的查询;3) VA-Trie:利用Tile结构来索引VA-File中近似矢量,有效实现了高维数据的相似性检索;4) OVA-File:将VA-File中近似矢量插入到近似文件中合适位置,使得在高维空间中相邻数据尽量存放在近似文件的相近位置上,从而在查询过程中仅访问部分近似矢量,就可快速得到质量很高的相似查询结果。
其次,在高维数据索引结构研究基础上,本文分别给出了基于VA-File和OVA-File的、以高维矢量序列为查询对象的视频片断相似查询方法,以有效利用高维索引结构同时支持视频信息检索中的镜头检索和视频片断检索。
最后,结合一个实际的多媒体信息检索系统,进一步阐述高维索引结构在实际系统中的应用。我们利用OVA-File管理来自于海量视频数据的高维矢量,基于镜头和视频片断相似查询模型实现了视频数据的快速相似性检索。
|
|
|
|
1 |
孙金立;李路路;王栋;;生物信息检索教学网的建设[A];向数字化转型的图书馆工作[C];2004年 |
2 |
姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年 |
3 |
孙金立;李路路;董明强;;建立生物信息检索教学网的研究[A];中华医学会第十次全国医学信息学术会议论文汇编[C];2004年 |
4 |
;编者的话[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年 |
5 |
米晓红;;一种基于LSI的用户兴趣模型构建方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年 |
6 |
王敬成;;HNC农村智能信息检索系统[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年 |
7 |
李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年 |
8 |
于志刚;杨金生;;农业机械网络书签[A];第十三次全国农机维修学术会议论文集[C];2007年 |
9 |
;前言[A];第四届全国信息检索与内容安全学术会议论文集(下)[C];2008年 |
10 |
田田;马军;李跃军;;应用多本体进行信息检索的研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年 |
|