收藏本站
《中国科学技术大学》 2013年
收藏 | 手机打开
二维码
手机客户端打开本文

多模态图像检索技术

王洋  
【摘要】:随着互联网和移动网络的发展,人们可以随时随地接入互联网获取信息。而搜索是人们通过互联网获取信息的主要途径之一。传统的搜索方法使用文本的方式进行检索,通常得到的也是文本信息。而互联网上如图片、视频、声音等多媒体信息爆炸式地增长,远远超过了文字信息。为了达到检索多媒体内容的目的,传统的基于文字的信息检索只能通过检索多媒体内相关文本的方式,把相关文本对应的多媒体内容返回给用户,其并不能根据多媒体的内容来进行检索。而最近在基于内容检索技术上的突破打破了这一局面。针对互联网上存在的大量重复的图片,人们通过一些图片特征进行匹配或索引,实现了以图搜图的目的。然而,这种方式仅限于搜索与查询图片相似的图片,而用户的检索意图往往是复杂多样的,单一的使用文本或图片检索无法满足用户复杂的检索意图。 另一方面,手机、平板电脑等移动终端渐渐成为了人们接入互联网的主要途径。而这些移动设备本身提供了诸如语音、拍照、手势等大量交互方式。这些交互方式为我们丰富用户检索意图的表达提供了方便。目前手机上的检索仍然采用传统台式电脑的文本检索和网页方式,没有充分利用移动设备的优势。本文充分发掘移动设备的交互优势,结合文本与图片,创造性地提出了一种利用语音/文字输入,结合视觉信息筛选的图像检索方式。 本论文的研究内容主要集中在基于内容的图像检索方法,分别在检索的查询条件构建,特征的构建、组织,以及视频序列的索引结构上。本论文的主要工作和创新之处归纳为以下几点: (1)论文提出一种在移动终端上利用多模态输入方便构建查询条件的方式以及整个系统的实现方法。首先用户用语音输入来描述想要搜索的目标,系统利用视觉和文本对应关系,根据用户描述中所包含的的关键词,采用聚类算法为用户推荐一些图片素材,用户选择一系列符合用户意图的素材,并且通过调整素材的大小和位置构造出一幅拼图。系统根据用户的文字输入得到候选图片,再根据拼图的元素及元素间位置关系,对图片进行过滤,返回给用户既满足文本查询条件,也满足视觉查询条件的图片结果。论文提出了有效的算法,根据视觉特征和位置关系对图片进行过滤。提出的算法最终使得整个系统成为可能。 (2)论文提出了利用拼图中的多样例图片以及相对位置关系对海量图片进行索引和检索的算法。对于大规模海量图片,构造一个有空间位置关系的拼图进行检索,需要考虑组成拼图的各个视觉元素的存在性和相对位置关系。本文打破了以往只能根据绝对位置进行匹配、校验的方式,采用自然分割获取视觉单词,利用视觉单词确定每个目标的存在性以及位置,最后对每对目标的相对位置进行校验,判断位置关系是否符合要求。通过对比试验,本文证明了相对位置校验相比绝对位置方法的优越性。此外,本文还第一次提出将多样例图片搜索方法引入相似图片检索,将查询图片先粗分割成若干简单元素变成多样例图片,通过查找简单元素并进行相对位置校验,找到与之相似的图片。 (3)论文还提出了对视频序列的高效视觉索引方法。为了把视觉索引方法引入视频,论文提出了一种利用局部特征匹配进行视频的划分方法,把视频分割成几段可以用共享特征描述的场景。不同于传统的使用关键帧来索引视频,文章提出了对于每个场景提取一个虚拟帧来描述其内容的方法。虚拟帧包含了少量场景内最稳定的特征,用更少的特征保存了尽可能多的视频信息。作者将虚拟帧与关键帧进行试验比较,证明了虚拟帧比关键帧在对视频的描述上具有更好的紧凑性和有效性,因此更适于对视频的视觉索引。 总而言之,本文从基于内容的角度出发,针对多模态输入、图像特征、多样例检索以及对视频的索引进行讨论,提出思考问题的新的角度和解决问题的新的方法。同时,本文也通过一些应用场景和实验验证了这些方法的可行性和有效性。
【学位授予单位】:中国科学技术大学
【学位级别】:博士
【学位授予年份】:2013
【分类号】:TP391.41

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 焦岩;王学军;;科技资源图像检索的探讨[J];电脑知识与技术(学术交流);2007年06期
2 刘海;朱小平;;可拓方法在图像检索的应用[J];现代计算机(专业版);2007年11期
3 李心玲;李春杰;;基于内容的图像检索技术[J];科技广场;2008年10期
4 牛一帆;成刚虎;;基于内容图像检索的关键技术研究[J];广东印刷;2007年04期
5 龚松春;;基于内容的图像检索技术综述[J];科技资讯;2008年03期
6 王鹏,蔡锐,杨士强;“文本为主”的多模态特征融合的新闻视频分类算法[J];清华大学学报(自然科学版);2005年04期
7 刘海;朱小平;夏明波;;一种基于可拓理论的图像检索方法[J];计算机系统应用;2009年03期
8 李兰兰,魏蛟龙;基于内容的图像检索在数字图书馆中的应用[J];中南民族大学学报(自然科学版);2003年04期
9 顾红飞;张佑生;江巨浪;;基于颜色布局的压缩图像检索研究[J];合肥工业大学学报(自然科学版);2006年01期
10 李恒杰;王建军;;Ontology与Agent在图像检索中的应用[J];甘肃联合大学学报(自然科学版);2007年03期
中国重要会议论文全文数据库 前10条
1 王宁;;严重脑血管病人的多模态监测[A];第二届中西医结合脑病诊治新进展高级研讨班专家讲义及论文汇编[C];2010年
2 梁胜;张春富;李彪;;干细胞追踪用PET/SPECT/MRI/Fluo多模态探针设计探讨[A];中华医学会第九次全国核医学学术会议论文摘要汇编[C];2011年
3 赵宬斐;黄丽萍;;浙江外来新居民的生活空间发展检视——以店口为例[A];“秩序与进步:浙江社会发展60年研究”理论研讨会暨2009浙江省社会学年会论文集[C];2009年
4 易绵竹;南振兴;李绍哲;薛恩奎;;文本生成与理解的语言学模拟——伊戈尔·梅里丘克《意思(?)文本》模型评介[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
5 李晓栋;胡清华;;汽轮机故障诊断文本支持系统的研究与建立[A];2004电站自动化信息化学术技术交流会议论文集[C];2004年
6 张弘;卢奕南;;基于内容的图像检索技术在医学领域中的应用[A];第七届青年学术会议论文集[C];2005年
7 胡洁;;浅谈习作教学中的“对话性格”[A];江苏省教育学会2005年小学语文优秀论文集[C];2005年
8 向良忠;邢达;杨思华;;光声肿瘤分子成像[A];第七届全国光生物学学术会议论文摘要集[C];2010年
9 郑海滨;代俊雅;乐小燕;;电影视觉特效制作技术的现状与发展趋势[A];全国数字媒体技术专业建设与人才培养研讨会论文集[C];2011年
10 韩世亮;;视觉影响力之于环保清洁产品的发展[A];第31届[2011]中国洗涤用品行业年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 砺岩;视觉形象识别系统正式投入使用[N];中国工商报;2010年
2 范宏国 程仕栋;神州视觉展峥嵘[N];人民日报海外版;2010年
3 上海纺织有限公司高级工程师 陈邦伟;橱窗陈列的视觉营销[N];中国纺织报;2011年
4 孙慨;2008中国摄影:在起伏中蓄聚力量[N];中国摄影报;2009年
5 李国敏;欧特克软件为《特种部队》装备震撼视觉武器[N];科技日报;2009年
6 本报记者 许泳;视觉标签:贴上就跑不掉![N];计算机世界;2010年
7 特约作者 红人氽氽;3D动作网游 激战2010[N];电脑报;2010年
8 通讯员 李慧 记者 王夏斐;2010杭州生活品质视觉点评摄影大赛揭晓[N];杭州日报;2010年
9 本报记者 丁磊;中科院启动产业造星计划[N];21世纪经济报道;2011年
10 本报记者 李云华;电影:远离百姓的“视觉盛宴”[N];宁夏日报;2008年
中国博士学位论文全文数据库 前10条
1 王洋;多模态图像检索技术[D];中国科学技术大学;2013年
2 张征;英语课堂多模态读写能力实证研究[D];山东大学;2011年
3 李洁;多模态脑电信号分析及脑机接口应用[D];上海交通大学;2009年
4 韦世奎;基于信息融合的多媒体内容搜索[D];北京交通大学;2010年
5 李晟;视觉假体装置模型建立及视觉信息处理研究[D];上海交通大学;2011年
6 江旻珊;先进眼科多模态成像技术研究[D];上海交通大学;2011年
7 刘海鹏;语言的视觉语义表征及其在场景自动描述系统中的应用研究[D];北京邮电大学;2011年
8 陈霄;基于视觉显著特征的目标检测方法研究[D];吉林大学;2013年
9 刘亚楠;多模态特征融合和变量选择的视频语义理解[D];浙江大学;2010年
10 张莹莹;自然刺激下小鸡视网膜神经节细胞群体放电活动时空特性的研究[D];上海交通大学;2011年
中国硕士学位论文全文数据库 前10条
1 张向静;图像中的意义与媒体的意识形态:西藏3.14事件新闻图像的多模态语篇分析[D];天津商业大学;2011年
2 崔燕;平面公益广告互动意义的多模态话语分析[D];山东大学;2010年
3 王璐瑶;隐喻视角下的广告多模态[D];南京大学;2011年
4 封晓瑞;多模态反射荧光实时共聚焦成像系统的研制[D];上海交通大学;2010年
5 胡珺;面向倒装芯片拾取的视觉系统设计与开发[D];上海交通大学;2010年
6 王雷;基于多源传感器的视觉合成增强技术研究[D];合肥工业大学;2010年
7 陈荫;上海世博会英文宣传片的多模态话语分析[D];山东师范大学;2011年
8 闫兆法;基于多模态粒子群优化的社会网络分析研究[D];大连理工大学;2010年
9 程琳;目标识别中视觉稳定性特征提取方法的研究[D];青岛科技大学;2010年
10 张峰;脑肿瘤多模态医学图像可视化研究及系统实现[D];浙江大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026