收藏本站
《华南理工大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度表征的视觉理解关键技术研究

王景文  
【摘要】:人脑感知的信息大部分来自视觉,因此人工智能的一个重要课题是:使计算机学会“看见”周围的世界,获得人类所需要的知识。视觉理解的研究旨在使计算机具备人类般理解视觉信号中传达的语义信息的能力。近年来,图像、视频等视觉数据的增长速度之快前所未有,深度学习更是有力地推动了计算机视觉领域的发展,这使得海量视觉数据的自动分析成为可能。如今,基于深度学习的视觉表征(简称为深度表征)已经在众多的视觉理解任务中表现出了令人瞩目的性能。本论文工作围绕着基于深度表征的视觉理解,对以下三方面展开研究:(1)图像情感识别,涉及视觉理解中的语义类别信息,其主要任务是识别出一张图像所传达出的人类情感。目前,图像情感识别存在的主要挑战有:类内差异大,不同对象不同场景均可能表达相似的情感;细粒度识别困难,同一对象或场景可能表达不同的情感类别;许多模型依赖于形容词名词对,而这个标签实际上常常缺失。(2)时序行为定位,涉及视觉理解中的语义对象的边界信息,其主要任务是在时间维度上定位出一个长视频中所有发生的行为,并给出行为发生的起止时间。时序行为定位需要对视频中发生的事件进行定位,现有的方法要么采用约束了事件时长的滑动窗口方法,要么采用单向单流法而忽视了行为发生的下文信息。(3)视频密集描述,涉及视觉理解中的语义描述信息,其在时序行为定位任务的基础上,对定位出的行为或事件进行文字描述。现有方法的主要问题是无法区分出高度重叠事件,且对被检测事件的表征能力低下。针对以上问题,本文分别开展了细致的研究工作。本文的主要贡献总结如下:1.本文提出了一种新颖的端到端的图像情感识别方法,构建了中层语义表达,以缩小所谓的“语义鸿沟”。该中层语义表达由分离的形容词和名词检索词作为监督信号。相比于现有的方法,本文所提出的方法能同时解决图像情感识别中存在的三大挑战:类内差异大、细粒度识别以及可拓展性问题。本文在SentiBank、Twitter等主流数据集上验证了所提出方法的有效性,取得了一流的性能。2.本文提出了一种双向单流时序行为定位方法,通过前向过程、后向过程以及融合过程,同时利用了视频中行为的过去和未来信息来辅助行为的定位过程。相比于对比的方法,所提出的方法能够同时利用行为的完整上下文,不会丢失有用的未来信息。在当前规模最大的数据集THUMOS-14、ActivityNet Captions上的实验结果表明,所提出的方法相比其它方法有明显的性能提升,取得了先进的效果。3.针对视频密集描述任务,本文提出一种新颖的事件融合机制。该事件融合机制包含两个主要的模块:双向注意力融合,以及上下文门控。前者动态地整合视频密集描述任务中所检测到的事件及其上下文信息,让神经网络在描述视频视觉内容的过程中动态地找到视频的关键帧。后者通过所设计的门控操作,在生成视频描述的过程中对视频中检测出的事件及其上下文进行动态加权,学习在描述过程中以多大程度来利用事件的上下文。所提出的方法有效地改善了对事件的表征能力。所提出的方法在ActivityNet Captions大规模公开数据集上达到了一流的性能,远远超过了其它方法。4.针对视频密集描述任务,本文提出了一种联合排序方法,定量地衡量一个密集描述系统具备高性能的必要条件,即定位和描述应该同时具有高置信度。本文分别提出对应的置信度衡量方法,并通过排序方法来选择高置信度的输出,从而改善了密集描述系统的性能。
【学位授予单位】:华南理工大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP391.41

手机知网App
【参考文献】
中国硕士学位论文全文数据库 前1条
1 庞勃;大数据环境下的人体活动识别与检索[D];电子科技大学;2014年
【共引文献】
中国硕士学位论文全文数据库 前1条
1 许潇民;基于惯性传感器和智能手机的室内定位与导航算法研究[D];北京工业大学;2017年
【相似文献】
中国期刊全文数据库 前10条
1 祁宝昌;;可调深度表[J];机械工人.冷加工;1981年10期
2 端木夏;这篇新闻有深度[J];新闻界;2002年03期
3 白琼英,李红;儿童绘画中深度表征的研究进展[J];心理科学;2002年01期
4 赵良,张会娴;深度测量装置[J];机械工人.冷加工;1997年07期
5 CSK;你看到的仅仅是假象——追踪立体图是如何制成的[J];电脑爱好者;2005年22期
6 乐少少;;探险者生死选择录[J];小哥白尼(趣味科学画报);2016年03期
7 高海云;;向课堂更深处漫溯[J];课外语文;2016年18期
8 ;消防潜水救援装备[J];安防科技;2013年06期
9 梁健健;姚胜彪;林同立;;不同耕作地表土剥离再利用研究[J];农业与技术;2017年22期
10 魏铁生;;介绍一种新型高深度表——兼谈地图上陆高与海深的表示[J];地图;1990年03期
中国博士学位论文全文数据库 前1条
1 王景文;基于深度表征的视觉理解关键技术研究[D];华南理工大学;2018年
中国硕士学位论文全文数据库 前2条
1 邹琼;中小学生自我表露特点的发展研究[D];华东师范大学;2007年
2 薛成龙;基于深度表征的网络异常检测模型研究[D];哈尔滨工业大学;2014年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026