收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

语言的视觉语义表征及其在场景自动描述系统中的应用研究

刘海鹏  
【摘要】:词汇语义分析在自然语言处理中具有重要位置,已有的大多数词汇语义理论和分析技术中对语义的表示都建立在词汇关系的基础上,简单地说,就是用一组词来解释另一组词。这种方式在机器翻译,问答系统等很多领域中都得到了应用,但是在另一些应用中显得无能为力。比如,为图像生成语言描述,涉及实际情境对象的人机交互等。其主要问题就在于,语言没有和实际感知相关联。为连接语言和感知所出现的一个新的研究趋势是模仿人类的语言习得机制,构建基于各种感知信息的语言习得和计算模型。其中尤以视觉认知和语言认知在习得过程中的互动关系受到广泛关注。这一任务可称之为“基于视觉信息的语言习得”(vision grounded language acquisition)。该类研究将原有的基于语言表示语言意义的单一模态扩展到基于视觉信息进行语言意义表示,从而把语言概念和感知信息进行关联,实现基于实际情境对象的人机交互。 另一方面,随着计算机技术和互联网的迅猛发展,各类文档、图像、视频等多媒体信息的增长十分迅猛,利用计算机来处理这些海量式的非结构信息的需求也变得越来越迫切。在这样一个背景下,本文主要针对视觉信息与语言信息的关联过程,表征方式与习得方法展开研究,主要的工作及创新包括以下几个方面: 1.静态词类的视觉特征与语言词汇的关联研究 名词,形容词作为在人类语言习得过程中首先被习得的词汇,具有直接指代外部世界实体感知特征的性质,其视觉信息可由静态的图像所包涵,因此可被认为属于静态词类。本文对静态词类的语义习得研究,主要通过构建计算模型ViMac,实现图像的视觉特征和描述词汇之间的自动关联。ViMac的习得可分为四步:双通道信息的预处理,基于Hellinger距离的语义关联度矢量计算,基于混合度量的词聚类,基于多维Hellinger距离的视觉特征选择。通过上述四个模块实现视觉特征和语言词汇由底层到高层的对应。在上述模块中,对视觉特征分布距离的度量选择是影响学习效果的关键。为此我们比较了Kullback-Liebler距离和Hellinger距离的单维和多维形式在语义关联度矢量计算以及视觉特征选择中的不同效果。实验结果证明,Helliner距离可以显著的改善静态词类的视觉特征与词汇关联的结果。 2.静态词类视觉语义表征方案与语言输出算法的研究 静态词汇与视觉特征直接关联后,词汇语义在视觉空间中可有不同的表征形式。当ViMac对图像生成语言描述时,这些视觉语义表征形式对输出算法和输出性能有着不同程度的影响。基于此,本文提出并研究了针对静态词类的三种视觉语义表征方案:分别是基于高斯模型的视觉语义表征,基于K近邻算法的视觉语义表征和基于核心成分的视觉语义表征。其中,基于核心成分的视觉语义表征借鉴了人类表征语义时的使用语义中心与边缘的特性,基于此设计了复合词生成算法。该算法可生成训练数据中未学习到的复合词,从而在评测时对新的视觉场景也可生成相应的语言描述,克服训练语料稀疏性。输出语句的自动评测采用BLEU技术,对基于三种语义表征的语言输出算法的进行对比表明,复合词算法能够生成在预定义词集中未能习得的新词,克服训练语料在标注中存在的主观差异性,提高输出算法的计算效率,因此在整体性能上优于其他两种算法。同时,对复合词算法本身的实验研究也揭示了人类在核心词与复合词使用上的不同规律。 3.动态词类的视觉语义表征研究 动词作为人类语言习得过程中后习得的词汇,具有一定的复杂性,其意义的解释需要名词、副词等基础词的参与。其语义多指代一个动作事件,可包涵于动态的视频中,因此我们将其归属于动态词类。针对动词的这些特性,本文首先从语言学上基于框架语言学规定动词语义表达的结构,包含框架和论元两部分。其中框架是用来组织情境知识的认知结构,而论元则被框架支配来实现对具体情境的描述。基于该动词语义定义构建基于视频信息的动词语义习得模型ViMac-V。 ViMac-V的视觉通道信息和语言通道信息均要复杂于静态词类习得模型ViMac,尤其是在对语言通道信息的框架和论元提取工作上。ViMac-V首先采用视觉特征与词共现的方法进行分类基础词的选择,再基于词性与最小编辑距离的词度量进行论元词类的划分。在得到各组论元词类的基础上,利用二元语法模型进行动词框架的提取。实验证明了ViMac-V对框架和论元成分提取的有效性,共习得有关7个动词的5组框架和4组论元词类(62个论元词汇)。 4.动态词类语义表征与视频信息的关联研究 在ViMac-V中,动词语义与视频信息的关联主要通过构建自组织神经网络组来实现。其中,基于学习矢量量化的框架激活机制将视频所凸显的认知视角与动词框架相关联;而对论元词汇则通过SOM网络训练,神经元聚类和语言概念习得将其在视觉空间中实现范畴化。范畴化后的SOM网络连接了高维视频特征分布和论元词汇,再通过框架支配各个SOM子网络联结为不同的形式,组成不同的动词视觉语义。完成的ViMac-V模型被部署在MT-AR型机器人平台上。采用摄像头和语音输出来扩展ViMac-V的视觉和语言感知能力。同时还设计了基于框架与论元共现率的动词输出选择算法,用来生成更贴近视频场景的自然语言描述。在对真实动态场景的描述语言输出实验结果表明,ViMac-V所习得的动词语义表征可以对真实场景下的小球运动事件生成正确的自然语言描述。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王瑞芳,程晓舫;一种新型的视觉系统——原理和概念设计[J];光学技术;2001年05期
2 徐菁睛;;“视觉音乐”全球总动员[J];多媒体世界;2007年01期
3 刘俊鲜;;多媒体环境中的音乐教学探索[J];广东广播电视大学学报;2007年06期
4 杨雪荣;张湘伟;成思源;黄曼慧;;实物表面数字化技术研究进展[J];机床与液压;2008年08期
5 胡丹;邱模庆;;电视新闻现场报道的动作视觉之美——以北京奥运直播为例[J];新闻界;2008年04期
6 罗国昭;;海尔电脑推出首款视觉PC[J];新电脑;2008年08期
7 梁富伟;;多媒体视听教材制作中素材组接探析[J];现代教育技术;2009年S1期
8 许增朴,于德敏;光-象平面自动标定方法的研究——用于三维计算机视觉系统[J];天津科技大学学报;1993年S1期
9 唐国维,王东,刘显德,李永树,何明革;基于统计测试的道路图象边界提取方法[J];大庆石油学院学报;1999年03期
10 李允明;;国外仿人机器人发展概况[J];机器人;2005年06期
11 王卫星;崔冰;赵芳;;金属矿山数字化[J];金属矿山;2005年11期
12 左森;郭晓松;万敬;郭君斌;;一种导航线快速检测算法[J];计算机工程;2007年04期
13 夏长念;吴超;刘晓明;;应用人机工程学原理制作Powerpoint[J];现代教育技术;2007年04期
14 陈艳欢;;论新时期档案馆形象设计[J];兰台世界;2007年10期
15 钱震;;多媒体教学系统检测方法与标准的制订[J];甘肃科技纵横;2009年01期
16 秦丽娟;胡玉兰;魏英姿;王红;;一种基于平面四边形的视觉定位算法[J];沈阳理工大学学报;2009年02期
17 徐澄;;先天耳聋者有“超级视觉”[J];记者观察(下半月);2011年05期
18 郑贱德;;视觉新闻及其写作[J];衡阳师范学院学报;1987年04期
19 顾嗣扬;施鹏飞;李介谷;;一种基于直线Hough变换的识别曲线及参数估计方法[J];模式识别与人工智能;1994年01期
20 陈振宇,程耿东,郭成安;基于图形拓扑特征的工程图整体识别方法[J];计算机工程与科学;2000年01期
中国重要会议论文全文数据库 前10条
1 郑海滨;代俊雅;乐小燕;;电影视觉特效制作技术的现状与发展趋势[A];全国数字媒体技术专业建设与人才培养研讨会论文集[C];2011年
2 韩世亮;;视觉影响力之于环保清洁产品的发展[A];第31届[2011]中国洗涤用品行业年会论文集[C];2011年
3 朱明清;赵宇宙;王智灵;陈宗海;;人类视觉智能启发的粒子滤波视觉目标跟踪算法[A];第13届中国系统仿真技术及其应用学术年会论文集[C];2011年
4 刘松;;电影视觉特效的前期——全新电影视觉特效的前期拍摄理念和技巧[A];2011中国电影电视技术学会影视技术文集[C];2011年
5 杨冰莹;;作为仿像的卡通与作为卡通的艺术[A];中央美术学院青年艺术批评奖获奖论文集(2011年)[C];2012年
6 崔玉路;蒋冬梅;张晓静;谢磊;付中华;Ping Fan;Hichem Sahli;;基于三特征流DBN模型的听视觉情感识别[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
7 刘中杰;曹云峰;王西超;;基于视觉的无人作战飞机着陆系统研究[A];2009年先进光学技术及其应用研讨会论文集(上册)[C];2009年
8 刘志华;金志成;;分散注意条件下的视觉特征捆绑研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
9 周航;阮秋琦;;基于ROI分割的视觉相干映射手势跟踪[A];第十一届全国信号处理学术年会(CCSP-2003)论文集[C];2003年
10 韩子仲;;象与像——物象的存在与显现[A];2010青年艺术批评奖获奖论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 刘海鹏;语言的视觉语义表征及其在场景自动描述系统中的应用研究[D];北京邮电大学;2011年
2 李晟;视觉假体装置模型建立及视觉信息处理研究[D];上海交通大学;2011年
3 张莹莹;自然刺激下小鸡视网膜神经节细胞群体放电活动时空特性的研究[D];上海交通大学;2011年
4 姚其;民机驾驶舱LED照明工效研究[D];复旦大学;2012年
5 周文罡;基于局部特征的视觉上下文分析及其应用[D];中国科学技术大学;2011年
6 蒋萍;融合机器人视/嗅觉信息的气体泄漏源定位[D];天津大学;2010年
7 谢妤婵;视觉目标识别与三维定位关键技术的研究[D];天津大学;2009年
8 崔翔宇;表面特征线索在客体保持中的作用[D];浙江大学;2010年
9 张祥合;复杂场景中目标识别与分类的仿生原理和方法[D];吉林大学;2012年
10 蒋鹏;基于语义的视频内容提取与分析关键技术研究[D];南京航空航天大学;2009年
中国硕士学位论文全文数据库 前10条
1 胡珺;面向倒装芯片拾取的视觉系统设计与开发[D];上海交通大学;2010年
2 王雷;基于多源传感器的视觉合成增强技术研究[D];合肥工业大学;2010年
3 程琳;目标识别中视觉稳定性特征提取方法的研究[D];青岛科技大学;2010年
4 高洁;性别视野下的目光政治[D];复旦大学;2010年
5 李华峰;当代“图像模拟”话语的结构与传达[D];吉林大学;2010年
6 向永嘉;行星无人探测车视觉系统算法的研究[D];湖南大学;2010年
7 卢文玉;基于视觉的车辆防撞预警研究[D];南京航空航天大学;2011年
8 苏力健;CI设计的“漫画风”[D];南京艺术学院;2010年
9 崔赫;基于视知觉图底关系的建筑外立面形式构成研究[D];浙江大学;2011年
10 李广雯;环境艺术中传统造型元素应用研究[D];重庆大学;2010年
中国重要报纸全文数据库 前10条
1 砺岩;视觉形象识别系统正式投入使用[N];中国工商报;2010年
2 范宏国 程仕栋;神州视觉展峥嵘[N];人民日报海外版;2010年
3 上海纺织有限公司高级工程师 陈邦伟;橱窗陈列的视觉营销[N];中国纺织报;2011年
4 孙慨;2008中国摄影:在起伏中蓄聚力量[N];中国摄影报;2009年
5 李国敏;欧特克软件为《特种部队》装备震撼视觉武器[N];科技日报;2009年
6 本报记者 许泳;视觉标签:贴上就跑不掉![N];计算机世界;2010年
7 特约作者 红人氽氽;3D动作网游 激战2010[N];电脑报;2010年
8 通讯员 李慧 记者 王夏斐;2010杭州生活品质视觉点评摄影大赛揭晓[N];杭州日报;2010年
9 本报记者 丁磊;中科院启动产业造星计划[N];21世纪经济报道;2011年
10 本报记者 李云华;电影:远离百姓的“视觉盛宴”[N];宁夏日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978