收藏本站
《南昌大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

服务机器人语音唇读人机交互技术研究

何俊  
【摘要】:本论文围绕助老助残服务机器人课题,以智能轮椅为平台,以语音唇读人机交互方式作为研究对象,重点对唇读识别问题作了深入研究。对日前唇读技术存在的问题作了分析,对各个关键环节提出了相应的解决思路,包括人脸检测和ROI(Region Of Interesting)定位方法、唇读特征提取算法、唇读识别模型以及语音唇读的融合算法,涌盖了语音唇读系统的全部过程。通过大量的实验和研究,我们取得了一些有意义的成果,所有研究成果都在特定人双模态数据库上得到了验证。最后,我们设计了一个实时在线语音唇读人机交互系统,该系统包括软件和硬件两部分,采用上下位机通讯的方式实现了对智能轮椅进行语音唇读控制。本论文的主要研究成果如下: 针对唇读人机交互中的人脸检测和ROI定位问题,首次提出了一种新颖的自适应ROI定位算法。该算法通过选择HSV颜色模型排除了照度分量,利用自适应算法克服了不同个体在肤色和唇色上的差异性,而且同时完成了人脸和ROI定位。为增强算法的鲁棒性,又在包含各色人种的Freret数据库上进行了算法验证。实验表明该算法总体性能指标优于其它ROI定位算法。 通过对现有各种唇读特征提取方法进行比较,首次提出了一种基于LDAO(Linear Discriminant Analysis based on Obiect)的唇读特征提取算法。在语音与唇读识别应用中传统的LDA(Linear Discriminant Analysis)算法一般以音节、HMM状态等基元为类别,获得的最具判别力的特征投影主轴和识别率不直接相关,影响了识别率。LDAO算法以待识别对象为类别进行线性判别分析,在理论上保证了唇读特征矢量向最具判别能力的主轴投影,基于唇读数据库的实验证明,该算法明显优于现有各种唇读特征提取算法。 针对HMM、ANN模型在模式分类中固有的缺陷,采用了基于支持向量机(Support Vector Machine,SVM)的唇读识别方法。SVM基于最小结构风险的分类原理,一方血解决了小样本下的模式分类问题,另一方面克服了传统HMM分类器诸多不合理的前提假设,从理论上来说,在有限的样本下SVM应该具有最优的分类性能。针对SVM在实际应用中有待解决的问题,如要求输入特征维数固定,这个条件极大地限制了其处理动态时间序列的能力,本文对现有的主要特征序列规整方法进行了实验比较。实验证明,在有限样本的情况下采用有效的特征规整方法后,SVM识别率优于传统的HMM。 关于语音唇读融合识别问题,提出了一种基于耦合隐马尔可夫模型(CoupledHide Markov Model,CHMM)的异步信息中期融合识别策略。该策略既考虑到了语音唇读信息在时间上的相关性,又解决了两个信息流之间的异步问题。为简化计算,通过限制信息流的状态数量和限制信息流之间的异步程度简化了模型结构。此外,将耦合HMM等效变换为一种双流HMM后,利用传统HMM的算法解决了耦合HMM训练与识别问题。在语音唇读双模态数据库上的实验证明,该算法优于同步早期融合法和同步双流HMM融合法。 最后,我们建立了国内首个孤立命令词语音、唇读人机实时交互系统,包括软件和硬件设计两部分。考虑到视频数据流的容量过大以及图像实时处理的要求,采用上下位分布式系统结构,上位机采用PC机完成语音、视频图像的采集以及运算,下位单片机实现对轮椅的控制。设计了完整的软件流程,并给出了硬件接口部分电路的设计方案,为今后唇读研究提供了一个实验平台。
【学位授予单位】:南昌大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP242.3

手机知网App
【引证文献】
中国期刊全文数据库 前2条
1 张毅;刘娇;罗元;;基于唇形的人机交互系统研究及其应用[J];计算机教育;2012年18期
2 张毅;刘娇;罗元;胡豁生;;基于唇形的智能轮椅人机交互[J];控制工程;2013年03期
【参考文献】
中国期刊全文数据库 前6条
1 史笑兴,顾明亮,王太君,何振亚;一种时间规整算法在神经网络语音识别中的应用[J];东南大学学报;1999年05期
2 战普明,王作英,陆大 ;语音识别隐马尔可夫模型的改进[J];电子学报;1994年01期
3 张建明,陶宏,王良民,詹永照,宋顺林;基于SVD的唇动视觉语音特征提取技术[J];江苏大学学报(自然科学版);2004年05期
4 何俊;张华;刘继忠;;基于耦合HMM的多传感异步信息融合分类策略[J];计算机应用研究;2009年08期
5 谢磊,冯伟,赵荣椿;一种基于MASM的口形轮廓特征提取方法及听视觉语音识别[J];西北工业大学学报;2004年05期
6 马晓川,刘冬,赵荣椿;孤立短语隐马尔可夫模型自动建模软件的实现[J];西北工业大学学报;1997年03期
【共引文献】
中国期刊全文数据库 前10条
1 王全凤;郑浩;;基于径向基函数神经网络的高层建筑结构选型[J];四川建筑科学研究;2010年05期
2 程一斌,汪松,任彬;利用弹簧模型提取物体轮廓[J];安徽大学学报(自然科学版);2001年02期
3 张根耀,李竹林,赵宗涛;遮挡情况下运动目标的跟踪[J];安徽大学学报(自然科学版);2003年03期
4 张坤,罗立民,舒华忠,杨芳;基于Level Set方法的Visible Human Being虚拟人图像处理[J];安徽大学学报(自然科学版);2005年04期
5 陈弋兰;王鸣;孙书诚;;朴素贝叶斯分类器的误差估计[J];安徽工程科技学院学报(自然科学版);2008年04期
6 张红涛;胡玉霞;张恒源;顾波;;储粮害虫图像识别中的特征压缩研究[J];安徽农业科学;2008年27期
7 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
8 张雪飞;;基于GVF模型的蔬果图像快速分割方法[J];安徽农业科学;2010年05期
9 管翠萍;;药物靶标G蛋白偶联受体的识别预测[J];安徽农业科学;2010年24期
10 张昭;何东健;;基于计算机视觉的竹块颜色分类方法研究[J];安徽农业科学;2010年26期
中国重要会议论文全文数据库 前10条
1 谭守标;霍剑青;郝建;王晓蒲;赵永飞;谢行恕;;高分辨率软X射线显微成像下细胞的自动提取?[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
3 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
4 刘志斌;金连文;;候选字静态生成技术及其在两级LDA汉字识别中的应用[A];第二十六届中国控制会议论文集[C];2007年
5 张彬;金连文;;基于AdaBoost的手写体汉字相似字符识别[A];第二十六届中国控制会议论文集[C];2007年
6 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
7 梁禹;王义刚;王娜;;基于支持向量机的电力电子电路故障诊断[A];第二十六届中国控制会议论文集[C];2007年
8 ;A Hardware-Accelerated Segmentation Algorithm for Moving Object Generation[A];第二十七届中国控制会议论文集[C];2008年
9 周佳男;;一种拓扑纹理图像的相位场模型分割算法[A];第二十七届中国控制会议论文集[C];2008年
10 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 黄湘松;基于混淆网络的汉语语音检索技术研究[D];哈尔滨工程大学;2010年
3 王兴梅;水下声纳图像的MRF目标检测与水平集的轮廓提取方法研究[D];哈尔滨工程大学;2010年
4 梁洪;基于内容的医学图像检索及语义建模关键技术研究[D];哈尔滨工程大学;2010年
5 任桢;图像分类任务的关键技术研究[D];哈尔滨工程大学;2010年
6 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
7 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
8 乔小燕;基于生物形态学的赤潮藻显微图像分割与特征提取研究[D];中国海洋大学;2010年
9 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
10 韩守东;纹理建模与图切分优化方法研究[D];华中科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 孙涛;基于DR骨密度分析系统的研究[D];南京医科大学;2010年
2 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
3 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
4 刘甲玉;基于ARM的图像采集与无线传输技术的研究[D];安徽工程大学;2010年
5 代宏伟;布里渊散射水下探测目标的自动识别[D];南昌航空大学;2010年
6 廖甜甜;白细胞图像语义识别分类的研究[D];南昌航空大学;2010年
7 赵永刚;图像检索中形状描述和匹配算法研究[D];南昌航空大学;2010年
8 黄正荣;基于振动波的高速公路车辆行驶状态辨识理论研究[D];南昌航空大学;2010年
9 刘棉;人机划拳系统的实现[D];山东科技大学;2010年
10 刘桂珍;颅骨三维重建与信息提取[D];山东科技大学;2010年
【同被引文献】
中国期刊全文数据库 前4条
1 梁亚玲;杜明辉;;基于DCT和ONPP的唇部特征提取[J];计算机科学;2011年05期
2 朱海洲;贾银山;;基于支持向量机的遥感图像分类研究[J];科学技术与工程;2010年15期
3 李建武;陆耀;;一种快速多分类支持向量机实现策略[J];模式识别与人工智能;2007年03期
4 林升梁;刘志;;一种多分类支持向量机在胎盘图像分级中的应用[J];计算机系统应用;2007年08期
【二级参考文献】
中国期刊全文数据库 前4条
1 姚鸿勋,吕雅娟,高文;基于色度分析的唇动特征提取与识别[J];电子学报;2002年02期
2 王瑞,高文,马继涌;一种快速、鲁棒的唇动检测与定位方法[J];计算机学报;2001年08期
3 王良民,张建明,詹永照,宋顺林;人脸检测研究现状和发展[J];江苏大学学报(自然科学版);2003年03期
4 洪子泉;杨静宇;;用于图象识别的图象代数特征抽取[J];自动化学报;1992年02期
【相似文献】
中国期刊全文数据库 前10条
1 徐铭辉,姚鸿勋;基于句子级的唇语识别技术[J];计算机工程与应用;2005年08期
2 姚鸿勋,高文,王瑞,郎咸波;视觉语言——唇读综述[J];电子学报;2001年02期
3 单卫,姚鸿勋,高文;唇读中序列口型的分类[J];中文信息学报;2002年01期
4 洪晓鹏,姚鸿勋,徐铭辉;基于句子级的唇读语料库及其切分算法[J];计算机工程与应用;2005年03期
5 鹿佳;姚鸿勋;;改进AdaBoost对基于HMM的唇读系统识别率的提高[J];哈尔滨商业大学学报(自然科学版);2005年05期
6 姚鸿勋,高文,李静梅,吕雅娟,王瑞;用于口型识别的实时唇定位方法[J];软件学报;2000年08期
7 奉小慧;;基于改进的level set嘴唇轮廓定位方法[J];计算机应用;2009年01期
8 杨冬涛;罗聪;龚昌来;;基于唇色信息的唇部检测方法研究[J];嘉应学院学报;2010年11期
9 何俊;张华;刘继忠;;在DCT域进行LDA的唇读特征提取方法[J];计算机工程与应用;2009年32期
10 赵燕燕;王丽荣;;唇读技术及其最新发展研究概述[J];长春大学学报;2007年10期
中国重要会议论文全文数据库 前10条
1 何俊;张华;;一种唇读嘴唇的实时检测方法[A];第二十六届中国控制会议论文集[C];2007年
2 徐铭辉;姚鸿勋;;唇读及其在生物特征识别中的作用[A];第一届中国情感计算及智能交互学术会议论文集[C];2003年
3 单卫;姚鸿勋;高文;;唇读中序列口型的分类[A];第六届全国人机语音通讯学术会议论文集[C];2001年
4 高文;王瑞;姚鸿勋;;唇读和语音融合识别系统设计[A];第五届全国人机语音通讯学术会议论文集[C];1998年
5 雷江华;;助听器对听障学生唇读汉字语音认知的作用研究[A];第十届全国心理学学术大会论文摘要集[C];2005年
6 姚鸿勋;王晶;山世光;张洪明;王瑞;;唇读系统中的话者唇定位与跟踪[A];第五届全国人机语音通讯学术会议论文集[C];1998年
7 王晓平;付德刚;袁春伟;;一种面向唇读的彩色人脸图像唇部定位方法[A];第十三届全国图象图形学学术会议论文集[C];2006年
8 梁亚玲;杜明辉;;基于DT-CWT和LBP的唇部特征提取方法[A];第十五届全国图象图形学学术会议论文集[C];2010年
9 李永新;梁爽;陈雪清;郑军;龚树生;韩德民;;384例人工耳蜗植入术后随访研究[A];2010全国耳鼻咽喉头颈外科中青年学术会议论文汇编[C];2010年
10 李皓;赵晖;张权;唐朝京;;一种唇部自动跟踪及检测系统的设计与实现[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
中国重要报纸全文数据库 前3条
1 宋国梵 周建莹;聋人有望用上国产人工耳蜗[N];健康报;2005年
2 仇逸 周建莹;国产电子耳蜗进入产业化[N];大众卫生报;2005年
3 中科院研究生院常务副院长 高文教授;人机交互 营造人机和谐[N];中国计算机报;2002年
中国博士学位论文全文数据库 前5条
1 梁亚玲;基于单视觉通道唇读系统的研究[D];华南理工大学;2011年
2 何俊;服务机器人语音唇读人机交互技术研究[D];南昌大学;2009年
3 雷江华;听觉障碍学生唇读汉字语音识别的实验研究[D];华东师范大学;2006年
4 马继勇;手语理解的统计模型研究[D];中国科学院研究生院(计算技术研究所);2001年
5 杨蔚;湘西乡话音韵研究[D];暨南大学;2004年
中国硕士学位论文全文数据库 前10条
1 李新;唇读识别系统的研究与实现[D];华北电力大学(北京);2011年
2 杨帆;基于动静态多源特征选取、对齐与融合的唇读方法[D];哈尔滨工业大学;2010年
3 李硕;基于头戴式摄像机的唇读特征提取与识别[D];北京理工大学;2010年
4 汪斯斯;语音编码在听障大学生唇读不同形态汉语元音识别中的作用[D];华中师范大学;2011年
5 张海波;基于DHMM的视觉语言识别[D];吉林大学;2010年
6 姚文娟;基于视频的唇部定位和序列切分算法的研究[D];华南理工大学;2011年
7 解国明;唇读技术的研究及其应用[D];天津大学;2005年
8 杨阳;唇读应用中唇部信息的定位跟踪与特征提取技术研究[D];吉林大学;2009年
9 万玉奇;提高唇读理解的关键技术研究[D];哈尔滨工业大学;2007年
10 钱声鹏;口型识别若干技术研究[D];华北电力大学(北京);2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026