收藏本站
《上海交通大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

可移植的稳健口语理解方法研究

吴尉林  
【摘要】: 口语对话系统(Spoken Dialogue System)的研究具有很强的理论意义和实际价值。口语理解(Spoken Language Understanding)是实现口语对话系统的关键技术之一。目前,口语理解主要面临两方面的挑战: 稳健性(robustness),因为语音识别难免有错误,而且口语本身也往往是病态和不合语法的。 可移植性(portability),当前对话系统中口语理解模块的开发往往需要大量手工工作(例如语义语法的编写),这构成了口语对话系统开发的主要瓶颈之一。因此,要缩短口语理解模块的开发周期、减少开发成本以及增强可移植性,关键是如何减少对手工工作的依赖,从而使整个开发过程自动化。 本文提出了一种新的可移植的稳健口语理解方法。该方法基本上是数据驱动(data-driven)的,只需要简单标记的数据,这样保证了良好的可移植性。它能对口语进行深层理解,同时也能保持稳健性。论文的主要工作和创新点包括: 本文提出了一个基于两阶段分类的口语理解框架。首先,第一阶段的分类器用来识别用户输入语句的主题,即主题分类(Topic Classi-fication)。接下来,识别的主题可用于帮助第二阶段的分类器抽取相应的语义槽/值对,即语义槽分类(Semantic Slot Classfication)。这两种分类器是可以自动学习的,而且只需要简单标记的训练数据。该框架既能保证对输入语句的深层理解,也能保持稳健性。 利用一个稳健的基于图算法的局部分析器来对用户输入语句进行预处理。该局部分析器具有跳跃词和规则符的能力,这样从底层就保证了系统的稳健性。同时,为了避免跳跃能力带来的副作用,引入了内置的机器学习系统来进行剪枝和消歧。预处理使得数据标记形式更简单,能给主题分类提供深层的特征,还能减少语义槽分类器的数目。 对于主题分类,考察了可用于主题分类的各种特征并且比较了它们的分类能力,并且利用多分类器相结合的方法来提高主题分类的精度。对于语义槽分类,把它建模为分类问题:首先利用文字上下文进行初始语义槽分类,然后检查语义槽的一致性,如有必要,再利用语义槽上下文进行重分类以纠正错误。本文比较了两种语义槽分类算法,即决策表和Winnow算法。 为了进一步地减轻手工标记数据的工作,研究了上述两种分类器的弱监督训练方法:(1)采用了结合主动学习(active learning)和半监督学习(semi-supervised learning)来训练主题分类器的方法;(2)提出了一种实际的bootstrapping方法来训练语义槽分类器。这两种手段使得两阶段分类模型的训练只需要少量标记数据,而能利用较多的未标记数据来提高性能。 最后,分别在两个不同领域和语种的语料库上对本文所提出的方法进行了实验验证。实验结果表明,本文方法在性能上优于已有的基于规则的方法,而跟其他新的数据驱动方法相当,但是能大大减少开发成本。
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.42

知网文化
【引证文献】
中国期刊全文数据库 前1条
1 郭书杰;黄明;梁旭;;陪护机器人口语对话系统设计与实现[J];网络安全技术与应用;2010年12期
【参考文献】
中国期刊全文数据库 前3条
1 吴尉林;成长生;徐良贤;陆汝占;;Anchor-based English-Chinese Bilingual Chunk Alignment Model[J];Journal of DongHua University;2005年02期
2 冯俊兰,杜利民;人机口语对话技术[J];电子科技导报;1999年09期
3 黄寅飞,郑方,燕鹏举,徐明星,吴文虎;校园导航系统Easy Nav的设计与实现[J];中文信息学报;2001年04期
【共引文献】
中国期刊全文数据库 前10条
1 潘娣;;机器翻译的利弊以及发展前景[J];安徽文学(下半月);2008年09期
2 吕学强,迟呈英;英文光学字符识别的后处理[J];鞍山钢铁学院学报;2002年03期
3 赵悦;穆志纯;董洁;付冬梅;何伟;;基于QBC主动学习方法建立电信客户信用风险等级评估模型[J];北京科技大学学报;2007年04期
4 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
5 骆正华,樊孝忠,刘林,龚永罡;基于E-Chunk的问句实例分析系统[J];北京理工大学学报;2005年01期
6 ;ONLINE REGULARIZED GENERALIZED GRADIENT CLASSIFICATION ALGORITHMS[J];Analysis in Theory and Applications;2010年03期
7 薛冰;郭晓松;蒲鹏程;;人脸识别技术综述[J];四川兵工学报;2010年07期
8 任大伟;胡正平;高文涛;;基于样本不同属性综合的鲁棒偏倚赖主动学习分类算法研究[J];燕山大学学报;2011年01期
9 肖仁耀;肖昕;;神经网络在提高锂离子电池检测精度中的研究[J];电子工业专用设备;2009年09期
10 寇继虹;楼雯;;基于知识图谱的E-learning研究的可视化分析[J];电化教育研究;2011年09期
中国重要会议论文全文数据库 前10条
1 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
3 姜晓军;程卫东;;神经网络训练样本选取与优化的研究[A];第十七届全国测控计量仪器仪表学术年会(MCMI'2007)论文集(下册)[C];2007年
4 ;COLLABORATIVE FILTERING RECOMMENDATION ALGORITHM BASED ON LOOK-AHEAD SELECTIVE SAMPLING[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
5 黄寅飞;郑方;苏毅;李芳;吴文虎;;口语对话系统EasyNav中的语义表示[A];第六届全国人机语音通讯学术会议论文集[C];2001年
6 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 潘文锋;王斌;于满泉;谭松波;;Winnow算法在垃圾邮件过滤中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 高倩倩;李成荣;;语音聊天机器人中的对话管理技术研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
9 赵纪元;李晗静;赵铁军;;汉语空间关系中射体识别问题的研究与分析[A];第三届学生计算语言学研讨会论文集[C];2006年
10 王会珍;张希娟;朱靖波;张斌;;基于主动学习的自适应话题追踪[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 李全彬;非约束环境下人脸识别关键技术的研究与应用[D];华东师范大学;2011年
5 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
6 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
7 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年
8 刘君;融合计算智能的蛋白质结构预测研究[D];重庆大学;2011年
9 杨艳屏;主动学习算法及其在心血管疾病诊断中的应用研究[D];华中科技大学;2010年
10 姚拓中;结合主动学习的视觉场景理解[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 平金玉;基于组合核与主动学习的蛋白质交互关系抽取[D];大连理工大学;2010年
2 张丽;无标注自学习反垃圾邮件服务的研究[D];中国海洋大学;2010年
3 尹方园;“VA”动结式表层语义分析[D];湘潭大学;2010年
4 梁延峰;基于专家委员会的主动学习算法研究[D];中国海洋大学;2010年
5 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
6 张庆久;近邻法与多视角学习的理论与算法研究[D];华东师范大学;2011年
7 杨朝玉;基于知网的受限域问答系统原型的设计与实现[D];华南理工大学;2010年
8 丁朋;凸优化在大规模机器学习中的应用[D];华东理工大学;2011年
9 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
10 李英伟;基于增量改进贝叶斯领域问句分类研究[D];昆明理工大学;2009年
【同被引文献】
中国期刊全文数据库 前3条
1 周法国;杨炳儒;;句子相似度计算新方法及在问答系统中的应用[J];计算机工程与应用;2008年01期
2 裴婧;包宏;;汉语句子相似度计算在FAQ中的应用[J];计算机工程;2009年17期
3 闫宏飞,陈翀;词汇与中心词的距离信息对问句相似度匹配的影响[J];清华大学学报(自然科学版);2005年S1期
中国硕士学位论文全文数据库 前2条
1 王彬;汉语人机对话系统中口语处理的研究[D];清华大学;2004年
2 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
【二级引证文献】
中国期刊全文数据库 前1条
1 彭展;;三种不同类型语音对话系统的分析与研究[J];现代计算机;2013年15期
【二级参考文献】
中国期刊全文数据库 前1条
1 周强,俞士汶;汉语短语标注标记集的确定[J];中文信息学报;1996年04期
【相似文献】
中国期刊全文数据库 前10条
1 徐昉,邱道尹,沈宪章;粮仓害虫的特征提取与分类的研究[J];郑州工业大学学报;2000年04期
2 徐科,徐金梧,班晓娟;冷轧带钢表面质量自动监测系统的模式识别方法研究[J];钢铁;2002年06期
3 王勇;李战怀;张阳;;未知真实类标记条件下数据流中的变化发现方法[J];西北工业大学学报;2006年02期
4 张若琳;万力;张发旺;石迎春;;土地利用遥感分类方法研究进展[J];南水北调与水利科技;2006年02期
5 毕晓冬;;基于流分类技术的MPLS协议数据转发研究[J];山东师范大学学报(自然科学版);2006年02期
6 高志森;张铮;李俊;;入侵检测中贝叶斯分类器改进的研究[J];计算机技术与发展;2006年11期
7 王晓东;丁冬花;;实时车辆检测和跟踪系统设计[J];微计算机信息;2006年32期
8 董立岩;刘光远;苑森淼;李永丽;孙铭会;;混合式朴素贝叶斯分类模型[J];吉林大学学报(信息科学版);2007年01期
9 刘慧婷;倪志伟;李建洋;刘政怡;;基于交叉覆盖算法的时间序列模式匹配[J];计算机应用;2007年02期
10 方俊;赵英良;李明钧;;静态手写签名验证技术综述[J];绍兴文理学院学报(自然科学版);2007年01期
中国重要会议论文全文数据库 前10条
1 穆明生;;基于特征集的多种分类器模型的在线笔迹认证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
2 朱思俞;石锋;;不定人连续汉语音的四声识别[A];第二届全国人机语音通讯学术会议论文集[C];1992年
3 邵小健;段华;贺国平;;一种改进的最少核分类器[A];中国运筹学会第七届学术交流会论文集(上卷)[C];2004年
4 徐蔚然;于武贵;郭军;;基于统计方法的混排文字切分与分类[A];第八届全国汉字识别学术会议论文集[C];2002年
5 雷蕾;吴乃君;刘鹏;刘兰娟;;灵敏度分析:分类器中的缺失数据[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
6 陈颖颖;张雁军;贾鑫;;通信信号调制识别方法[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
7 李刚;郭崇慧;林鸿飞;杨志豪;唐焕文;;基于词典法和机器学习法相结合的蛋白质名识别[A];大连理工大学生物医学工程学术论文集(第2卷)[C];2005年
8 肖惠玲;曾翎;黄海莹;张琳;王昱清;杨勤;陈华富;;支持向量机探测脑功能活动[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
9 沈钱波;何加铭;;连笔手写识别搜索算法研究[A];浙江省电子学会2008年学术年会论文集[C];2008年
10 叶强;李一军;;基于支持度-显著度的关联规则分类方法研究[A];管理科学与系统科学研究新进展——第8届全国青年管理科学与系统科学学术会议论文集[C];2005年
中国重要报纸全文数据库 前10条
1 黄明;精子分类器决定生男生女[N];广东科技报;2000年
2 CPW 张戈;Aperto PacketMAX系列可同时服务2000个用户[N];电脑商报;2005年
3 记者 姜晓凌 见习记者 王毅俊;原来,科技也能如此美丽[N];上海科技报;2007年
4 中国科学院东北地理与农业生态研究所 李建平;保护地球之肾 遥感体检湿地健康[N];中国水利报;2008年
5 中科院院士 戴汝为;开辟人机结合的新天地[N];计算机世界;2004年
6 本版编辑 中国科学院计算技术研究所数字媒体研究中心 山世光 陈熙霖 高文 徐昕 刘洪宇;你的脸,你的身份证明[N];中国计算机报;2006年
7 刘光强;LSI新一代多业务企业网关[N];中国计算机报;2007年
8 清华大学玉泉医院神外 刘伟国;意识如何进行客观评价[N];健康报;2008年
9 武德锋 李国辉 林洪文 姚作梁;图像世界任我行[N];计算机世界;2002年
10 清华大学 朱健翔;人脸表情估计与表情合成[N];计算机世界;2006年
中国博士学位论文全文数据库 前10条
1 王喆;面向模式表示与模式源的分类器设计方法研究[D];南京航空航天大学;2008年
2 谢元澄;分类器集成研究[D];南京理工大学;2009年
3 严志永;在划分数据空间的视角下基于决策边界的分类器研究[D];浙江大学;2011年
4 杨显飞;数据流集成分类器算法研究[D];哈尔滨工程大学;2011年
5 冯爱民;结构驱动的单类分类器设计及拓展研究[D];南京航空航天大学;2011年
6 宁博;面向行人检测的动态视觉词提取与集成分类方法研究[D];中国科学技术大学;2012年
7 汪中;面向变化场景的行人分类检测方法研究[D];中国科学技术大学;2011年
8 薛晖;分类器设计中的正则化技术研究[D];南京航空航天大学;2008年
9 王彦;基于PDE的模式识别方法[D];吉林大学;2006年
10 欧阳震诤;不平稳数据流的分类技术研究[D];国防科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 武婷婷;分类器性能评价研究[D];北京交通大学;2010年
2 王亚松;关于组合分类器修剪方法的研究[D];郑州大学;2011年
3 郑忠;适应性组合分类器遥感分类研究[D];中南大学;2013年
4 潘世瑞;基于分类器集成技术的数据流分类研究[D];西北农林科技大学;2011年
5 冯庆祥;最近特征分类器的研究与改进[D];哈尔滨工业大学;2013年
6 石国强;基于规则的组合分类器的研究[D];郑州大学;2010年
7 于柏森;发动机机械故障诊断系统分类器设计[D];长春工业大学;2010年
8 张岚;基于几何代数的可视化分类器研究[D];燕山大学;2013年
9 陈笋;基于多特征多分类器组合的茶叶茶梗图像识别分类研究[D];安徽大学;2014年
10 王秀霞;分类器的选择性集成及其差异性研究[D];兰州理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026