收藏本站
《上海交通大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

可移植的稳健口语理解方法研究

吴尉林  
【摘要】: 口语对话系统(Spoken Dialogue System)的研究具有很强的理论意义和实际价值。口语理解(Spoken Language Understanding)是实现口语对话系统的关键技术之一。目前,口语理解主要面临两方面的挑战: 稳健性(robustness),因为语音识别难免有错误,而且口语本身也往往是病态和不合语法的。 可移植性(portability),当前对话系统中口语理解模块的开发往往需要大量手工工作(例如语义语法的编写),这构成了口语对话系统开发的主要瓶颈之一。因此,要缩短口语理解模块的开发周期、减少开发成本以及增强可移植性,关键是如何减少对手工工作的依赖,从而使整个开发过程自动化。 本文提出了一种新的可移植的稳健口语理解方法。该方法基本上是数据驱动(data-driven)的,只需要简单标记的数据,这样保证了良好的可移植性。它能对口语进行深层理解,同时也能保持稳健性。论文的主要工作和创新点包括: 本文提出了一个基于两阶段分类的口语理解框架。首先,第一阶段的分类器用来识别用户输入语句的主题,即主题分类(Topic Classi-fication)。接下来,识别的主题可用于帮助第二阶段的分类器抽取相应的语义槽/值对,即语义槽分类(Semantic Slot Classfication)。这两种分类器是可以自动学习的,而且只需要简单标记的训练数据。该框架既能保证对输入语句的深层理解,也能保持稳健性。 利用一个稳健的基于图算法的局部分析器来对用户输入语句进行预处理。该局部分析器具有跳跃词和规则符的能力,这样从底层就保证了系统的稳健性。同时,为了避免跳跃能力带来的副作用,引入了内置的机器学习系统来进行剪枝和消歧。预处理使得数据标记形式更简单,能给主题分类提供深层的特征,还能减少语义槽分类器的数目。 对于主题分类,考察了可用于主题分类的各种特征并且比较了它们的分类能力,并且利用多分类器相结合的方法来提高主题分类的精度。对于语义槽分类,把它建模为分类问题:首先利用文字上下文进行初始语义槽分类,然后检查语义槽的一致性,如有必要,再利用语义槽上下文进行重分类以纠正错误。本文比较了两种语义槽分类算法,即决策表和Winnow算法。 为了进一步地减轻手工标记数据的工作,研究了上述两种分类器的弱监督训练方法:(1)采用了结合主动学习(active learning)和半监督学习(semi-supervised learning)来训练主题分类器的方法;(2)提出了一种实际的bootstrapping方法来训练语义槽分类器。这两种手段使得两阶段分类模型的训练只需要少量标记数据,而能利用较多的未标记数据来提高性能。 最后,分别在两个不同领域和语种的语料库上对本文所提出的方法进行了实验验证。实验结果表明,本文方法在性能上优于已有的基于规则的方法,而跟其他新的数据驱动方法相当,但是能大大减少开发成本。
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2007
【分类号】:TP391.42

【引证文献】
中国期刊全文数据库 前1条
1 郭书杰;黄明;梁旭;;陪护机器人口语对话系统设计与实现[J];网络安全技术与应用;2010年12期
【参考文献】
中国期刊全文数据库 前3条
1 吴尉林;成长生;徐良贤;陆汝占;;Anchor-based English-Chinese Bilingual Chunk Alignment Model[J];Journal of DongHua University;2005年02期
2 冯俊兰,杜利民;人机口语对话技术[J];电子科技导报;1999年09期
3 黄寅飞,郑方,燕鹏举,徐明星,吴文虎;校园导航系统Easy Nav的设计与实现[J];中文信息学报;2001年04期
【共引文献】
中国期刊全文数据库 前10条
1 潘娣;;机器翻译的利弊以及发展前景[J];安徽文学(下半月);2008年09期
2 吕学强,迟呈英;英文光学字符识别的后处理[J];鞍山钢铁学院学报;2002年03期
3 赵悦;穆志纯;董洁;付冬梅;何伟;;基于QBC主动学习方法建立电信客户信用风险等级评估模型[J];北京科技大学学报;2007年04期
4 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
5 骆正华,樊孝忠,刘林,龚永罡;基于E-Chunk的问句实例分析系统[J];北京理工大学学报;2005年01期
6 ;ONLINE REGULARIZED GENERALIZED GRADIENT CLASSIFICATION ALGORITHMS[J];Analysis in Theory and Applications;2010年03期
7 薛冰;郭晓松;蒲鹏程;;人脸识别技术综述[J];四川兵工学报;2010年07期
8 任大伟;胡正平;高文涛;;基于样本不同属性综合的鲁棒偏倚赖主动学习分类算法研究[J];燕山大学学报;2011年01期
9 肖仁耀;肖昕;;神经网络在提高锂离子电池检测精度中的研究[J];电子工业专用设备;2009年09期
10 寇继虹;楼雯;;基于知识图谱的E-learning研究的可视化分析[J];电化教育研究;2011年09期
中国重要会议论文全文数据库 前10条
1 陈鑫;车万翔;刘挺;;基于主动学习的中文依存句法分析[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 刘子豪;庄毅;;一种电子邮件敏感信息检测算法[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
3 姜晓军;程卫东;;神经网络训练样本选取与优化的研究[A];第十七届全国测控计量仪器仪表学术年会(MCMI'2007)论文集(下册)[C];2007年
4 ;COLLABORATIVE FILTERING RECOMMENDATION ALGORITHM BASED ON LOOK-AHEAD SELECTIVE SAMPLING[A];2006年中国机械工程学会年会暨中国工程院机械与运载工程学部首届年会论文集[C];2006年
5 黄寅飞;郑方;苏毅;李芳;吴文虎;;口语对话系统EasyNav中的语义表示[A];第六届全国人机语音通讯学术会议论文集[C];2001年
6 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 潘文锋;王斌;于满泉;谭松波;;Winnow算法在垃圾邮件过滤中的应用[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
8 高倩倩;李成荣;;语音聊天机器人中的对话管理技术研究[A];第八届全国人机语音通讯学术会议论文集[C];2005年
9 赵纪元;李晗静;赵铁军;;汉语空间关系中射体识别问题的研究与分析[A];第三届学生计算语言学研讨会论文集[C];2006年
10 王会珍;张希娟;朱靖波;张斌;;基于主动学习的自适应话题追踪[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
2 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 李全彬;非约束环境下人脸识别关键技术的研究与应用[D];华东师范大学;2011年
5 王肃;基于多Agent的突发事件信息智能监测系统研究[D];北京邮电大学;2011年
6 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
7 赵强利;基于选择性集成的在线机器学习关键技术研究[D];国防科学技术大学;2010年
8 刘君;融合计算智能的蛋白质结构预测研究[D];重庆大学;2011年
9 杨艳屏;主动学习算法及其在心血管疾病诊断中的应用研究[D];华中科技大学;2010年
10 姚拓中;结合主动学习的视觉场景理解[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 平金玉;基于组合核与主动学习的蛋白质交互关系抽取[D];大连理工大学;2010年
2 张丽;无标注自学习反垃圾邮件服务的研究[D];中国海洋大学;2010年
3 尹方园;“VA”动结式表层语义分析[D];湘潭大学;2010年
4 梁延峰;基于专家委员会的主动学习算法研究[D];中国海洋大学;2010年
5 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
6 张庆久;近邻法与多视角学习的理论与算法研究[D];华东师范大学;2011年
7 杨朝玉;基于知网的受限域问答系统原型的设计与实现[D];华南理工大学;2010年
8 丁朋;凸优化在大规模机器学习中的应用[D];华东理工大学;2011年
9 韩露;领域知识对领域问答系统答案抽取影响研究[D];昆明理工大学;2008年
10 李英伟;基于增量改进贝叶斯领域问句分类研究[D];昆明理工大学;2009年
【同被引文献】
中国期刊全文数据库 前3条
1 周法国;杨炳儒;;句子相似度计算新方法及在问答系统中的应用[J];计算机工程与应用;2008年01期
2 裴婧;包宏;;汉语句子相似度计算在FAQ中的应用[J];计算机工程;2009年17期
3 闫宏飞,陈翀;词汇与中心词的距离信息对问句相似度匹配的影响[J];清华大学学报(自然科学版);2005年S1期
中国硕士学位论文全文数据库 前2条
1 王彬;汉语人机对话系统中口语处理的研究[D];清华大学;2004年
2 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
【二级参考文献】
中国期刊全文数据库 前1条
1 周强,俞士汶;汉语短语标注标记集的确定[J];中文信息学报;1996年04期
【相似文献】
中国期刊全文数据库 前10条
1 黄桐宁,张亚梅;主动学习手段在数字图书馆中的应用[J];江西图书馆学刊;2003年03期
2 张健沛,徐华;支持向量机(SVM)主动学习方法研究与应用[J];计算机应用;2004年01期
3 刘志方;基于主动学习的资源优化分配研究[J];科技资讯;2005年24期
4 贺慧;王俊义;;主动支持向量机的研究及其在蒙文文本分类中的应用[J];内蒙古大学学报(自然科学版);2006年05期
5 祝磊;;基于SVM技术的文本分类研究[J];软件导刊;2006年23期
6 王颖;胡学友;胡云龙;;“数字信号处理”教学改革初探[J];合肥学院学报(自然科学版);2007年01期
7 杨春;杨海东;邓飞其;;移动自组网络入侵检测中主动学习算法的应用[J];计算机工程与应用;2007年31期
8 万蓉;;基于行动导向《C语言程序设计》的教学实践[J];成都航空职业技术学院学报;2008年02期
9 孟桂颖;;艺术设计学科教学网站的构建[J];艺术教育;2008年10期
10 徐慧;杨学兵;;基于本体相似度的中文科研论文信息抽取[J];计算机技术与发展;2008年12期
中国重要会议论文全文数据库 前10条
1 周卫东;袁保宗;朱维彬;;一种新的口语对话系统错误处理方法[A];第九届全国人机语音通讯学术会议论文集[C];2007年
2 李立;;科技馆中的教育问题[A];全面建设小康社会:中国科技工作者的历史责任——中国科协2003年学术年会论文集(下)[C];2003年
3 林周文;;在数学教学中激发学生主动学习的尝试[A];中国当代教育理论文献——第四届中国教育家大会成果汇编(上)[C];2007年
4 易静;孙岳平;黄心智;;细胞生物学课堂教学中激发学生科研兴趣的举措初探[A];第二届中国医学细胞生物学学术大会暨细胞生物学教学改革会议论文集[C];2008年
5 王会珍;张希娟;朱靖波;张斌;;基于主动学习的自适应话题追踪[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 陈耀东;王挺;陈火旺;;半监督学习和主动学习相结合的浅层语义分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 熊兵惠;;让CAI搭建起孩子主动学习的平台[A];中国教育技术协会2004年年会论文集[C];2004年
8 陈朝晖;曾仁权;阳泽平;杨新斌;;在基础化学教学中加强与中学化学及后续课程的相互联系,着力提高教学质量[A];中国化学会第26届学术年会化学教育分会场论文集[C];2008年
9 邬晓钧;燕鹏举;徐明星;;口语对话系统中日期和时刻的处理[A];第六届全国人机语音通讯学术会议论文集[C];2001年
10 周瑾序;;变被动为主动学习的途径[A];外语语言教学研究——黑龙江省外国语学会第十一次学术年会论文集[C];1997年
中国重要报纸全文数据库 前10条
1 张玉花 (西华二中);转变教师教育观念 发挥学生主体作用[N];周口日报;2007年
2 刘韬武少民 陈晓钟;内地生,你在香港还好吗?[N];人民日报;2008年
3 尖扎县第二完全小学教师 法土美;浅谈小学数学教学中如何提高学生学习的主动性[N];黄南报;2007年
4 记者 和苗 余靖静;10岁大学生:大学不想再跳级[N];新华每日电讯;2006年
5 记者 高智虹;全国阅读活动打造“书香机关”[N];秦皇岛日报;2008年
6 民乐县逸夫小学 宋晓华;用爱心培养学生主动学习的兴趣[N];张掖日报;2005年
7 徐永荣;充分发挥高校辅导员教育引导作用[N];贵州日报;2007年
8 ;怎样让学生主动学习[N];中国教育报;2003年
9 记者 王炳美;青岛市戴家村村民主动学习“三个代表”[N];新华每日电讯;2003年
10 山西省大同南洋国际学校校长 王国平;主动学习与主动发现[N];中国教师报;2004年
中国博士学位论文全文数据库 前10条
1 吴尉林;可移植的稳健口语理解方法研究[D];上海交通大学;2007年
2 张琳;汉语口语对话系统中口语语言分析[D];上海交通大学;2008年
3 周顺先;文本信息抽取模型及算法研究[D];湖南大学;2007年
4 王利民;贝叶斯学习理论中若干问题的研究[D];吉林大学;2005年
5 段丹青;入侵检测算法及关键技术研究[D];中南大学;2007年
6 汪萌;基于机器学习方法的视频标注研究[D];中国科学技术大学;2008年
7 蔡鹏;排序学习中的领域自适应研究[D];华东师范大学;2011年
8 郅庭瑾;为何而教[D];华东师范大学;2001年
9 宋彦;视频语义标注方法和理论的研究[D];中国科学技术大学;2006年
10 胡静;机器学习及其神经网络分类器优化设计[D];合肥工业大学;2007年
中国硕士学位论文全文数据库 前10条
1 梁延峰;基于专家委员会的主动学习算法研究[D];中国海洋大学;2010年
2 柴思远;结合主动学习的协作分类方法研究[D];吉林大学;2011年
3 张江红;多分类主动学习方法在地表分类中的应用[D];南京理工大学;2011年
4 平金玉;基于组合核与主动学习的蛋白质交互关系抽取[D];大连理工大学;2010年
5 常景鑫;基于混淆网络的语音文档主题分类研究[D];哈尔滨工程大学;2010年
6 易星;半监督学习若干问题的研究[D];清华大学;2004年
7 柳培林;基于向量空间模型的中文文本分类技术研究[D];大庆石油学院;2006年
8 詹子鹏;基于文本挖掘的主题分类专家系统的设计和实现[D];安徽大学;2007年
9 杜培培;面向野外障碍物检测的半监督主动学习研究[D];南京理工大学;2011年
10 陈红媛;论网络技术在高职院校政治课教学中的运用[D];湖南师范大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026