收藏本站
《北京大学》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

基于深度学习的自动句法纠错研究

黄浩洋  
【摘要】:自动语法改错(GEC),是自然语言处理中句法分析中较为困难的任务之一。在日常对话中,语法上的细微差别对于一个非母语的人来说是最困难掌握与理解的,当前自然语言中的语法改错不仅包含语法错误,也包含拼写与搭配错误。近年来,随着深度学习的发展,自动语法改错任务得到了不少关注。基于统计机器翻译(SMT)的短语相关方法,是将GEC看做一个翻译任务:从“坏”转换到“好”,所用的语料也是类似翻译语料的平行语料。不同于SMT依赖于递归神经网络(RNN),也有通过卷积神经网络(CNN)来进行句子编码,提取以短语为基础的语义空间表征。这些方法都是通过建立端到端(encoder-decoder)的序列到序列(seq2seq)模型,理解错误句子与正确句子之间的语义以及词语表述的差异来定位语法错误。为了进一步充分学习数据中的知识,通过监督学习(supervised learning)方式是最常见的。该方法需要大量标注数据,但是标注成本巨大。学者们发现可以利用非标注(unlabeled)数据进行非监督学习,通过挖掘其中有价值语义信息帮助其他的监督任务理解。其中有利用基于翻译语料的预训练模型,也有利用长文本语料进行语言模型的预训练,还有利用多任务结合的泛化性预训练模型。这些预训练模型都在许多任务上经过检验,可以对模型表现有很大的提升。虽然自动改错模型可以借助比较新颖的模型架构,但是由于自动改错语料的缺失,更大范围的自动改错以及具有实际应用价值的自动改错模型建设依然不理想。而本次研究不仅提出了一种新的堆叠模型结构,同时该结构可将预训练的丰富语义信息的特征嵌入,得到一种可适配多种预训练方法的多层自动纠错模型。模型不仅可以进行多轮迭代解决改错难题,同时为了进一步缓解自动改错语料不足,利用了对偶学习方法产生更多额外训练数据。整体纠错框架不仅可以帮助理解词语之间的相关性、短语的连贯性、语义的匹配性,还有句子语法准确性。阶段式的模型结构,使得模块能高度可替换且可扩充。同时目前已经开源平行纠错语料以及实际改错样例表明,该模型不仅可以在学术数据集取得很不错的效果还能应用到实际场景。本文模型框架还能进一步融合目前最新的预训练模型权值,具有很强的可扩展性,这是其他所有工作所不具备的。使得本次研究更有意义以及未来研究价值。
【学位授予单位】:北京大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:TP391.1;TP18

【相似文献】
中国期刊全文数据库 前10条
1 孙茂松;;应用自然语言处理技术解决真实世界问题[J];国际学术动态;1998年02期
2 高源;;自然语言处理发展与应用概述[J];中国新通信;2019年02期
3 宋一凡;;自然语言处理的发展历史与现状[J];中国高新科技;2019年03期
4 方明之;;自然语言处理技术发展与未来[J];科技传播;2019年06期
5 路啸秋;;智能客服自然语言处理的方法研究[J];计算机产品与流通;2019年05期
6 崔运鹏;王健;刘娟;;基于深度学习的自然语言处理技术的发展及其在农业领域的应用[J];农业大数据学报;2019年01期
7 赵京胜;宋梦雪;高祥;;自然语言处理发展及应用综述[J];信息技术与信息化;2019年07期
8 加日拉·买买提热衣木;常芙蓉;刘晨;杨礼;;基于自然语言处理的主题模型及其发展分析[J];信息与电脑(理论版);2017年24期
9 宋杰;章洁;高远;皮红英;;护理不良事件非结构上报内容的自然语言处理及效果比较[J];护理学报;2018年03期
10 林伊洋;;浅析自然语言处理技术的重要性[J];数字通信世界;2018年02期
中国重要会议论文全文数据库 前10条
1 徐超;毕玉德;;面向自然语言处理的韩国语隐喻知识库构建研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李文;程华良;彭耀;温明杰;肖威清;张陈斌;陈宗海;;自然语言处理云平台[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年
3 李生;;哈工大自然语言处理研究进展[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
5 冯志伟;;自然语言处理中的理性主义和经验主义[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 徐翼龙;李文法;周纯洁;;基于深度学习的自然语言处理综述[A];中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C];2018年
7 ;SWCL-2006组织机构[A];第三届学生计算语言学研讨会论文集[C];2006年
8 李丽;冯志伟;;框架网络的理解和构建[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 徐进;;俄语军事缩略语知识库的构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 谭斌;;指代消解的原理和实现方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国重要报纸全文数据库 前10条
1 王培 美国天普大学计算机与信息科学系;机器翻译会迫使翻译们全失业吗?[N];北京科技报;2016年
2 本报记者 刘峣;人工智能创造新闻新玩法[N];人民日报海外版;2016年
3 北京商报记者 姜红;人工智能:市场前夜的秀场[N];北京商报;2017年
4 归欣;无需为“二代狗”惊慌失措[N];河南日报;2017年
5 本报记者 张盖伦;小心,聊天机器人也会被“教坏”[N];科技日报;2017年
6 本报记者 马爱平;机器人能成为“闺蜜”吗?[N];科技日报;2017年
7 陈宗周;重建巴别塔[N];电脑报;2017年
8 记者 李思;企业纷纷抢先机[N];上海金融报;2017年
9 赛迪顾问人工智能行业分析师 向阳;2017年人工智能产业发展分析与预测[N];中国信息化周报;2017年
10 赛迪顾问人工智能行业分析师 向阳;人工智能未来三年将迎新机遇点[N];中国计算机报;2017年
中国博士学位论文全文数据库 前10条
1 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
2 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
3 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
4 王燚;基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D];西南交通大学;2005年
5 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
6 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
7 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年
8 李晗静;基于自然语言处理的空间概念建模研究[D];哈尔滨工业大学;2007年
9 郭江;基于分布表示的跨语言跨任务自然语言分析[D];哈尔滨工业大学;2017年
10 任飞亮;高适应性基于实例的机器翻译中关键技术研究[D];东北大学;2008年
中国硕士学位论文全文数据库 前10条
1 方文静;基于解析序列的高阶非投影依存分析器[D];上海交通大学;2017年
2 郝云飞;基于自然语言处理的互联网舆情高危信息处理模块的研究[D];内蒙古大学;2019年
3 焦点;面向多任务的句嵌入方法研究[D];北京邮电大学;2019年
4 庞晨曦;句子向量化建模及文本级应用[D];上海交通大学;2017年
5 黄浩洋;基于深度学习的自动句法纠错研究[D];北京大学;2019年
6 李璜;汉英神经机器翻译模型时态翻译改进研究[D];厦门大学;2018年
7 符磊;基于文本分类的信息解析研究[D];安徽大学;2019年
8 张桐喆;基于社交媒体的股票预测模型[D];天津大学;2018年
9 刘磊;《自然语言处理综论》(节选)翻译实践报告[D];郑州大学;2019年
10 任鑫涛;多维度用户评论情感分析系统的研究与实现[D];北京邮电大学;2019年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026