收藏本站
《青海师范大学》 2019年
收藏 | 手机打开
二维码
手机客户端打开本文

藏文陈述句复述生成研究

柔特  
【摘要】:复述是相同语义的不同表达方式,在自然语言中非常普遍,它反映了人类语言的灵活性、多样性和复杂性。复述研究主要包含三个内容:一是复述抽取,即从原文中抽取关键词,重新组合这些字或词并使语义与原句相同;二是复述识别,即从语料中找出语义相同的句子或段落等不同的语言单元。三是复述生成,给定一个输入,输出一个相同语义的文本。复述方式包括短语到短语、句子到句子等等长复述,也有从词到短语、从短语到句子的不等长度的复述。本文主要研究的是藏文陈述句复述生成。首先对藏文句子进行分类并抽取陈述句,然后对句子进行语义分析,在此基础上构建藏文复述句语料库,最后通过机器学习自动生成藏文复述句。本文包括如下5个主要问题和解决方法:1.基于循环卷积神经网络的藏文句类分类方法研究藏文句类分类是藏文语言学和自然语言处理领域中尚未关注的一个研究点,鲜见于有关文献。本文的研究对象为藏文陈述句复述自动生成,其存在的主要问题是藏文句子的句类自动分类问题。问题的难点是其他语言的传统句类的分类方法不适用于藏文的句子分类,因为藏文没有特殊的标点符号来识别不同的句子种类。本文在充分分析藏文不同句类特征信息的基础上,提出了以藏文句子语境信息和特征功能为识别和分类依据,采用循环卷积神经网络对藏文句子进行识别和分类。实验结果表明:对藏文句类识别和分类的平均准确率达85.61%、召回率达86.54%、F值达85.59%。2.基于空洞卷积网络的藏文句子语义分割方法研究当前藏文句义的研究内容和方法停留在句法分析上,因此,对藏文句义理解的研究还没有一个具体的研究方法,且在藏文句义理解的研究方面与其他语言相比存在着很大的差距。研究藏文复述生成,首先要解决的问题是在理解原文句义后才能生成藏文陈述句复述。其问题的主要难点是在其他语言句子语义分割中通常以词为分割单元,然而,如果对藏文进行以词为单元的分割时,由于颗粒度过细,会产生或造成很多词汇歧义和语义序列解码的不稳定性问题。本文在分析藏语语言特性和语言编码组合规律的基础上,提出了一种新的语义单元分割方法。该语义单元长度介于词义之上句义之下,使语法、语义、语境融为一体。然后采用空洞卷积神经网络对藏文句子进行语义分割。实验结果表明:空洞卷积网络模型对语义分割的准确率达到了92.39%。3.基于藏文语序和语义词典的复述句语料构建方法研究机器学习中,数据资源的规模与质量直接影响学习结果。本文在研究过程中需要较大规模的藏文数据资源用于生成藏文陈述句复述研究。然而,解决此问题的难点在于,目前国内外还没有一个公开、大规模、高质量的藏文数据资源用于机器学习,更没有复述句的数据集。为解决藏语复述句的数据资源匮乏问题,本文提出了利用藏文语序变换和藏文语义词典等方法来构建藏语复述语料资源。实验结果表明人工评测后基于语序变换的藏文复述生成准确率为97.31%;且基于藏文语义词典的复述生成准确率为93.33%。4.基于注意力机制的藏文复述句生成研究近年来,随着复述研究成果应用到机器翻译、自动问答、信息检索、信息抽取、文本生成及阅读理解等相关研究,这使越来越多的研究者和研究机构开始关注并重视复述研究工作。然而,目前还没有找到利用注意力机制对藏文陈述句复述句生成进行研究的相关文献。本文试图将注意力机制应用到藏文陈述句复述自动生成研究中,以扩充现有藏文复述句的数据资源。本文在以上已构建的复述数据资源的基础上,提出了基于注意力机制的藏文复述句自动生成方法。实验结果表明:藏文复述句生成结果的BLEU值为40.38%。5.基于注意力机制的藏文新词释义自动生成研究随着人类社会的进步和科学技术的发展,新的术语和词汇不断涌现。目前的藏文新词术语的释义已无法满足人们的需求,因此,为解决这一问题,本文尝试利用机器学习方法对藏文新词术语进行自动释义。本文提出了一种基于注意力机制的藏文新词术语释义自动生成方法。实验结果表明,词典原文释义生成准确率为87.17%,新词释义生成准确率为80.32%。本文利用各种方法构建了较大规模的藏文复述句的数据资源,并尝试利用这些数据资源对藏文复述的自动生成进行基于机器学习方法的研究。本研究取得了较好的初步成果,希望这些成果能对藏文自然语言理解研究提供借鉴。
【学位授予单位】:青海师范大学
【学位级别】:博士
【学位授予年份】:2019
【分类号】:H214;TP391.1

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 陈钊;徐睿峰;桂林;陆勤;;结合卷积神经网络和词语情感序列特征的中文情感分析[J];中文信息学报;2015年06期
2 多杰卓玛;旦正才让;迭目德央;;论藏文中的“名词+名词”(N_1+N_2)短语结构[J];西藏大学学报(自然科学版);2015年02期
3 柔特;;藏文问答系统中问句的分类方法研究[J];计算机工程与科学;2015年07期
4 罗凌;陈毅东;史晓东;苏劲松;;基于复述技术的汉语成语翻译方法研究[J];中文信息学报;2015年04期
5 次仁央金;;再谈藏语中的外来词汇[J];西藏研究;2014年06期
6 高定国;扎西加;;藏语单句的基本句型研究[J];中国藏学;2014年04期
7 王小林;镇丽华;杨思春;邰伟鹏;郑啸;;基于增量式贝叶斯模型的中文问句分类研究[J];计算机工程;2014年09期
8 扎西加;多拉;;基于FUG的藏语句法形式化描述[J];中文信息学报;2014年03期
9 柔特;;基于WordNet的藏文语义词典半自动构建方法研究[J];西藏大学学报(自然科学版);2014年01期
10 李琳;龙从军;江荻;;藏语句法功能组块的边界识别[J];中文信息学报;2013年06期
中国硕士学位论文全文数据库 前2条
1 常若愚;汉语语义组块识别研究[D];杭州电子科技大学;2015年
2 林荣华;基于卷积神经网络的句子分类算法[D];浙江大学;2015年
【共引文献】
中国期刊全文数据库 前2条
1 龙从军;康才畯;李琳;江荻;;基于多策略的藏语语义角色标注研究[J];中文信息学报;2014年05期
2 王天航;史树敏;龙从军;黄河燕;李琳;;基于错误驱动学习策略的藏语句法功能组块边界识别[J];中文信息学报;2014年05期
中国硕士学位论文全文数据库 前10条
1 李文江;基于深度学习的商品评价数据分析系统[D];大连海事大学;2018年
2 周全;基于深度学习的评论文本情感分类系统设计与实现[D];新疆大学;2018年
3 吴盼荣;基于卷积神经网络的文献分类在水稻抗逆基因数据库中的应用[D];安徽农业大学;2018年
4 张凤瑜;基于图书评论大数据的语义好评度计算方法研究[D];东北师范大学;2018年
5 王克利;面向重复购买背景的预测模型研究[D];华南理工大学;2018年
6 李雨亭;基于深度学习的垃圾邮件文本分类方法[D];中北大学;2018年
7 王前;基于卷积神经网络的中文问句分类方法研究[D];昆明理工大学;2018年
8 孙华琛;基于大数据的电站运监场景分析与可视化研究[D];华北电力大学(北京);2018年
9 朱宇飞;基于用户评论的商品评价系统的设计与实现[D];北京邮电大学;2017年
10 聂国平;基于卷积神经网络的中文文本分类研究[D];华中科技大学;2017年
【二级参考文献】
中国期刊全文数据库 前10条
1 胡金铭;史晓东;苏劲松;陈毅东;;引入复述技术的统计机器翻译研究综述[J];智能系统学报;2013年03期
2 赵栋材;;基于虚词切分的藏文分词系统的设计与实现[J];西藏大学学报(自然科学版);2012年02期
3 钱强;庞林斌;高尚;;一种基于词共现图的受限领域自动问答系统[J];计算机应用研究;2013年03期
4 刘茂福;周斌;胡慧君;陈建勋;;问答系统中基于维基百科的问题扩展技术研究[J];工业控制计算机;2012年09期
5 杨思春;高超;秦锋;戴新宇;陈家骏;;融合基本特征和词袋绑定特征的问句特征模型[J];中文信息学报;2012年05期
6 周俏丽;刘新;郎文静;蔡东风;;基于分治策略的组块分析[J];中文信息学报;2012年05期
7 海银花;那顺乌日图;;“蒙古语名词语义信息词典”数据库的构建[J];中央民族大学学报(哲学社会科学版);2012年04期
8 嵇宇;王荣波;谌志群;;基于句法分析和二次贝叶斯模型的受限域问题分类[J];计算机应用;2012年06期
9 谢丽星;周明;孙茂松;;基于层次结构的多策略中文微博情感分析和特征抽取[J];中文信息学报;2012年01期
10 刘扬;陆顾婧;;汉英双语概念对应的实证研究[J];云南师范大学学报(哲学社会科学版);2012年01期
【相似文献】
中国期刊全文数据库 前10条
1 孔维波;周国光;;中学课文文本的信息分析[J];语文月刊;2017年05期
2 吴剑锋;;语气、功能与句类[J];外语学刊;2016年02期
3 夏凤梅;;汉语问候语的句类取向[J];人文论谭;2016年00期
4 陈炯;;句型、句类和句式[J];逻辑与语言学习;1987年05期
5 潘国良;汉语话题句类举[J];山西大学学报(哲学社会科学版);1989年02期
6 王慧兰;张克亮;;面向机器翻译的句类依存树库构建及应用[J];中文信息学报;2015年01期
7 柳士镇;;王建军《汉语句类史概要》序[J];南京师范大学文学院学报;2017年04期
8 王建军;;句类研究的先驱 语用分析的典范——论黎锦熙先生在句类研究方面的贡献[J];泰山学院学报;2011年01期
9 张家泰;汉语句类划分标准新论[J];沈阳师范学院学报(社会科学版);1995年01期
10 沈桂丽;;“常常”和“往往”[J];湘南学院学报;2006年06期
中国重要会议论文全文数据库 前10条
1 司联合;;状态句的理想化认知模式研究[A];第四届全国认知语言学研讨会论文摘要汇编[C];2006年
2 张艳红;;英汉互译中的过渡处理[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 张克亮;;一个特殊句法结构的英汉句类转换[A];第一届学生计算语言学研讨会论文集[C];2002年
4 孙雄勇;张全;;单字动词的组合处理研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 李千驹;唐兴全;林杏光;;论旨网格的描写和HNC句类表示的比较分析[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 孙雄勇;张全;;单字动词组合处理规则探析[A];第八届全国人机语音通讯学术会议论文集[C];2005年
7 苗传江;;HNC理论的句类[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
8 孙雄勇;;变异句蜕块的构成分析[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 缪建明;张全;;基于HNC语境理论的句群处理研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 李颖;池毓焕;;汉英机器翻译中要素句蜕变换初探[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
中国重要报纸全文数据库 前2条
1 张耕;“我管你”,是管还是不管?[N];语言文字周报;2019年
2 高宁;中餐和西餐[N];山西经济日报;2005年
中国博士学位论文全文数据库 前6条
1 柔特;藏文陈述句复述生成研究[D];青海师范大学;2019年
2 雒自清;语义块类型、构成及变换的分析与处理[D];中国科学院研究生院(声学研究所);2004年
3 吴剑锋;言语行为与现代汉语句类研究[D];华东师范大学;2006年
4 潘文;现代汉语存现句研究[D];复旦大学;2003年
5 康忠德;居都仡佬语参考语法[D];中央民族大学;2009年
6 李海艳;生成问答系统的法语文本处理模型[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 熊光昊;《论语》句类研究[D];扬州大学;2018年
2 赵倩倩;基于原型的语气副词研究[D];华东师范大学;2010年
3 邓天玲;越南学生汉语中介语(句类)研究[D];广西民族大学;2014年
4 向怡;四大福音书汉译本语气词初探[D];上海交通大学;2012年
5 熊子瑜;疑问信息及其载体研究[D];云南师范大学;2000年
6 章越;新HSK三级连词成句题型的分析研究[D];安徽大学;2017年
7 王俊;“常常”和“通常”的比较研究[D];河南大学;2011年
8 韩栋;“哪怕”的多角度研究[D];河南大学;2009年
9 李海艳;HNC理论在法语中的运用[D];武汉大学;2005年
10 胡秋盈;论直接疑问句与间接疑问句的句类标记[D];上海外国语大学;2012年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026