收藏本站
《青海师范大学》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

藏文词向量表示关键技术研究

才智杰  
【摘要】:语言单元的向量表示是机器学习的基础性工作,其目标是以优化的向量表示语言单元,以便计算机能够更好地理解自然语言。近年来,随着神经网络技术的发展,向量表示在自然语言处理领域发挥了重要的作用。英、汉等语言的词、句子和文档表示取得了丰硕成果,并得到了广泛应用。藏文语言单元的向量表示技术处于探索和起步阶段,其研究对藏语语言的特征分析以及用深度学习技术处理藏语言具有重要的理论意义和广泛的应用价值。本文借鉴英、汉等语言的词向量表示技术,结合藏文的特点,从藏文字构件分解、藏文文本分词、藏文词向量评测和藏文词向量表示等四个方面研究了藏文词向量表示的关键技术。主要工作包括:(1)藏文字构件分解构件是藏文的最小组成单元,蕴含着丰富的词义信息,而藏文字输入到计算机中是一个整体。若要获取构件的词义信息,需要将整体藏文字分解为构件。本文归纳总结了藏文字的结构及构字原则,并对藏文字形进行分类。在此基础上,设计了藏文字构件分解模型和算法,以藏文字形分布统计为例,验证了字构件分解算法的有效性,得到了藏文字形的一般性分布规律。(2)藏文文本分词词是自然语言处理中最基本的处理单元,藏文文本是字的序列,词和词之间没有分隔标记,因而需要文本分词。本文通过分析藏文文本分词的现状,针对藏文文本分词中存在的主要问题,提出了基于规则的句分块、块切词的分词方案。句分块方面,设计了基于临界库的藏文句分块算法。块切词方面,分析了主词典库的构造方法,并设计了索引查询算法、紧缩词识别还原算法、多策略紧缩格识别算法、未登录词识别的一揽子算法和歧义消解的局部高词频优先算法。(3)藏文词向量评测词向量评测的目标是评价词向量模型的性能,包括内部任务评测和外部任务评测。内部任务评测通过词相似度、相关性和类比评测集等评价向量模型的性能,是一种广泛使用的词向量评测方式。由于藏文词向量研究处于探索起步阶段,还没有用于评价藏文词向量性能的评测集。本文借鉴英、汉文词向量评测集构建方法,设计了藏文词向量相似度和相关性任务评测集构建方案,依据此方案建立了藏文词相似度评测集TWordSim215和相关性评测集TWordRe]215,并验证了其有效性。(4)藏文词向量表示传统神经网络中,词作为原子对象建立基于上下文信息的词向量表示。融合子词级别的信息能更好地捕捉词义,本文结合藏文的特点,提出了基于构件的藏文向量模型、融合构件和字信息的藏文词向量表示模型。基于构件的藏文向量模型以字、词的构件信息建立向量,能够较好地揭示构件的位置特征及添加规则,在藏文字拼写检查上取得了良好的效果。融合构件和字信息的藏文词向量表示模型,将构件和字及其位置信息融入到词向量表示中,在性能上比传统方法有了显著的提升。
【学位授予单位】:青海师范大学
【学位级别】:博士
【学位授予年份】:2018
【分类号】:TP391.1

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 雷树杰;;面向自然语言处理的英语中句蜕现象研究[J];电脑知识与技术;2019年29期
2 王凌燕;;自然语言处理技术的重要性研究[J];信息通信;2019年11期
3 孙茂松;;应用自然语言处理技术解决真实世界问题[J];国际学术动态;1998年02期
4 高源;;自然语言处理发展与应用概述[J];中国新通信;2019年02期
5 宋一凡;;自然语言处理的发展历史与现状[J];中国高新科技;2019年03期
6 方明之;;自然语言处理技术发展与未来[J];科技传播;2019年06期
7 路啸秋;;智能客服自然语言处理的方法研究[J];计算机产品与流通;2019年05期
8 崔运鹏;王健;刘娟;;基于深度学习的自然语言处理技术的发展及其在农业领域的应用[J];农业大数据学报;2019年01期
9 赵京胜;宋梦雪;高祥;;自然语言处理发展及应用综述[J];信息技术与信息化;2019年07期
10 加日拉·买买提热衣木;常芙蓉;刘晨;杨礼;;基于自然语言处理的主题模型及其发展分析[J];信息与电脑(理论版);2017年24期
中国重要会议论文全文数据库 前10条
1 徐超;毕玉德;;面向自然语言处理的韩国语隐喻知识库构建研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 李文;程华良;彭耀;温明杰;肖威清;张陈斌;陈宗海;;自然语言处理云平台[A];系统仿真技术及其应用学术论文集(第15卷)[C];2014年
3 李生;;哈工大自然语言处理研究进展[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 ;哈尔滨工业大学智能技术与自然语言处理研究室简介[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
5 冯志伟;;自然语言处理中的理性主义和经验主义[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
6 徐翼龙;李文法;周纯洁;;基于深度学习的自然语言处理综述[A];中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C];2018年
7 ;SWCL-2006组织机构[A];第三届学生计算语言学研讨会论文集[C];2006年
8 李丽;冯志伟;;框架网络的理解和构建[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 徐进;;俄语军事缩略语知识库的构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 谭斌;;指代消解的原理和实现方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
中国重要报纸全文数据库 前10条
1 本报记者 华凌;突破自然语言处理瓶颈需大数据与富知识双轮驱动[N];科技日报;2019年
2 王培 美国天普大学计算机与信息科学系;机器翻译会迫使翻译们全失业吗?[N];北京科技报;2016年
3 本报记者 刘峣;人工智能创造新闻新玩法[N];人民日报海外版;2016年
4 北京商报记者 姜红;人工智能:市场前夜的秀场[N];北京商报;2017年
5 归欣;无需为“二代狗”惊慌失措[N];河南日报;2017年
6 本报记者 张盖伦;小心,聊天机器人也会被“教坏”[N];科技日报;2017年
7 本报记者 马爱平;机器人能成为“闺蜜”吗?[N];科技日报;2017年
8 陈宗周;重建巴别塔[N];电脑报;2017年
9 记者 李思;企业纷纷抢先机[N];上海金融报;2017年
10 赛迪顾问人工智能行业分析师 向阳;2017年人工智能产业发展分析与预测[N];中国信息化周报;2017年
中国博士学位论文全文数据库 前10条
1 才智杰;藏文词向量表示关键技术研究[D];青海师范大学;2018年
2 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
3 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
4 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
5 王燚;基于场景化知识表示的自然语言处理及其在自动文本校对中的应用[D];西南交通大学;2005年
6 王智强;汉语指代消解及相关技术研究[D];北京邮电大学;2006年
7 王斌;汉英双语语料库自动对齐研究[D];中国科学院研究生院(计算技术研究所);1999年
8 鲁松;自然语言处理中词相关性知识无导获取和均衡分类器构建[D];中国科学院研究生院(计算技术研究所);2001年
9 李晗静;基于自然语言处理的空间概念建模研究[D];哈尔滨工业大学;2007年
10 郭江;基于分布表示的跨语言跨任务自然语言分析[D];哈尔滨工业大学;2017年
中国硕士学位论文全文数据库 前10条
1 陈梁;运用自然语言处理技术从中文电子化病历系统中提取临床有用信息[D];重庆医科大学;2019年
2 常景卫;基于NLP的机器智能写作技术研究[D];华北水利水电大学;2019年
3 段帅阳;初等数学问题知识图谱的半自动构建技术研究及实现[D];电子科技大学;2019年
4 涂文博;基于深度学习的医疗文本信息抽取[D];杭州师范大学;2019年
5 解波;基于自然语言处理及机器学习的文本分类研究[D];云南大学;2018年
6 彭湃;自然语言处理—中文词和短文本向量化的研究[D];华中师范大学;2019年
7 刘凯;基于词频的场景关联实体推理研究[D];重庆邮电大学;2018年
8 吴笑笑;自然语言处理在挖掘概念传递特征中的应用研究[D];华中师范大学;2019年
9 李璜;汉英神经机器翻译模型时态翻译改进研究[D];厦门大学;2018年
10 符磊;基于文本分类的信息解析研究[D];安徽大学;2019年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026