收藏本站
《内蒙古大学》 2015年
收藏 | 手机打开
二维码
手机客户端打开本文

蒙古语语料库加工集成平台的构建

吴金星  
【摘要】:语料库是按照一定的原则收集和组织的真实的自然语言作品的集合。语料库经过加工,才能成为有用的资源,能够为各种自然语言处理系统所利用。所谓加工,就是把语料库中隐藏的信息显现出来的过程。根据粒度的不同,语料库的加工分为词法标注、短语标注、句法标注和语义标注等不同层次。蒙古语已构建《1000万词级的现代蒙古语语料库》,其加工方面已涉及到词法、句法、语义的各个层面,但具有代表性的大规模多级标注语料库还没有形成。研究者们都以各自的实验为目的,从大规模语料库中抽取所需的语料,按照自己的标准进行不同层面的标注。这不仅出现了很多重复劳动,而且标注的语料库相互之间不能通用,更不能直接应用于其他研究中。因此,构建大规模的能广泛应用于蒙古文信息处理工作的多层次标注语料库是非常必要的。本研究根据语料库语言学的理论和方法构建了蒙古语词法-命名实体-固定短语-语义类型标注为一体的多级加工语料库。采取机器标注为主、人工校对为辅的方法对蒙古语最具代表性的语料库—《100万词级现代蒙古语语料库》进行了词法分析,命名实体之人名、地名和机构名的标注,固定短语的标注和语义类型的标注,初步构建了蒙古语多级标注语料库。本人前期工作中研发的蒙古语词法分析系统—Mglex在20万词级的训练语料库上取得了90%的准确率,但该系统尚未对命名实体进行识别。命名实体识别是蒙古语词法分析系统的重要组成部分,一个完整的蒙古语词法分析系统不仅包括词法标注,还应包括命名实体的识别。除此之外,命名实体识别是信息抽取、信息检索、组块分析、机器翻译、问答系统等技术的重要基础,它的研究成果将直接影响到文本信息自动化处理的深层次研究。因此,本文着手研发了蒙古语命名实体识别系统,具体研究内容包括:(1)采用条件随机场模型和规则相结合的方法识别了蒙古文人名和地名。根据蒙古文人名和地名的特点分别选取6种和5种特征作为CRF模型特征,对于蒙古文人名中特有的兼类人名则采取了基于规则的方法。最后采用词典和规则纠错,召回未识别的人名和地名。实验结果显示,人名和地名的识别准确率分别达到了94.56%和94.68%,召回率达到了90.60%和84.40%,F值达到了92.54%和89.24%。(2)机构名识别方面提出了基于知识库的识别方法。根据蒙古文机构名的语法特性,总结出简单机构名和复合机构名的构成规律,设计出有效的识别规则和相应的知识库,实现了蒙古文机构名的识别。本文从中国蒙古语新闻网的时政报道板块下载新闻片段243(包含417个机构名)段测试机构名识别系统性能,该系统在测试集上取得了73.75%的准确率和67.38%的召回率。除此之外,本文还详细介绍了改进蒙古语词法分析系统Mglex性能所做的研究工作。从语料库预处理、候选词优化、兼类词消歧和后处理等四个方面改进了Mglex系统。在兼类词消歧方面本文提出了基于词组搭配的兼类词消歧方法,而词组搭配获取方法上采用了最朴素的统计搭配词与节点词的共现频数法。通过改进,Mglex系统取得了词级联合切分与标注准确率94.00%,词级切分准确率97.80%的成绩。
【学位授予单位】:内蒙古大学
【学位级别】:博士
【学位授予年份】:2015
【分类号】:H212

免费申请
【相似文献】
中国重要会议论文全文数据库 前10条
1 齐振宇;赵军;杨帆;;一种开放式中文命名实体识别的新方法[A];第五届全国信息检索学术会议论文集[C];2009年
2 付瑞吉;车万翔;刘挺;;一种基于分类方法的音乐命名实体识别技术[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
3 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
5 王浩畅;赵铁军;刘延力;于浩;;生物医学文本中命名实体识别的智能化方法[A];2006年首届ICT大会信息、知识、智能及其转换理论第一次高峰论坛会议论文集[C];2006年
6 李治国;周俏丽;;在篇章中面向产品类的命名实体识别研究[A];第三届学生计算语言学研讨会论文集[C];2006年
7 徐薇;付滨;刘柳;苑春法;李文捷;;中文命名实体识别系统的领域扩展[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 王浩畅;赵铁军;李艳;;生物医学命名实体识别的特征选取与评价[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 刘非凡;赵军;吕碧波;于浩;夏迎炬;;面向商务信息抽取的产品命名实体识别研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 陈禹;史晓东;向晓雯;张润延;;基于混合方法的中文命名实体识别[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
中国博士学位论文全文数据库 前9条
1 江会星;汉语命名实体识别研究[D];北京邮电大学;2012年
2 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
3 付瑞吉;开放域命名实体识别及其层次化类别获取[D];哈尔滨工业大学;2014年
4 罗芳;意见挖掘中若干关键问题研究[D];武汉理工大学;2011年
5 豆增发;生物命名实体识别及生物文本分类[D];西安电子科技大学;2013年
6 李彦鹏;特征耦合泛化及其在文体挖掘中的应用[D];大连理工大学;2011年
7 穆一夫;基于认知的非结构化信息抽取关键技术与算法研究[D];中国矿业大学(北京);2013年
8 吴金星;蒙古语语料库加工集成平台的构建[D];内蒙古大学;2015年
9 杨黎;面向生物医学文本的疾病关系挖掘模型及算法研究[D];华中科技大学;2013年
中国硕士学位论文全文数据库 前10条
1 荀晶;面向微博数据的命名实体识别研究与实现[D];东北大学;2013年
2 陈禹;基于语篇的中文命名实体识别研究[D];厦门大学;2008年
3 赵欣;基于双语命名实体识别的词汇对齐和机器翻译研究[D];厦门大学;2009年
4 刘海鹏;面向手机短信的命名实体识别研究[D];北京邮电大学;2009年
5 万鑫;基于文本分类的命名实体识别系统[D];北京邮电大学;2009年
6 邹涛;一种电子产品领域命名实体识别方法研究[D];西安电子科技大学;2010年
7 许晓丽;面向信息抽取的中文命名实体识别研究[D];哈尔滨工程大学;2009年
8 郑强;生物医学命名实体识别研究[D];国防科学技术大学;2009年
9 张学清;规则与统计相结合的音乐领域命名实体识别[D];电子科技大学;2010年
10 刘章勋;中文命名实体识别粒度和特征选择研究[D];哈尔滨工业大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026