收藏本站
《西北民族大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于HMM的藏语语料库词性自动标注研究

苏俊峰  
【摘要】:近年来语料库语言学的发展较为迅速,它为语言研究打开了一条新的道路。英语、汉语等的词频统计研究为少数民族语言语料库的不同层面进行的定量研究奠定了可靠的,坚实的基础和借鉴的经验。藏文信息处理技术的发展和藏语研究的成果为开展藏语语料库研究和进行词频统计创造了条件。 藏文词性标注是藏文信息处理技术中的一项基础性课题。一方面,它的研究成果可以直接融入到信息抽取、信息检索、机器翻译等诸多实际应用系统当中;另一方面,藏语自动词性标注也是藏语语块识别器、藏语句法分析器、藏语语义分析器必不可少的前端处理工具。因此,研究和实现藏语词性标注器具有重要的理论意义和实用价值。 词性标注的方法主要有基于规则和基于统计的两大类。由于基于统计的方法具有不需要人工总结语言学规则、正确识别率高等优点,已逐渐成为研究的热点。在基于统计的方法中,HMM是最广泛的算法模型之一 本文主要对基于统计的词性标注技术进行了研究,所实现的藏语词性标注系统主要通过隐马尔可夫模型对训练语料库进行数据统计,获取所需词性和词汇概率信息,针对藏语训练语料库规模较小导致的数据稀疏的问题,运用了简单而高效的“加一法”数据平滑算法进行数据平滑处理,然后通过词汇概率信息和词性转移概率信息建立核心字典和Bigram模型字典,最后按照以上两个字典的信息采用Viterbi算法选择最佳标记串进行标注。 本项实验性研究针对计算机自动处理藏语语料进行的尝试性探讨研究。研究证明,运用HMM的方法,对藏语语料进行词性自动标注是可以实现的,在本系统中封闭性测试的正确率达到88%-90%。
【学位授予单位】:西北民族大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:H214

【参考文献】
中国期刊全文数据库 前10条
1 陈玉忠,俞士汶;藏文信息处理技术的研究现状与展望[J];中国藏学;2003年04期
2 石晶;戴国忠;;基于组块及记忆的词性自动标注[J];吉林大学学报(工学版);2006年04期
3 魏欧;孙玉芳;;汉语词性标注方法的研究[J];计算机科学;2000年07期
4 才藏太,华关加;班智达汉藏公文翻译系统中基于二分法的句法分析方法研究[J];中文信息学报;2005年06期
5 许伟,苑春法,黄昌宁;基于语料库的语言建模[J];清华大学学报(自然科学版);1997年03期
6 魏欧,吴健,孙玉芳,sonata.iscas.ac.cn;基于统计的汉语词性标注方法的分析与改进[J];软件学报;2000年04期
7 屈刚,陆汝占;一个改进的汉语词性标注系统[J];上海交通大学学报;2003年06期
8 祁坤钰;;信息处理用藏文自动分词研究[J];西北民族大学学报(哲学社会科学版);2006年04期
9 卢亚军,马少平,张敏,罗广;基于大型藏文语料库的藏文字符、部件、音节、词汇频度与通用度统计及其应用研究[J];西北民族大学学报(自然科学版);2003年02期
10 祁坤钰;《机器翻译用现代藏语语义词典》的设计研究[J];西北民族大学学报(自然科学版);2004年03期
中国博士学位论文全文数据库 前1条
1 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
中国硕士学位论文全文数据库 前3条
1 段建勇;现代汉语词性细分类标注研究[D];山西大学;2004年
2 梁以敏;基于统计的汉语词性标注方法的研究[D];大连理工大学;2004年
3 于长远;应用条件随机场进行汉语分词和词性标注的研究[D];辽宁科技大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 丁俊苗;;不足与需要:论标点符号的语法功能[J];安徽大学学报(哲学社会科学版);2008年04期
2 赵红丹;王希杰;;基于隐马尔科夫模型的词性标注[J];安阳师范学院学报;2010年05期
3 魏顺平;;2010年度教育技术(远程教育)研究进展调查与分析[J];北京广播电视大学学报;2011年05期
4 张锋,樊孝忠;基于最大熵模型的交集型切分歧义消解[J];北京理工大学学报;2005年07期
5 卢亚军;罗广;;藏文词汇通用度统计研究[J];图书与情报;2006年03期
6 贺胜;卢亚军;;基于藏文编码(基本集)国家暨国际标准的藏文输入法研究[J];图书与情报;2007年06期
7 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
8 张晨;祁坤钰;;基于Penn Treebank英语标注集对《圣经》标注集的扩充研究[J];才智;2009年20期
9 李玉森;张雪英;袁正午;;面向GIS的地理命名实体识别研究[J];重庆邮电大学学报(自然科学版);2008年06期
10 陈晓明;梁雄友;;一种实用的PCFG多阶段全局寻优句法分析算法[J];长春理工大学学报(自然科学版);2010年02期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 曾华琳;史晓东;李堂秋;;基于上下文信息提取的概率分词算法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
4 靳光瑾;郭曙纶;肖航;章云帆;;语料库加工中的规范问题——谈《信息处理用现代汉语词类标记集规范》[A];语言文字应用研究论文集(Ⅱ)[C];2004年
5 江涛;于洪志;李刚;;基于藏文网页的网络舆情监控系统研究[A];全国计算机安全学术交流会论文集(第二十三卷)[C];2008年
6 江涛;于洪志;徐涛;;互联网藏文内容安全检测过滤系统研究[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
7 戴祖旭;洪帆;;基于词性标记文法的文本信息隐藏算法[A];第四届中国软件工程大会论文集[C];2007年
8 张霄军;;“长安”的同名地名自动识别与指代消解[A];陕西省社会科学界第二届(2008)学术年会——青年博士论坛“陕西新起点:创新·发展·民生”专题获奖论文选编[C];2008年
9 段永强;马亚平;王世文;;基于智能模板的文图互生自动转换的研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
10 隋岩;张普;;基于“动态流通语料库”进行“有效字符串”提取的初步研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国博士学位论文全文数据库 前10条
1 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
2 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
3 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
4 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
5 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
6 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
7 邸书灵;Agent联盟和流形学习在中文问答系统中的应用研究[D];天津大学;2010年
8 冯文贺;汉语连词及其相关结构的依存分析[D];武汉大学;2011年
9 刘水;融入头—修饰词调序模型的短语统计机器翻译方法研究[D];哈尔滨工业大学;2011年
10 邓杰;论语言测试效度的辩论方法[D];上海外国语大学;2011年
中国硕士学位论文全文数据库 前10条
1 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
2 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
3 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
4 吕韶华;面向中文评论文本的情感倾向性研究[D];大连理工大学;2010年
5 孙静;基于组合分类器的生物命名实体识别[D];大连理工大学;2010年
6 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
7 邢鑫岩;基于序列模型的情感分析研究[D];大连理工大学;2010年
8 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
9 潘正高;基于内容的Web新闻文本自动分类问题研究[D];合肥工业大学;2010年
10 黄勇杰;基于统计NLP技术的甲骨卜辞的分析研究[D];华东师范大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 扎西次仁;《中华大藏经·丹珠尔》藏文对勘本字频统计分析[J];中国藏学;1997年02期
2 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
3 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
4 杨浩荣,王作英,陆大紟;语音识别HMM中引入帧间相关信息的一种参数化模型[J];电子学报;1998年10期
5 赵军,黄昌宁;结合句法组成模板识别汉语基本名词短语的概率模型[J];计算机研究与发展;1999年11期
6 李晓黎,史忠植;用数据采掘方法获取汉语词性标注规则[J];计算机研究与发展;2000年12期
7 陈清才,王晓龙;一种基于词矢量的汉语语义量化模型[J];计算机研究与发展;2001年02期
8 鲁松,白硕,黄雄,张健;基于向量空间模型的有导词义消歧[J];计算机研究与发展;2001年06期
9 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
10 屈刚,陆汝占;基于特征的汉语词性标注模型[J];计算机研究与发展;2003年04期
中国重要会议论文全文数据库 前3条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 俞士汶;;计算语言学的应用研究与基础研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 陈玉忠;李保利;俞士汶;兰措吉;;基于格助词和接续特征的藏文自动分词方案[A];第一届学生计算语言学研讨会论文集[C];2002年
【相似文献】
中国期刊全文数据库 前10条
1 黄昌宁;关于处理大规模真实文本的谈话[J];语言文字应用;1993年02期
2 崔刚,盛永梅;语料库中语料的标注[J];清华大学学报(哲学社会科学版);2000年01期
3 朱乐红;利用语料库研究不确定频度词[J];天津外国语学院学报;2002年03期
4 李颖;使用语料库索引学习英语近义词探讨[J];黄河水利职业技术学院学报;2003年02期
5 李明;语料库·蓝本·双语词典[J];苏州大学学报(哲学社会科学版);2003年03期
6 黄橙紫;科技英语词汇的统计特征[J];同济大学学报(社会科学版);2003年02期
7 娄宝翠;英语常用词搭配使用的对比:以health为例[J];外语与外语教学;2004年07期
8 张欣韵;通过语料库对外语课堂交流进行的调查[J];重庆三峡学院学报;2004年04期
9 齐建晓;;基于语料库的英语形容词后置定语分析[J];平原大学学报;2005年06期
10 毛凤凡;周嫚;;论语料库在EFL教学中的应用[J];广西广播电视大学学报;2006年02期
中国重要会议论文全文数据库 前10条
1 郭曙纶;;基于语料库的HSK多功能例解字典:设想与样例[A];2004年辞书与数字化研讨会论文集[C];2004年
2 梁红梅;尹晓霞;李宇庄;;有关语料库驱动下的外语在线自主学习的工作底稿[A];全国大学英语教学改革暨网络环境下外语教学学术研讨会论文集[C];2004年
3 许小星;亢世勇;孙茂松;刘金凤;;语料库语义成分标注的若干问题[A];第三届学生计算语言学研讨会论文集[C];2006年
4 宋鸿彦;刘军;姚天昉;刘全升;黄高辉;;汉语意见型主观性文本标注语料库的构建[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
5 黄玉;李生;孟遥;丁华福;;基于大规模语料库的英语从句识别[A];第一届学生计算语言学研讨会论文集[C];2002年
6 赵伟;赵法兴;王东海;韩达奇;;一种基于改进的最大熵模型的汉语词性自动标注的新方法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
7 李明;;语料库·蓝本·双语词典[A];中国辞书学会双语词典专业委员会第五届年会暨学术研讨会论文集[C];2003年
8 郭启新;;论语料库与英汉词典配例[A];中国辞书学会双语词典专业委员会第四届年会暨学术研讨会论文集[C];2001年
9 王仁华;胡郁;李威;凌震华;;基于决策树的汉语大语料库合成系统[A];第六届全国人机语音通讯学术会议论文集[C];2001年
10 蔡莲红;蔡锐;吴志勇;陶建华;;语音合成语料库的设计与声学特征分析[A];中国声学学会2002年全国声学学术会议论文集[C];2002年
中国重要报纸全文数据库 前10条
1 记者 王坤宁;商务方正合作开发辞书语料库及编纂系统[N];中国新闻出版报;2002年
2 本报记者 周建华;数字战略打造核心竞争力[N];中国图书商报;2001年
3 卢伟;文学语言的语料库研究方法[N];文艺报;2004年
4 记者 曹秀娟;省社科院两项目获得国家社会科学基金[N];山西日报;2010年
5 顾曰国;语料库语言学的发展[N];中国社会科学院院报;2003年
6 陈劲宏;东方快车2003之新鲜体验[N];中国电脑教育报;2002年
7 李大庆;迎来光与电告别铅与火[N];科技日报;2002年
8 ;探索普通话自然连续语音之规律[N];光明日报;2001年
9 钟远;航运快递[N];国际商报;2000年
10 本报记者 陈友梅;让电脑说人话[N];中国计算机报;2001年
中国博士学位论文全文数据库 前10条
1 张廷香;基于语料库的3-6岁汉语儿童词汇研究[D];山东大学;2010年
2 夏云;基于语料库的英汉翻译小说常规化研究:历时的视角[D];山东大学;2010年
3 刘建鹏;语料库支撑的系统功能语法研究[D];西南大学;2012年
4 何婷婷;语料库研究[D];华中师范大学;2003年
5 李毅;基于语料库的隐喻普遍性与变异性研究[D];山东大学;2012年
6 段江娇;基于模型的时间序列数据挖掘[D];复旦大学;2008年
7 王青;基于语料库的《尤利西斯》汉译本译者风格研究[D];山东大学;2010年
8 岳夏;基于HMM的复杂条件故障诊断技术研究[D];华南理工大学;2012年
9 赵永青;基于语料库的英语多人冲突性话语研究[D];上海外国语大学;2012年
10 唐斌;《人民日报》中(1987-2007)农民工的话语再现[D];上海外国语大学;2010年
中国硕士学位论文全文数据库 前10条
1 苏俊峰;基于HMM的藏语语料库词性自动标注研究[D];西北民族大学;2010年
2 羊毛卓么;藏文词性自动标注系统的研究与实现[D];西藏大学;2012年
3 岳炳词;面向语言学研究的大规模汉语生语料库检索工具CCRLT[D];北京工业大学;2001年
4 徐琰;基于语料库的ONLY研究[D];大连海事大学;2003年
5 杨丽萍;基于语料库的英语专业大学生议论文限时写作中的四字词块研究[D];江西师范大学;2010年
6 李淼;用先进的语料库工具推进英语教学[D];首都师范大学;2004年
7 李春青;[D];电子科技大学;2004年
8 王蓉;新闻英语的批评性语篇分析[D];上海师范大学;2010年
9 刘鼎甲;连接成分的显化:基于语料库的中英文翻译文本对比[D];燕山大学;2010年
10 刘露露;汉语衍名的双事件隐喻分析[D];四川外语学院;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026