收藏本站
《新疆大学》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于语料库的维吾尔语词干提取和词性标注

陈鹏  
【摘要】: 建设高质量的标注语料库是维吾尔语信息处理领域的基础性工程。目前,在机器翻译、信息检索、Web文本挖掘等许多领域对语料库的使用越来越多,要求也越来越高。而自动词干提取和词性标注是建立标注语料库的基础性工作。 本文采用了双向匹配和全切分相结合的方法来实现维吾尔语词干提取。与最大匹配法相比,该方法提高了词干提取的正确率。本文在维吾尔语词干提取应用中,采用了改进的逐字母二分词典查询机制。该词典查询机制提高了词干提取的效率。 除此之外,本文对词性标注的方法进行了研究,分析了基于规则的方法和基于统计的方法的优缺点。首次采用概率统计的方法研究了维吾尔语词性标注问题。本文采用了一阶隐马尔可夫模型,并且通过RFT相对概率训练获得了模型参数。同时采用了回退式参数平滑算法来解决了一阶隐马尔可夫模型的数据稀疏问题。最后,运用Viterbi算法以句子为单位进行词性标注。实验证明,基于概率统计的一阶隐马尔可夫模型以及Viterbi算法能有效的解决维吾尔语词性标注的问题。
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 刘艳;古丽拉.阿东别克;伊力亚尔;;哈萨克语词性自动标注研究初探[J];计算机工程与应用;2008年20期
中国重要会议论文全文数据库 前2条
1 维尼拉·木沙江;吴俊森;吐尔根·依布拉音;;维吾尔文搜索引擎的倒排索引设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
2 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国硕士学位论文全文数据库 前2条
1 赵倩倩;维吾尔语信息检索[D];天津大学;2012年
2 热西旦;汉文—维吾尔文双语语料库构建的实验性研究[D];新疆大学;2007年
【参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
3 赵岩;王晓龙;刘秉权;关毅;;融合聚类触发对特征的最大熵词性标注模型[J];计算机研究与发展;2006年02期
4 王素格,张永奎;汉语词性标注排歧方法探讨[J];计算机工程与应用;2001年07期
5 胡春静,韩兆强;基于隐马尔可夫模型(HMM)的词性标注的应用研究[J];计算机工程与应用;2002年06期
6 费洪晓,康松林,朱小娟,谢文彪;基于词频统计的中文分词的研究[J];计算机工程与应用;2005年07期
7 梁以敏,黄德根;基于完全二阶隐马尔可夫模型的汉语词性标注[J];计算机工程;2005年10期
8 林红,苑春法,郭树军;基于最大熵方法的汉语词性标注[J];计算机应用;2004年01期
9 陈耀东,王挺;基于有向图的双向匹配分词算法及实现[J];计算机应用;2005年06期
10 赵伟,戴新宇,尹存燕,陈家骏;一种规则与统计相结合的汉语分词方法[J];计算机应用研究;2004年03期
【共引文献】
中国期刊全文数据库 前10条
1 丁俊苗;;不足与需要:论标点符号的语法功能[J];安徽大学学报(哲学社会科学版);2008年04期
2 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
3 白晓梅;张福利;;校园网中文搜索引擎系统的设计[J];鞍山师范学院学报;2006年06期
4 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
5 耿新青;陶凤梅;黄宏光;;一种基于近邻匹配的中文分词算法Jlppeccz[J];鞍山师范学院学报;2010年04期
6 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
7 赵红丹;王希杰;;基于隐马尔科夫模型的词性标注[J];安阳师范学院学报;2010年05期
8 胡顺义;赵晓凡;;基于PB的汉语电子词典管理系统设计与实现[J];安阳师范学院学报;2010年05期
9 丁丰,董娜,林碧琴,袁保宗;自然语言处理系统中自动分词的研究[J];北方交通大学学报;1999年06期
10 唐振民,靳从,杨静宇;档案文献主题词微机自动标引系统[J];兵工自动化;1993年02期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
4 李帅;王精业;王丽娟;;基于马尔可夫模型的文本信息提取算法概述[A];图像图形技术与应用进展——第三届图像图形技术与应用学术会议论文集[C];2008年
5 李玉良;王良松;李晶;;图像中数字字符识别技术概览[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
6 汪华峰;陈峪;;汉语自然语言理解中词切分中新词问题初探[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
7 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
8 苏亮;孙斌;;一种基于Lucene的Hash改进中文分词算法的实现[A];2007通信理论与技术新发展——第十二届全国青年通信学术会议论文集(上册)[C];2007年
9 彭子平;张严虎;潘露露;;隐马尔科夫模型原理及其重要应用[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
10 段永强;马亚平;王世文;;基于智能模板的文图互生自动转换的研究[A];全国第19届计算机技术与应用(CACIS)学术会议论文集(下册)[C];2008年
中国博士学位论文全文数据库 前10条
1 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
2 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
5 吐尔逊·卡得;维吾尔语柯坪土语研究[D];中央民族大学;2011年
6 徐江;现代维吾尔语否定的意义与表达研究[D];中央民族大学;2011年
7 卡依沙尔·艾合买提;现代维吾尔语情状类型研究[D];中央民族大学;2011年
8 田俊华;基于本体知识库的教学资源自动采集技术研究[D];南京师范大学;2011年
9 吴戈;基于数字水印的文本信息隐藏方法的研究[D];长春理工大学;2011年
10 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 冯海瑛;《万历野获编》分词理论与实践[D];广西师范学院;2010年
3 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
4 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
5 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
6 刘国峰;数据模板匹配研究及在社保审计中的应用[D];哈尔滨工程大学;2010年
7 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
8 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
9 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
10 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 吕学强,李清隐,任飞亮,姚天顺;基于统计的汉英法律文献亚句子级对齐[J];东北大学学报;2003年01期
2 王伯浩;几个大的语料库评介[J];当代语言学;1998年01期
3 陈丽珍;卡米力·毛依丁;;基于WEB信息检索系统中维文处理方面的研究[J];电脑知识与技术;2005年36期
4 赵美利;唐静;;VC++访问数据库的方法研究[J];电脑知识与技术;2009年05期
5 王希杰;;最大正向匹配分词算法的VC++实现[J];福建电脑;2011年04期
6 邹修明,祝志杰;双语句子对齐系统中多层次分段对齐方法研究[J];淮阴师范学院学报(自然科学版);2002年01期
7 吕雅娟,赵铁军,李生;单语句法分析指导的双语结构对齐[J];计算机研究与发展;2003年07期
8 钱丽萍,赵铁军,杨沫昀,高光来;基于译文的英汉双语句子自动对齐[J];计算机工程与应用;2000年12期
9 胡春静,韩兆强;基于隐马尔可夫模型(HMM)的词性标注的应用研究[J];计算机工程与应用;2002年06期
10 万敏,罗振声,季姮,高小云;基于概念统计的英文自动文摘研究[J];计算机工程与应用;2002年24期
中国重要会议论文全文数据库 前1条
1 关毅;王晓龙;;基于统计的汉语词汇间语义相似度计算[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国重要报纸全文数据库 前1条
1 顾曰国;[N];中国社会科学院院报;2003年
中国硕士学位论文全文数据库 前10条
1 何燕;任意类型的未登录词的识别研究[D];北京语言文化大学;2000年
2 祝志杰;IHSMTS中汉英双语句子对齐机制的设计与实现[D];南京理工大学;2002年
3 毕丽克孜;现代维吾尔语语料库词频统计实验性研究[D];新疆大学;2003年
4 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
5 王飞;多语种双语对齐平台的设计与实现[D];南京理工大学;2004年
6 俞鸿魁;基于层次隐马尔可夫模型的汉语词法分析和命名实体识别技术[D];北京化工大学;2004年
7 常红;现代维吾尔语基本词汇研究[D];新疆大学;2005年
8 淑琴;《蒙古语语法信息词典构形附加成分分库》的设计与实现[D];内蒙古大学;2005年
9 毕雪华;汉维双语语料库中句子对齐技术的研究[D];新疆大学;2006年
10 图格木勒;蒙古语语言资源库建设相关技术研究[D];内蒙古大学;2007年
【二级引证文献】
中国期刊全文数据库 前8条
1 木合亚提·尼亚孜别克;古力沙吾利;;哈萨克文信息处理现状中的若干问题探讨[J];智能计算机与应用;2011年06期
2 冯鲸华;古丽拉·阿东别克;玛依来·哈帕尔;;基于N-gram语言模型的哈萨克文机构名识别[J];计算机工程与应用;2010年31期
3 侯呈风;古丽拉·阿东别克;;改进的HMM应用于哈萨克语词性标注[J];计算机工程与应用;2010年36期
4 王花;古丽拉·阿东别克;;基于语料的哈萨克语词频统计研究[J];计算机工程;2010年24期
5 侯呈风;古丽拉·阿东别克;陈景超;;基于HMM的哈萨克语词性标注研究[J];计算机应用与软件;2012年02期
6 木合亚提·尼亚孜别克;古力沙吾利;;哈萨克文信息处理的现状和发展方向[J];中文信息学报;2010年04期
7 吐尔根·依布拉音;袁保社;;新疆少数民族语言文字信息处理研究与应用[J];中文信息学报;2011年06期
8 李英;李亚;;一种基于词典和长度相结合的汉-维句子对齐算法[J];新乡学院学报(自然科学版);2012年01期
中国重要会议论文全文数据库 前1条
1 王花;古丽拉·阿东别克;;基于语料的哈萨克语词频统计的研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
中国硕士学位论文全文数据库 前4条
1 侯呈风;基于HMM的哈萨克语词性标注研究[D];新疆大学;2011年
2 王花;基于语料库的哈萨克文统计研究[D];新疆大学;2010年
3 冯鲸华;基于N-gram模型的哈萨克语实体名识别方法研究[D];新疆大学;2010年
4 王雅莉;哈萨克语通用词汇提取方法及小学语文教材用词调查研究[D];新疆大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语的自动分词与一个自动分词系统—CDWS[J];北京航空学院学报;1984年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 黄德根,朱和合,王昆仑,杨元生,钟万勰;基于最长次长匹配的汉语自动分词[J];大连理工大学学报;1999年06期
4 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
5 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
6 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
7 陈其晖,应志伟,柴佩琪;基于歧义二叉树的汉语分词方法[J];计算机辅助工程;1999年04期
8 周强;;基于语料库和面向统计学的自然语言处理技术[J];计算机科学;1995年04期
9 丁承,邵志清;基于字表的中文搜索引擎分词系统的设计与实现[J];计算机工程;2001年02期
10 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
中国重要会议论文全文数据库 前2条
1 周强;詹卫东;任海波;;构建大规模的汉语语块库[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
【相似文献】
中国期刊全文数据库 前10条
1 侯呈风;古丽拉·阿东别克;;改进的HMM应用于哈萨克语词性标注[J];计算机工程与应用;2010年36期
2 朱靖波,张玫杰,姚天顺;一种基于NA假设的训练数据自动构造方法[J];东北大学学报(自然科学版);1999年04期
3 韩东妹;林民;;自动词性标注概述[J];内蒙古科技与经济;2006年01期
4 潘炜;沈超;;面向层次分类标签的词性标注系统[J];计算机工程;2009年21期
5 刘遥峰;王志良;王传经;;中文分词和词性标注模型[J];计算机工程;2010年04期
6 孙静;李军辉;周国栋;;基于条件随机场的无监督中文词性标注[J];计算机应用与软件;2011年04期
7 吴杨;;词性标注对外文信息检索系统性能的影响[J];民营科技;2011年05期
8 姚天昉,林莉,玉素甫·艾白都拉;基于德语语料库词性标注和统计方法的研究[J];上海交通大学学报;1996年06期
9 牛洪梅;加米拉·吾守尔;吐尔根·依布拉音;;现代维吾尔语的词性标注校对技术研究[J];伊犁师范学院学报(自然科学版);2007年01期
10 谷川;田喜平;;基于条件随机场的汉语词性标注方法研究[J];安阳师范学院学报;2010年05期
中国重要会议论文全文数据库 前10条
1 赵大明;;关于《现代汉语规范字典》的词性标注[A];中国辞书论集1999[C];1999年
2 邢富坤;宋柔;;自动词性标注中语法因素和词汇因素对英汉语的不同影响[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 帕里旦·吐尔逊;艾山·吾买尔;吐尔根·依布拉音;早克热·卡德尔;阿力木江·艾沙;;基于最大熵的维吾尔语词性标注模型[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
4 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
5 艳红;王斯日古楞;;蒙古文词语切分在自动词性标注中的应用[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 林红;胡欣;;最大熵模型的应用[A];新世纪气象科技创新与大气科学发展——中国气象学会2003年年会“地球气候和环境系统的探测与研究”分会论文集[C];2003年
7 李红印;;颜色词的收词、释义和词性标注[A];中国辞书论集2001[C];2001年
8 钱揖丽;张虎;;汉语分词及词性标注自动校验方法研究[A];第一届学生计算语言学研讨会论文集[C];2002年
9 陈文亮;朱靖波;吕学强;姚天顺;;词性标注规则的获取和优化[A];第一届学生计算语言学研讨会论文集[C];2002年
10 郭锐;;语文词典的词性标注问题[A];中国辞书学文集[C];1998年
中国重要报纸全文数据库 前6条
1 孟传良;略谈汉外词典的修订[N];中国图书商报;2005年
2 北京大学中文系 陆俭明;要对广大读者负责[N];中国社会科学院院报;2004年
3 王小宁;辞书应慎用“规范”冠名[N];人民政协报;2004年
4 语言所 董琨;错误百出 贻笑大方[N];中国社会科学院院报;2004年
5 教育部语言文字信息管理司司长李宇明;语言文字工作应当与时俱进[N];中国教育报;2001年
6 记者 黄小希;部分电子词典内容“缩水”“注水”严重[N];新华每日电讯;2011年
中国博士学位论文全文数据库 前10条
1 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
2 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
3 曹海龙;基于词汇化统计模型的汉语句法分析研究[D];哈尔滨工业大学;2006年
4 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
5 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
6 刘兴林;中文词汇知识获取算法和语义计算研究及应用[D];华南理工大学;2012年
7 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
8 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
9 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
10 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈鹏;基于语料库的维吾尔语词干提取和词性标注[D];新疆大学;2006年
2 钱揖丽;中文文本分词及词性标注自动校对方法研究[D];山西大学;2003年
3 刘金宁;词性标注体系对中文分词的影响[D];大连理工大学;2010年
4 刘东旭;在自然汉语中进行分词和词性标注[D];电子科技大学;2003年
5 张虎;汉语语料库词性标注一致性检查及自动校对方法研究[D];山西大学;2005年
6 张磊;基于最大熵模型的汉语词性标注研究[D];大连理工大学;2008年
7 熊冬明;汉语自动分词和中文人名识别技术研究[D];浙江大学;2006年
8 樊立三;现代汉语语文辞书词性标注研究[D];鲁东大学;2006年
9 孔海霞;基于最大熵的汉语词性标注[D];大连理工大学;2007年
10 张卫;中文词性标注的研究与实现[D];南京师范大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026