收藏本站
《昆明理工大学》 2014年
收藏 | 手机打开
二维码
手机客户端打开本文

基于条件随机场的柬埔寨语词法分析方法研究

潘华山  
【摘要】:柬埔寨语词法分析是柬埔寨语信息处理的一项基础性工作,词法分析结果的好坏将直接影响柬埔寨语信息处理上层应用的效果。由于语言之间存在的差异性,传统的汉英词法分析技术无法直接移植到柬埔寨语上。为了丰富柬埔寨语词法分析的理论研究与应用,为柬埔寨语自然语言处理提供基础支撑,本文围绕柬埔寨语分词模型构建、柬埔寨语词性标注模型构建以及柬埔寨语命名实体识别模型构建等关键问题展开研究,并取得了以下成果: (1)提出了一种基于层叠条件随机场模型的柬埔寨语分词及词性标注方法。该方法首先以字符簇为粒度,融合上下文信息与柬埔寨语构词特点定义特征模板,构建分词模型对柬埔寨语进行分词;然后以词语为粒度,融合上下文信息以及柬埔寨语丰富的词缀等信息定义特征模板,构建词性标注模型对柬埔寨语进行词性标注。实验结果表明该模型能够有效的完成对柬埔寨语的分词和词性标注工作。 (2)提出了一种融合传统特征信息和柬埔寨语实体特性的命名实体识别方法。该方法针对不同实体的组成结构,对时间、数字表达式等结构固定的实体采用人工定义规则库的方法进行识别;对人名、地名、组织机构名等结构复杂的实体,在词形、词性等特征基础上,融合柬埔寨语实体特征,利用条件随机场机器学习算法对人工标注语料进行训练获得实体识别模型。实验结果表明该方法可以提高柬埔寨语命名实体识别的准确度。 (3)设计并实现了柬埔寨语词法分析原型系统,为研究柬埔寨语自然语言处理领域的研究发展提供了有力的支撑。
【学位授予单位】:昆明理工大学
【学位级别】:硕士
【学位授予年份】:2014
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前10条
1 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
2 努尔比亚·吐拉甫;于洪志;李亚超;;基于CRF的维吾尔文命名实体识别研究[J];消费电子;2012年07期
3 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
4 方莹;;基于条件随机场的英文农产品名识别[J];河南科学;2011年03期
5 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
6 屈刚,陆汝占;基于特征的汉语词性标注模型[J];计算机研究与发展;2003年04期
7 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
8 孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳;利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J];计算机研究与发展;1997年05期
9 王素格,张永奎;基于搭配模式的汉语词性标注规则的获取方法[J];计算机工程与应用;2001年05期
10 胡文博;都云程;吕学强;施水才;;基于多层条件随机场的中文命名实体识别[J];计算机工程与应用;2009年01期
【共引文献】
中国期刊全文数据库 前10条
1 高艳萍;于红;尹祥贵;綦孝姬;王春永;赵志强;;基于双数组Trie树的渔业领域分词研究[J];安徽农业科学;2008年11期
2 陈家俊;苏守宝;徐华丽;;一种面向噪声数据的决策树优化算法研究[J];安庆师范学院学报(自然科学版);2011年03期
3 胡锡衡;;正向最大匹配法在中文分词技术中的应用[J];鞍山师范学院学报;2008年02期
4 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
5 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
6 胡顺义;赵晓凡;;基于PB的汉语电子词典管理系统设计与实现[J];安阳师范学院学报;2010年05期
7 冯志伟;;信息时代的翻译工具[J];北华大学学报(社会科学版);2007年06期
8 冯志伟;;语音合成中的文本归一化问题[J];北华大学学报(社会科学版);2010年02期
9 杨尔弘;;媒体5年词语使用情况调查分析[J];北华大学学报(社会科学版);2011年04期
10 付艳;杨冬青;唐世渭;伍伟;王腾蛟;高军;;基于实体识别的在线主题检测方法[J];北京大学学报(自然科学版);2009年02期
中国重要会议论文全文数据库 前10条
1 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
2 李金;宋阳;梁洪;;语言残障患者医疗辅助系统设计[A];第九届全国信息获取与处理学术会议论文集Ⅱ[C];2011年
3 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
6 何正焱;王厚峰;;商品品牌名称挖掘[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
8 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
9 李玉梅;靳光瑾;黄昌宁;;中文分词规范中的歧义字段消解细则[A];第五届全国语言文字应用学术研讨会论文集[C];2007年
10 王建民;陈佳鹏;由芳;丁卫彬;;嵌入式电子词典快速查询模型的研究与设计[A];第四届和谐人机环境联合学术会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 李建平;面向异构数据源的网络安全态势感知模型与方法研究[D];哈尔滨工程大学;2010年
2 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
3 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
4 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
5 曾湘祥;脉冲神经膜系统的计算性能研究[D];华中科技大学;2011年
6 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
7 屠晓;英文地址图像识别与翻译研究[D];华东师范大学;2011年
8 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
9 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
10 张浩;视频运动人体行为识别与分类方法研究[D];西安电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
2 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
3 刘靖媛;个性搜索引擎中用户兴趣模型研究[D];哈尔滨工程大学;2010年
4 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
5 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
6 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
7 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
8 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
9 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
10 钟晓旭;基于Web招聘信息的文本挖掘系统研究[D];合肥工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 高军,陈锡先;无监督的动态分词方法[J];北京邮电大学学报;1997年04期
2 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
3 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
4 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
5 王珊;吴鸥琦;;B~+树效率分析和组织聚集索引的算法——B~+树的进一步研究和应用[J];计算机研究与发展;1982年11期
6 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
7 张国煊,王小华,周必水;快速书面汉语自动分词系统及其算法设计[J];计算机研究与发展;1993年01期
8 付国宏,王晓龙;汉语词语边界自动划分的模型与算法[J];计算机研究与发展;1999年09期
9 陈桂林,王永成,韩客松,王刚;一种高效的中文电子词表数据结构[J];计算机研究与发展;2000年01期
10 陈桂林,王永成,韩客松,王刚;一种改进的快速分词算法[J];计算机研究与发展;2000年04期
中国重要会议论文全文数据库 前6条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
3 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
4 张艳丽;黄德根;张丽静;杨元生;;统计和规则相结合的中文机构名称识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
5 俞士汶;;计算语言学的应用研究与基础研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
6 黄昌宁;赵海;;由字构词——中文分词新方法[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 雪艳;汉蒙词语对齐及相关技术研究[D];内蒙古大学;2009年
中国硕士学位论文全文数据库 前6条
1 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
2 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
3 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
4 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
5 图格木勒;蒙古语语言资源库建设相关技术研究[D];内蒙古大学;2007年
6 杨华;基于最大熵模型的中文命名实体识别方法研究[D];哈尔滨工程大学;2008年
【相似文献】
中国重要报纸全文数据库 前2条
1 本报记者 杨玲;银悦西:将民歌传唱到东盟的使者[N];南宁日报;2008年
2 记者 李新雄 实习生 韦锦星 黄政合;推介东盟十国 学习东盟语言[N];广西日报;2004年
中国硕士学位论文全文数据库 前2条
1 杨颖;柬埔寨语词缀研究[D];云南民族大学;2013年
2 潘华山;基于条件随机场的柬埔寨语词法分析方法研究[D];昆明理工大学;2014年
中国知网广告投放
相关机构
>云南民族大学
>昆明理工大学
相关作者
>潘华山 >杨颖
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026