收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文词法分析的研究及其应用

孙晓  
【摘要】: 在机器翻译和其他自然语言处理任务中,对于中文和日文等亚洲语言,词的识别和处理是一个最为关键的基础性步骤,而其中存在的问题至今仍然没有得到完善的解决,从而影响了机器翻译以及其他自然语言处理任务的精度和效率。在中文词法分析任务中,除了中文分词,还包括词性标注,未登录词(或新词)的识别和词性标注等基础性步骤,这些也是影响中文词法分析性能和精度提高的难点所在。 首先,针对中文词法分析存在的问题,提出了一种新的融合单词和单字信息的基于词格的中文词法分析方法。该方法利用系统词表,构建包含所有分词和词性标注候选路径的词格,同时对候选未登录词及其词性进行同步识别并加入到词格中,降低了未登录词识别的运算复杂度,然后利用基于词的条件随机域模型,结合定义在整条输入路径上的全局特征模板,在词格中选择最终的分词以及词性标注结果。基于词的条件随机域的解码速度要高于基于单字的条件随机域,并降低了标注偏置问题和长度偏置的影响,在SIGHAN-6等开式和闭式语料上进行测试,获得了令人满意的结果。另外,为了进行对比,对基于单字的中文分词模型也进行了进一步的研究,在其中引入多个外部词典,并增加了相应的特征,进一步提高了基于单字的中文分词模型的分词精度;同时,为了满足高效率的中文词法分析需求,提出了基于最长次长匹配算法的一体化的中文词法分析方法,因为是基于隐马尔可夫进行编码和解码,因此具有较高的训练和词法分析速度。 其次,针对中文词法分析中的未登录词识别和标注问题,提出了隐藏状态的半马尔可夫条件随机域模型(Hidden semi-CRF), Hidden semi-CRF模型可以同步识别未登录词及其词性。Hidden semi-CRF模型结合了隐藏变量动态条件随机域模型(LDCRF)和半马尔可夫条件随机域模型(semi-CRF)的优势,相对semi-CRF模型具有更低的运算代价和更高的识别精度。通过Hidden semi-CRF模型同步识别未登录词及其词性,并加入到词格中参与整体路径选择,提高了词法分析的整体精度。 最后,将中文词法分析的结果直接应用到基于超函数的中日机器翻译系统中,对原有超函数进行了扩展:首先是将超函数扩展为面向句子的超函数和面向短语的超函数,其次是扩展了超函数中变量的范围,最后提出了高效率的搜索相似超函数的匹配算法。扩展后的超函数降低了超函数库的数量,提高了匹配超函数的检索速度,并且翻译的精度和质量也得到提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 达吾勒·阿布都哈依尔;海拉提·克孜尔别克;;基于规则的哈萨克语词干提取算法的研究[J];新疆大学学报(自然科学版);2011年02期
2 胡莉;;中文“词”的语言模型识别研究方法综述[J];北方文学(下半月);2011年03期
3 李文;李淼;梁青;朱海;应玉龙;乌达巴拉;;基于短语统计机器翻译模型蒙古文形态切分[J];中文信息学报;2011年04期
4 宁慧;文雪巍;邹韵;吴良杰;;基于语义分析的数据驱动型漏洞检测方法[J];应用科技;2011年06期
5 辛浩;;基于关联规则的中文姓名识别方法[J];宿州学院学报;2011年05期
6 李晓慧;;网络智能问答系统[J];电脑编程技巧与维护;2011年14期
7 王志洋;吕雅娟;刘群;;面向形态丰富语言的多粒度翻译融合[J];中文信息学报;2011年04期
8 张永兴;孙四明;张峰;;基于本体的信息检索系统研究[J];微计算机信息;2011年07期
9 陈永平;杨思春;毛万胜;苏新;刘俞;;中文问答系统中基于主题和焦点的问题理解[J];计算机系统应用;2011年06期
10 刘兴林;郑启伦;马千里;;中文合成词识别及分词修正[J];计算机应用研究;2011年08期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前10条
1 孟凡东;徐金安;姜文斌;刘群;;平仄信息对中文词法分析的影响[A];机器翻译研究进展——第七届全国机器翻译研讨会论文集[C];2011年
2 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 于传武;李生;陈鄞;赵铁军;;基于混合策略的汉语未登录词整体识别[A];第一届学生计算语言学研讨会论文集[C];2002年
4 董文莉;孟洛明;;XML网管接口一致性测试中XML解析器的开发[A];第六届全国计算机应用联合学术会议论文集[C];2002年
5 何伟;侯敏;;利用词汇时间分布信息提取未登录词[A];第九届全国人机语音通讯学术会议论文集[C];2007年
6 何燕;;基于单字词转移概率的未登录词识别[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
7 陈丽江;;ACL-SIGHAN第一届国际中文分词竞赛评述[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 古丽拉.阿东别克;达吾勒.阿布都哈依尔;;基于规则的哈萨克语词干提取系统的研究[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 郝博一;夏云庆;郑方;;OPINAX:一个有效的产品属性挖掘系统[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 雷静;;汉语机构名的构成模式[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
2 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
3 郭永辉;英汉机器翻译系统关键技术研究[D];解放军信息工程大学;2006年
4 陈兴蜀;应用区域边界的安全体系结构及实用模型研究[D];四川大学;2004年
5 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
6 雪艳;汉蒙词语对齐及相关技术研究[D];内蒙古大学;2009年
7 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
8 孟宪军;互联网文本聚类与检索技术研究[D];哈尔滨工业大学;2009年
9 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
10 刘根辉;计算语用学基础理论及其应用研究[D];华中科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 秦健;N-gram技术在中文词法分析中的应用研究[D];中国海洋大学;2009年
2 周吉;自然语言处理及搜索引擎的研究[D];吉林大学;2007年
3 王鲲;多智能体并行设计环境中自然语言通信功能的研究[D];中南大学;2002年
4 王晓春;从《汉语水平词汇与汉字等级大纲》看对外汉语词汇教学中的异形词问题[D];河北师范大学;2009年
5 吴江;SQL语言预编译器的构架——基于Linux操作系统[D];北京化工大学;2002年
6 秦元坤;正则表达式匹配中的DFA优化技术研究[D];清华大学;2008年
7 郭建星;形式化语言在报表系统中的研究和应用[D];上海师范大学;2004年
8 贺玲玲;FORTRAN 95 TO C/C++翻译系统设计与分析[D];电子科技大学;2004年
9 路红武;协议自适应的数据帧数据提取技术[D];北京化工大学;2005年
10 杨聪;基于口语对话的电话自动转接与信息查询技术研究[D];国防科学技术大学;2004年
中国重要报纸全文数据库 前7条
1 李琨;IBM百度共拓企业搜索[N];中国计算机报;2006年
2 记者 潘竑;企业搜索:激活被遗忘的信息财富[N];金融时报;2006年
3 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
4 张晓兵;互联网应用技术乍暖还寒[N];中国计算机报;2006年
5 王培垠;输入法通向搜索的新入口?[N];电脑报;2006年
6 中国软件评测中心;如何挑选白盒测试工具[N];中国计算机报;2005年
7 高品均 陈荣良;加脱密引擎[N];计算机世界;2000年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978