收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于统计机器学习算法的汉语分词系统的研究

刘武  
【摘要】:在词汇级的中文语言处理中,存在两个基本的问题:其一是汉语自动分词,其二是中文命名实体识别。通常的系统都把这两个任务分开处理,也就是不同任务使用不同的处理策略或两个任务按时间顺序先后被处理。我们认为这两个问题从本质上说并不是独立的,完全可以在一个系统里同时将其解决。在本文中,我们提出了一个统一的方法来实现汉语自动分词和中文命名实体识别。 统计语言模型已经成功地应用到很多的领域,例如语音识别领域、信息抽取领域和口语理解领域。特别是三元语言模型在这些领域已被证实是相当有效的。在本文中,我们提出了一种统一的统计语言模型方法用来汉语自动分词和中文命名实体识别,这种方法对基于词的三元语言模型进行了很好的扩展。 本文旨在使用一个统一的方法解决两个基本的自然语言处理问题:其一是汉语自动分词,其二是中文命名实体识别。我们提出了一种基于类的语言模型的方法,这种方法对于类的定义主要集中在六类:中国人名和外国人名,中国地名和外国地名,中国组织机构名和外国组织机构名。基于类的语言模型包括两个独立的子模型:(1)一系列的命名实体语言模型,每个命名实体语言模型估计在给定类的情况下字符串的生成概率;(2)语境模型,语境模型估计类序列的生成概率。因此,我们所提出的基于类的语言模型提供了一个统计的框架来统一处理汉语自动分词和中文命名实体识别。初步的结果表明这种方法在与其它的已经发表的基于机器学习的方法比较时是具有竞争力的。通过对北京大学2000年全年的标注语料的训练,汉语分词的准确率、召回率分别为96.0%和96.4%;人名、地名、机构名的准确率分别为88.79%,83.20%,85.67%;人名、地名、机构名的召回率分别为90.13%,89.21%,80.13%。我们使用本系统参加了第二届SIGHAN的竞测,取得了很好的名次。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
2 代建英,何中市;基于词性信息的汉语时间语词消歧算法[J];重庆大学学报(自然科学版);2005年09期
3 王锡江;王启祥;陈家骏;;基于邻接知识的汉语自动分词系统[J];计算机研究与发展;1992年11期
4 徐志明,王晓龙,关毅;汉语大词表N-gram统计语言模型构造算法[J];计算机应用研究;1999年06期
5 高升,徐志明;统计语言模型中词的自动聚类技术研究[J];计算机工程与应用;2003年11期
6 郭燕慧,钟义信;统计语言模型中句子的语义连贯性判别[J];情报学报;2003年04期
7 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
8 赵正文;康耀红;;统计语言模型在信息检索中的应用[J];计算机工程与应用;2006年36期
9 吴东峥;;基于统计的开放式汉语自动分词[J];福建电脑;2009年03期
10 王希杰;赵晓凡;;浅谈汉语自动分词的几种方法[J];价值工程;2011年13期
11 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
12 田斌;田红心;易克初;;一种结合声学匹配信息的汉语统计语言模型新方法[J];模式识别与人工智能;1999年04期
13 田斌,田红心,易克初;一种改进的汉语N元文法统计语言模型[J];西安电子科技大学学报;2000年01期
14 郑洪静;韩卓平;;统计语言模型的手机数码中文输入法研究[J];苏州市职业大学学报;2008年02期
15 陈湘柳;;汉语自动分词理论对英语教学的启示[J];榆林学院学报;2010年01期
16 耿立中;贾惠波;;基于统计语言模型的低耗时入侵检测方法[J];计算机工程;2010年05期
17 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
18 文庭孝,邱均平,侯经川;汉语自动分词研究展望[J];现代图书情报技术;2004年07期
19 邱均平,文庭孝,周黎明;汉语自动分词与内容分析法研究[J];情报学报;2005年03期
20 苏绥;林原;林鸿飞;;语言模型在信息检索中的应用[J];情报学报;2011年07期
中国重要会议论文全文数据库 前10条
1 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
2 袁里驰;钟义信;;统计语言模型在语言信息处理中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
3 刘昆;张建平;颜永红;;统计语言模型中语料的选择[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
4 孙茂松;;汉语自动分词研究的若干最新进展——清华大学相关工作简介[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 曲维光;;解决汉语自动分词的方法选择[A];第一届学生计算语言学研讨会论文集[C];2002年
6 赵军;敖其尔;吉仁尼格;巩政;葡萄;陈建东;;基于统计语言模型蒙古文词汇分析校正器的设计与实现[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 陈晓;;中文文本自动分词研究述要[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
8 贺前华;徐秉铮;;神经网络在汉语自动分词中的应用[A];第二届全国人机语音通讯学术会议论文集[C];1992年
9 袁里驰;钟义信;;一种新颖的词聚类算法[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
10 庄丽;包塔;朱小燕;;盲人用计算机软件系统中的语音和自然语言处理技术[A];第七届全国人机语音通讯学术会议(NCMMSC7)论文集[C];2003年
中国博士学位论文全文数据库 前10条
1 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
2 贺前华;汉语自动分词及机器翻译研究[D];华南理工大学;1993年
3 刘政怡;中文整句智能输入方法研究[D];安徽大学;2007年
4 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
5 田萱;基于上下文的信息检索关键技术研究[D];中国人民大学;2007年
6 马瑞;非限制手写字符分割中相关技术与算法的研究[D];南京理工大学;2007年
7 姜维;统计中文词法分析及其强化学习机制的研究[D];哈尔滨工业大学;2007年
8 吴应良;网络计算中的智能信息处理方法研究[D];华南理工大学;2000年
9 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
10 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前10条
1 刘武;基于统计机器学习算法的汉语分词系统的研究[D];北京邮电大学;2006年
2 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
3 李丹;基于规则与统计的汉语自动分词研究[D];长春工业大学;2010年
4 翟明新;统计语言模型平滑技术和压缩技术的研究与实现[D];西安电子科技大学;2012年
5 李贞;基于统计语言模型的中文网页信息检索研究[D];华中师范大学;2012年
6 程晓静;自然语言处理在药物专利检索系统中的应用[D];大连理工大学;2004年
7 王志勇;基于统计语言学模型的中文文本信息检索[D];第二军医大学;2004年
8 李晓红;中文文本分类技术研究[D];兰州理工大学;2009年
9 甄天桥;基于统计和潜在语义分析的混合语言模型的研究[D];哈尔滨工业大学;2007年
10 罗小虎;基于蚁群算法的汉语自动分词的研究与实现[D];苏州大学;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978