收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉语自动分词系统的研究与实现

代建英  
【摘要】:自然语言处理是人工智能的一个重要分支。汉语自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题。汉语自动分词系统是利用计算机对汉语文本进行词语自动识别的系统,对其研究已经取得了很多成果,但已有的系统还不能完全满足实际应用的需要,有待继续研究。 本文主要目标是设计并实现一个汉语自动分词系统。在分析了自动分词面临的主要困难和难点的基础上,旨在降低分词难度和提高分词精度,设计并实现了一个基于多步处理策略的汉语自动分词系统。论文的主要工作如下: 论文首先介绍了汉语自动分词系统通常采用的语言模型和分词算法,提出了基于词性信息和规则相结合的时间语词消歧算法。时间语词包括时点语词和时段语词,特定类型时间语词在切分时存在是时点还是时段的问题。本文提出的算法开放测试正确率约为90%,表明了该算法的有效性。 其次搜集、整理和建立了研究所用的自然语言资源。主要包括人工切分标注语料的搜集、加工和整理,生语料的搜集及加工,分词词典和为分词提供决策依据知识的分词知识库的建立。还对文本中的非汉字字符、汉字数字串归并进行了探索。 论文的核心工作是设计并实现了一个基于多步处理策略的汉语自动分词系统。系统包括初切分,词性标注、歧义字段处理、模型平滑、未登录词识别等功能模块。初切分是找出待切分语句各种可能路径;歧义字段处理包含利用词的二元模型或分词词性标注一体化模型处理交集型歧义,利用支持向量机理论处理组合型歧义;未登录词识别已实现的功能是利用词性探测法识别中文姓名;模型平滑技术体现在词性标注和歧义字段处理过程中。 最后通过实验验证了系统的性能。与人工分词结果相比,系统的分词正确率达到了96.94%,分词速度在1000~1400 个/秒之间,虽然没有达到目前所见效果最好的中科院汉语词法分析系统ICTCLAS 的精度和效率,但在实现过程中探索的一些新方法对以后的研究将会提供很多的帮助。同时对全文的工作进行了总结,提出进一步的研究工作。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 冯素琴;陈惠明;;一种自组织的汉语组合型歧义消歧方法[J];计算机工程与设计;2007年03期
2 黄永文;何中市;王海燕;;基于时间序列分析的动态分布平滑方法[J];电子学报;2008年S1期
3 岳涛;汉语自动分词技术的最新发展及其在信息检索中的应用[J];情报杂志;2005年04期
4 刘楚达,孙海涛;一种基于统计的中文自动文摘方法[J];湖南农业大学学报;2001年06期
5 肖云,孙茂松,邹嘉彦;利用上下文信息解决汉语自动分词中的组合型歧义[J];计算机工程与应用;2001年19期
6 刘迁;贾惠波;;中文信息处理中自动分词技术的研究与展望[J];计算机工程与应用;2006年03期
7 陈史政;章权兵;;关于词聚类中二元词聚类的一些探讨[J];福建广播电视大学学报;2007年06期
8 熊泉浩;;中文分词现状及未来发展[J];科技广场;2009年11期
9 郭燕慧,钟义信;统计语言模型中句子的语义连贯性判别[J];情报学报;2003年04期
10 李生琦;田巧燕;汤承;;基于《〈知网〉》词汇语义相关度计算的消歧方法[J];情报学报;2009年05期
11 姜文志;范洪达;聂心东;蒋伟俊;;作战命令的分词技术研究[J];海军航空工程学院学报;2008年01期
12 熊回香;夏立新;;自然语言处理技术在中文全文检索中的应用[J];情报理论与实践;2008年03期
13 王显芳,杜利民;利用覆盖歧义检测法和统计语言模型进行汉语自动分词[J];电子与信息学报;2003年09期
14 刘启和;詹思瑜;杨国纬;;基于统计语言模型的双向词类标注方法[J];计算机科学;2003年09期
15 何中市;;自然语言处理与统计语言模型[J];外国语言文学研究;2004年02期
16 董小芸,刘俊熙;自动分词在中文信息检索中的应用[J];情报杂志;2003年12期
17 佘莉,符红光,方海光;几何命题处理中的中文分词技术[J];计算机工程;2005年18期
18 赵敏涯;沈洁;陈志敏;林颖;;一种新的自动文本分类的算法[J];扬州大学学报(自然科学版);2006年01期
19 熊回香;夏立新;;汉语分词技术综述[J];图书情报工作;2008年04期
20 赵敏涯;;结合语言模型的自动文本分类的应用研究[J];计算机与现代化;2010年03期
中国重要会议论文全文数据库 前10条
1 张玥杰;徐智婷;钱晶;张涛;;自然语言处理中专名识别方法的研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
2 汪华峰;陈峪;;汉语自然语言理解中词切分中新词问题初探[A];第一届全国语言识别学术报告与展示会论文集[C];1990年
3 袁里驰;钟义信;;统计语言模型在语言信息处理中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
4 孙茂松;;汉语自动分词研究及其应用:回顾与展望[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
5 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
6 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
8 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
10 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 文娟;统计语言模型的研究与应用[D];北京邮电大学;2010年
2 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
3 计峰;自然语言处理中序列标注模型的研究[D];复旦大学;2012年
4 高红;基于统计语言模型的汉语浅层分析研究[D];大连理工大学;2007年
5 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
6 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
7 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 汤步洲;序列标注问题的监督学习方法及应用[D];哈尔滨工业大学;2011年
10 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 代建英;汉语自动分词系统的研究与实现[D];重庆大学;2005年
2 黄永文;基于互信息的统计语言模型平滑技术[D];重庆大学;2005年
3 程晓静;自然语言处理在药物专利检索系统中的应用[D];大连理工大学;2004年
4 杨辉;汉语新词语发现及其词性标注方法研究[D];复旦大学;2008年
5 唐琦;基于语义分析的句子相似度计算研究[D];华北电力大学(北京);2009年
6 张六四;基于远程教育的智能答疑系统的研究与实现[D];西安电子科技大学;2006年
7 陈波;中文统计自然语言处理隐马模型的研究[D];重庆大学;2003年
8 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
9 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
10 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978