收藏本站
《电子科技大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

基于理解的汉语分词系统的设计与实现

苏勇  
【摘要】:在如今的互联网普及的时代,我们面临的已经不再是信息匮乏和信息获取的问题了,而是面对泛滥的海量信息如何筛选、加工处理的问题。这些互联网中的大部分信息是以半结构化文本或纯文本的形式出现的,于是自然而然的产生出了对这些文本信息进行挖掘的强烈需求。 汉语的智能处理的首要条件就是实现汉语分词的处理。汉语分词问题的源自于自身特有的语言文化,与西方文字不同汉语词与词之间无明显分隔标记。由此就诞生了汉语分词技术,该技术的研究目标是解决汉语文本信息中字符串划分组合成词的问题,是计算机智能处理汉语信息的基础步骤。从上世纪80年代至今,汉语分词技术历经几十年的研究发展取得了一定的成绩,但是在歧义处理和未登录词的处理上目前还尚未有能有效解决的方案。 汉语分词技术可以归纳为三种:一、基于字符串匹配分词;二、基于统计概率分词;三、基于理解的分词。三种分词方式各有优劣,其中第一和第二种分词模式已经发展的相对成熟和稳定,并且研发出了许多相当优秀的算法,第三种分词模式还处在起步阶段也是最具潜力的分词方法。三种分词模式由于采用的技术原理和模型的不同因而各有不足和缺陷,但是三种模式却具有功能上得互补性。 本文研究的主要目标是解决歧义问题,尤其是伪歧义问题的解决。文章讨论了歧义产生的原因,歧义的定义,并针对歧义产生的原因给出了歧义的解决方案以试图实现构建一个能解决伪歧义的汉语分词系统。同时,文章还论述了未登录词的解决方案,针对有规律可循的未登录词方案使用模式来进行识别处理。 本文重点是放在歧义的解决方案的设计、实现上,着重论述了语义等信息的形式化模型及如何利用语义、知识等信息进行分词。文章介绍了将词典匹配、模式处理、语义验证集成的分词系统的整体设计模型以及数据表示和存储的实现方式,并对系统运行中涉及的算法给出了详细的介绍。在此基础上,本文利用C#语言和数据库等开发平台对设计模型和方案进行了系统开发和实现。 最后,文章总结了方案的经验和成果同时也指出了不足和有待改进的地方以及系统下一步的研发目标。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张海营;;全二分快速自动分词算法构建[J];现代图书情报技术;2007年04期
2 尹锋;基于神经网络的汉语自动分词系统的设计与分析[J];情报学报;1998年01期
3 王晓龙,王开铸,李仲荣,白小华;最少分词问题及其解法[J];科学通报;1989年13期
4 付国宏,王平,王晓龙;汉语分词和词性标注一体化分析的方法研究[J];计算机应用研究;2001年07期
5 王科,高常波,翟雪峰,罗万伯;汉语分词的主要技术及其应用展望[J];通信技术;2003年06期
6 火善栋;;有限状态机在中文文本分词中的应用[J];现代计算机(专业版);2010年06期
7 沈达阳,孙茂松,黄昌宁;汉语分词系统中的信息集成和最佳路径搜索方法[J];中文信息学报;1997年02期
8 翟伟斌;周振柳;蒋卓明;许榕生;;汉语分词词典设计[J];计算机工程与应用;2007年01期
9 马婷婷;;中文自动分词系统概述[J];电脑知识与技术;2010年33期
10 李正伟;汉语分词与词典自学习系统[J];内蒙古煤炭经济;2001年05期
11 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
12 周波;杨国纬;;基于贝叶斯算法的中国人名识别[J];计算机应用;2006年04期
13 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报;2003年02期
14 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
15 蔡之让;汉语自动分词输入/输出模块的设计[J];宿州师专学报;2002年02期
16 邓曙光,曾朝晖;汉语分词中一种逐词匹配算法的研究[J];湖南城市学院学报(自然科学版);2005年01期
17 刘晓英;汉语自动分词研究的发展趋势[J];高校图书馆工作;2005年04期
18 金澎;刘毅;王树梅;;汉语分词对中文搜索引擎检索性能的影响[J];情报学报;2006年01期
19 于江德;睢丹;樊孝忠;;基于字的词位标注汉语分词[J];山东大学学报(工学版);2010年05期
20 于江德;王希杰;樊孝忠;;基于最大熵模型的词位标注汉语分词[J];郑州大学学报(理学版);2011年01期
中国重要会议论文全文数据库 前10条
1 李博渊;奚宁;黄书剑;张建兵;陈家骏;;一种适用于机器翻译的汉语分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 陈鄞;赵铁军;吕雅娟;于浩;;汉英机器翻译中数词的识别和翻译[A];机器翻译研究进展——2002年全国机器翻译研讨会论文集[C];2002年
3 徐冰;姚建民;杨沐昀;赵铁军;;汉语分词在机器翻译评价中的影响[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 万升华;杨沐昀;李生;赵铁军;;基于字词混合翻译短语的统计机器翻译[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
5 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
6 付国宏;王晓龙;龚永红;;基于词形的汉语文本切分方法[A];第五届全国人机语音通讯学术会议论文集[C];1998年
7 李双龙;刘乐中;刘群;;利用单字碎片过滤改进汉语分词性能[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
8 李晶;陈鄞;杨沐昀;徐冰;;关于在分词系统中引入领域词典的研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 穆飞;李维佳;薛巍;舒继武;;一种分布式信息检索系统的设计与实现[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
中国重要报纸全文数据库 前1条
1 记者 侯梅竹;汉语语料检索系统问世[N];计算机世界;2004年
中国博士学位论文全文数据库 前4条
1 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
2 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
3 王斯日古楞;基于混合策略的汉蒙机器翻译及相关技术研究[D];内蒙古大学;2009年
4 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
中国硕士学位论文全文数据库 前10条
1 苏勇;基于理解的汉语分词系统的设计与实现[D];电子科技大学;2011年
2 岳金媛;面向专利文献的汉语分词技术研究[D];北京交通大学;2013年
3 王会彩;面向领域的自然语言理解中歧义处理、控制及其在产品设计中的应用[D];西安电子科技大学;2010年
4 王红雨;网络教学汉语答疑系统关键技术的研究与应用[D];大连理工大学;2006年
5 周波;汉语语言处理中专有名词的提取和识别[D];电子科技大学;2006年
6 李楠;基于遗传算法的汉语文本主题词提取研究[D];吉林大学;2007年
7 冯蜀茗;网络环境下协作学习监控研究[D];西南师范大学;2005年
8 温滔;自适应歧义切分的汉语分词系统的设计与实现[D];苏州大学;2005年
9 崔明明;基于机器学习的中文分词的研究与实现[D];沈阳工业大学;2009年
10 郭翠珍;基于网格的分词服务系统的研究与实现[D];苏州大学;2006年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978