收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

现代汉语自动分词研究及几个算法的实现

陈鹏宇  
【摘要】: 随着中国正在向信息化社会迅速前进,其突出特征是Internet上中文网页的急剧增加和中文电子出版物,中文数字图书馆的迅速普及。以及受限文本为主要对象的中文自然语言处理研究于是也水涨船高,重要性日益显著。而汉语自动分词是任何中文处理系统都难以回避的第一道“工序”,其作用是怎么估计都不会过分。只有逾越这个障碍,中文处理系统才称得上初步打上了“智能”的印记,构建于词平面的各种后续语言分析手段才有展示身手的舞台。否则,系统便只能被束缚在字平面上,成不了太大气候。 本论文正是针对上述问题,讨论了现代汉语自动分词的现实性、必要性和可行性。并介绍了现代汉语自动分词在软件中的应用和理论中的应用。详细讨论并实现了目前常用的现代汉语分词算法:最大匹配法、逆向扫描算法、最大概率法和中文姓名的识别算法。为了便于分析分词后的数据我设计了一个通用平台可将以上各种算法集合一起。通过这个平台,可以很方便的将新的分词算法挂上去,并了解整个分词的流程。为以后的研究提供了方便。 通过对结果的分析,可以了解了各种分词算法的优缺点,分析了分词结果的各种歧义现象。为现代汉语自动分词算法的应用提供了很好的借鉴意义。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李红斌,方连众;首字词最大匹配法与最大匹配法的复杂性比较[J];哈尔滨工业大学学报;1993年05期
2 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
3 章森,宗成庆,陈肇雄,黄河燕;语句拼音-汉字转换的智能处理机制分析[J];中文信息学报;1998年02期
4 王中立;;汉语自动分词中切分歧义及处理技术[J];许昌学院学报;2006年02期
5 李秀志;书面汉语自动分词方法研究[J];微型机与应用;1993年07期
6 赵志靖,周静,冯锐,齐丙辰;智能人机交互中自动分词技术的实现[J];扬州大学学报(自然科学版);2005年03期
7 黄祥喜;;关于书面汉语中词链问题的分析和处理[J];情报科学;1988年05期
8 郑延斌;书面汉语自动分词及歧义分析[J];河南师范大学学报(自然科学版);1997年04期
9 徐进鸿,邵品洪,李明霞;情报检索数学模型及若干技术进展[J];现代图书情报技术;1990年03期
10 黄崑,符绍宏;自动分词技术及其在信息检索中应用的研究[J];现代图书情报技术;2001年03期
11 高洁羽,吕强,杨季文,钱培德;自动分词在输入法测试系统中的应用[J];电化教育研究;2003年02期
12 王彩荣;汉语自动分词专家系统的设计与实现[J];微处理机;2004年03期
13 刘开瑛;现代汉语自动分词评测技术研究[J];语言文字应用;1997年01期
14 王彩荣,李晓毅,黄玉基;汉语自动分词系统的评价[J];微处理机;2003年05期
15 徐华中;徐刚;;一种新的汉语自动分词算法的研究和应用[J];计算机与数字工程;2006年02期
16 付海辰;;网页文本自动分词的有词典方法[J];华章;2011年05期
17 黄昌宁;自动分词[J];语言文字应用;1997年01期
18 王巍;;基于Perl的汉语自动分词算法研究[J];中州大学学报;2007年01期
19 罗洋;;汉语自动分词方法的综述[J];科技信息;2009年07期
20 陈顺强;;彝文自动分词技术研究[J];中文信息学报;2011年03期
中国重要会议论文全文数据库 前10条
1 徐艳华;;面向自动分词的三音节新词语构词法研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 高璐;陈琪;李永宏;于洪志;;藏语语音合成中本文分析的若干问题研究[A];第九届中国语音学学术会议论文集[C];2010年
3 李斌;陈小荷;;面向中文陌生文本的人机交互式分词方法[A];第三届学生计算语言学研讨会论文集[C];2006年
4 李小明;王亚莉;易立夫;杨静;孙金城;;自动分词中的单字虚词处理[A];新世纪的现代语音学——第五届全国现代语音学学术会议论文集[C];2001年
5 黄昌宁;高剑峰;李沐;;对自动分词的反思[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 孙承杰;黄昌宁;关毅;;基于标注语料库的组合歧义检测与消解[A];第三届学生计算语言学研讨会论文集[C];2006年
7 黄昌宁;林娟;孙承杰;;何谓金本位[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
8 郑泽之;;中文自动分词的一些问题[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 杨尔弘;方莹;乔羽;;汉语自动分词和词性标注评测[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 李晰;肖东昀;;装备保障力量部署方案评估系统设计[A];'2008系统仿真技术及其应用学术会议论文集[C];2008年
中国博士学位论文全文数据库 前4条
1 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
2 黄魏;植物营养诊断自动应答网络专家系统研究[D];华中农业大学;2007年
3 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
4 姜韶华;科研项目管理中的文本挖掘方法研究及应用[D];大连理工大学;2006年
中国硕士学位论文全文数据库 前10条
1 陈鹏宇;现代汉语自动分词研究及几个算法的实现[D];电子科技大学;2008年
2 赵志靖;汉语自动分词技术及其在机器人辅助教育智能接口中的应用研究[D];天津师范大学;2004年
3 普布旦增;藏文自动分词技术方法研究[D];西藏大学;2010年
4 蔡灿民;基于词典的智能分词系统的研究与实现[D];昆明理工大学;2008年
5 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
6 段倩倩;面向信息处理的带典型前缀派生词的识别分析[D];上海师范大学;2010年
7 史迎馨;建筑图中有限自然语言的分析与理解的研究[D];长春工业大学;2010年
8 程越;基于统计的中文姓名识别的研究与实现[D];吉林大学;2005年
9 乔素娟;基于SVM的中文垃圾邮件的识别研究[D];山西财经大学;2006年
10 郭晓刚;个性化网络搜索引擎研究[D];吉林大学;2010年
中国重要报纸全文数据库 前5条
1 王萍;Web文本的知识化管理[N];计算机世界;2006年
2 教育部语信司;语言资源监测与服务论坛举行[N];语言文字周报;2010年
3 实习生 康晨;网络没有唯一:国内中文搜索引擎之比较[N];中国消费者报;2005年
4 田梦;软件篇软件只是工具[N];计算机世界;2007年
5 教育部语信司;国家语言资源监测与研究中心召开2007数据发布专题研讨会[N];语言文字周报;2008年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978