收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于字根法的古汉语分词模型

杨志胜  
【摘要】: 汉语分词技术,是计算语言学的一个重要研究方向,是机器翻译、文本分类、信息检索、语言合成等工作的第一个环节,同时也是自然语言处理的一个瓶颈难题。目前,现代汉语分词技术已经有了巨大的进步,某些分词系统可以达到95%以上的精确度。而古汉语分词方面的研究在国内尚无相关研究报告。 本文首先基于古汉语文本的词汇特点,参考了古汉语语言学的相关知识,根据单字词占古汉语词汇的80%以上的统计信息,设计了一种基于字根算法的分词系统模型,给出了该算法的形式化描述,并与分词算法中广泛采用的最大匹配法进行效率对比。并且使用VC++实现一个简单的分词测试程序。 基于语料库的分词词典的设计,直接影响分词的精度和速度,本文在简要介绍国内语料库发展后,提出了古汉语分词词典设计的几个注意的问题,并总结归纳了一些范例。另外,消除分词结果的歧义,也是分词模型的一个重要组成部分。本文介绍了古汉语分词歧义产生的原因和种类,通过归纳总结古汉语的句法特点,提出了一种基于古汉语句式的消歧策略。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 王巧玲;彭静;王春红;;中文分词技术的研究及在Nutch中的实现[J];科技信息;2011年19期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
11 ;[J];;年期
12 ;[J];;年期
13 ;[J];;年期
14 ;[J];;年期
15 ;[J];;年期
16 ;[J];;年期
17 ;[J];;年期
18 ;[J];;年期
19 ;[J];;年期
20 ;[J];;年期
中国重要会议论文全文数据库 前3条
1 党怀兴;;专书词典——新世纪古汉语词典编纂的主导方向[A];中国辞书论集2001[C];2001年
2 党怀兴;;古汉语词类活用研究与辞书编纂[A];中国辞书学文集[C];1998年
3 李丽;;内蒙古西部汉语方言饮食词语之命名理据研究[A];中国训诂学研究会2010年学术年会论文摘要集[C];2010年
中国博士学位论文全文数据库 前2条
1 冯秋香;基于数据库语义学的古汉语句法语义分析研究[D];大连理工大学;2012年
2 章黎平;汉语方言人体词语比较研究[D];山东大学;2011年
中国硕士学位论文全文数据库 前10条
1 杨志胜;基于字根法的古汉语分词模型[D];天津大学;2007年
2 彭小琴;古汉语词缀研究[D];四川大学;2003年
3 周文刚;基于语义的信息过滤算法及其应用[D];北方工业大学;2006年
4 励子闰;基于Lucene搜索引擎的中文全文信息检索技术的研究[D];华东师范大学;2010年
5 蔡灿民;基于词典的智能分词系统的研究与实现[D];昆明理工大学;2008年
6 陈宏彦;规则和统计相结合的分词算法[D];太原理工大学;2007年
7 文斌;新闻垂直搜索引擎的设计[D];华中科技大学;2007年
8 黄峰;基础教育搜索引擎中的网页文档特征提取研究[D];南京师范大学;2006年
9 贺曼丽;基于内容挖掘的垃圾短信过滤分类方法研究[D];湖南大学;2007年
10 郭倩;汉语日源回归词[D];西北大学;2011年
中国重要报纸全文数据库 前8条
1 张巨龄;从“以来”说到“今年以来”[N];光明日报;2003年
2 ;工具书百问百答(一)[N];中国图书商报;2004年
3 卢民;适应中学生的需求[N];中华读书报;2002年
4 邓颇;我们自己编词典[N];中国教师报;2003年
5 冯天瑜;中西日文化对接间汉字术语的厘定问题[N];光明日报;2005年
6 李天;建设文艺学精品学科[N];光明日报;2004年
7 米依;《中国古代文学史电子史料库》完成研制[N];中国新闻出版报;2004年
8 北京师范大学民俗典籍文字研究中心主任、教授 王宁;再谈《现代汉语规范词典》的命名[N];光明日报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978