收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

中文文本分词研究

许林杰  
【摘要】: 中文文本分词问题是中文信息处理的一个重要问题,这个问题解决的好坏将直接影响中文信息处理的发展前景。目前学术界主要采用计算机自动分词解决中文文本分词,但是这种方法不能完全解决分词问题,这是因为计算机自动分词不能彻底地解决歧义字段的切分。那么,歧义字段倒底有多少,有哪些表现形式,形成的原因又是什么。为了对这个问题有一个充分的认识,我们对计算机的自动分词中的歧义字段做了定量分析,研究了歧义字段的分类和形成原因。 论文分为六个部分: 一、研究背景及问题的提出 中文文本分词在中文信息处理中有重要的作用,中文信息处理必须解决中文文本分词问题。 二、研究现状及存在的问题 目前中文信息处理中利用计算机自动分词解决中文文本分词,虽然取得了一定的成果,但是计算机自动分词存在一个重要的问题就是不能彻底解决歧义字段切分。 三、研究内容和思路 为了全面认识歧义字段的切分问题,我们采用受限语言的研究方法,以《信息交换用汉字编码字符集——基本集》中的3,755个一级字为研究对象,以《信息处理用现代汉语常用词词表》为参考,以典范的现代白话文著作为语法规范,统计分析出歧义字段的数量、表现 形式及形成原因。 四、计算机自动分词中歧义字段的研究 在本部分,利用计算机程序设计,统计分析出《信息交换用汉字 编码字符集一基本集》中的3,755个一级字的构词现状和歧义字段 的数量。对歧义字段的表现形式从构成形式和语法关系上做了分类研 究,并研究了歧义字段的形成原因。 五、中文文本分词解决方法的展望 通过以上的分析研究,我们可以看到,利用计算机自动分词是不 可能完全解决歧义字段的切分问题的。解决分词问题只能另辟溪径, 可以从汉字文本分词连写和按照汉语拼音正词法书写中文文本这两 个角度着手研究分词问题。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 辛红;通过比较讲清语法概念[J];雁北师范学院学报;1994年04期
2 罗小强,王仁华;汉语音节全分词算法[J];中国科学技术大学学报;1995年02期
3 匡世玉,蔡德全;分词(Participle)用法点滴[J];自贡师范高等专科学校学报;1997年02期
4 路式成 ,罗兴伟;英语名词(代词)+“-ing”分词复合结构[J];解放军外国语学院学报;1981年01期
5 周光华;;-ed分词的功能[J];英语知识;1998年07期
6 许国强;论英语“反向心理动词”[J];解放军外国语学院学报;1993年06期
7 惠芡;英语“特殊被动语态”浅探[J];南都学坛;1995年02期
8 朱福荣;内地与香港部分词语对照[J];中国工商;1997年10期
9 张彻;浅议动词中分词的介词作用[J];内蒙古科技与经济;2002年09期
10 石凯民;;不能作定语的第二分词[J];德语学习;2007年03期
11 阮利东;;分词的用法归纳及学习策略浅谈[J];教师;2010年19期
12 袁毓林;关于分词规范和规范词表的若干意见[J];语言文字应用;1997年04期
13 李万勇;;英语非谓语动词的词性界定[J];泰安教育学院学报岱宗学刊;2007年01期
14 李欣;;留学生阅读中的分词问题[J];科教文汇(下旬刊);2008年05期
15 王鹏侠;分词的逻辑主语与句中主语不一致的两种情况[J];甘肃教育;1998年10期
16 林红;an interested look与an interesting look的区别[J];大学英语;1999年01期
17 强增吉;英语动词+-ing分词结构剖析[J];外国语(上海外国语大学学报);1984年06期
18 张爱卿;谈谈无归属分词等的弹性[J];大学英语;1988年05期
19 强增吉;英语问题解答[J];外国语(上海外国语大学学报);1984年04期
20 雷怀宇;现代汉语中划分词类的问题[J];云南民族大学学报(哲学社会科学版);1986年02期
中国重要会议论文全文数据库 前10条
1 徐幸;王厚峰;;中文文本蕴含的推理模型[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 齐攀;陈晓云;;一种基于统计信息的无字典中文文本特征提取算法[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
3 郑天宏;许杭杰;董黎刚;;中文文本抄袭检查技术的研究[A];浙江省电子学会2010学术年会论文集[C];2010年
4 徐润华;陈小荷;;一种利用注疏的《左传》分词新方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 李怡平;吴飞;;多语言环境下的分布式互联网分词平台[A];第十六届全国数据库学术会议论文集[C];1999年
6 赵伟;路永刚;吴琼;;一种新的基于BMM和RMM分词方法的研究与实现[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 李晶;陈鄞;杨沐昀;徐冰;;关于在分词系统中引入领域词典的研究[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 曹娟;周经野;;隐式分词连写输入方法——解决汉语分词问题的根本途径[A];第二届全国学生计算语言学研讨会论文集[C];2004年
9 肖志文;陈伟;梁久祯;雷彬;;基于LZW算法的中文文本压缩算法[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
10 通拉嘎;;汉、蒙、藏、维分词与词性标注技术发展现状研究[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 李南希;非特定人的自然书写脱机中文文本行识别[D];华南理工大学;2010年
2 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
3 徐迎晖;文本载体信息隐藏技术研究[D];北京邮电大学;2006年
4 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
5 朱聪慧;汉英动词次范畴相关技术的研究[D];哈尔滨工业大学;2009年
6 秦颖;汉语词和短语的歧义消解研究[D];北京邮电大学;2008年
7 孙晓;中文词法分析的研究及其应用[D];大连理工大学;2010年
8 张长利;面向特定领域的互联网舆情分析技术研究[D];吉林大学;2011年
9 冯敏萱;论汉英平行语料的平行处理[D];南京师范大学;2006年
10 颜端武;面向知识服务的智能推荐系统研究[D];南京理工大学;2007年
中国硕士学位论文全文数据库 前10条
1 陈思;中文文本投诉信息自动分类系统研究[D];东北师范大学;2010年
2 许林杰;中文文本分词研究[D];山东师范大学;2003年
3 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
4 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
5 党蕾;中文文本多粒度情感分类计算的研究[D];西北大学;2010年
6 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
7 许荣荣;中文文本自动分词技术与算法研究[D];郑州大学;2010年
8 赵春红;外包数据库模型中文本数据完整性检测方案的研究[D];燕山大学;2010年
9 卢育红;半结构化药物数据智能分类技术研究与系统实现(全日制专业学位)[D];北京交通大学;2011年
10 郭瞳康;基于词典的中文分词技术研究[D];哈尔滨理工大学;2010年
中国重要报纸全文数据库 前10条
1 中国社科院法学所研究员 刘仁文;国际公约中文文本的纠错与重译[N];法制日报;2008年
2 吴子桐;整理英文国故,说明真实中国[N];中华读书报;2010年
3 赛迪评测计算机外围设备实验室;支持无线打印[N];中国计算机报;2003年
4 ;健康、成本兼顾[N];中国计算机报;2004年
5 高岚;海量在线做搜索引擎“卖水人”[N];中国计算机报;2004年
6 陆元婕;聪明的搜索引擎[N];中国计算机报;2001年
7 本报记者 侯闯;让企业不再“眼花”[N];计算机世界;2003年
8 赛迪评测硬件评测事业部计算机外设实验室;“精”工出“细”活[N];中国计算机报;2003年
9 记者 齐泽萍;我省科技之花含苞待放[N];山西经济日报;2002年
10 赛迪评测外设测试实验室;Canonxnu i320喷墨打印机[N];中国计算机报;2002年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978