收藏本站
《华南理工大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于拓扑学和统计学的无字库汉字智能造字研究

卢建平  
【摘要】: 以文化和技术角度描述的无字库汉字智能造字理论研究已经取得了丰富的成果,设计开发的汉字智能造字软件系统成功地实现了汉字字符集GB18030-2005中规定的70244个汉字的智能造字实验。为研究汉字智能造字的内在规律性,本文采用了拓扑、统计等数学工具,对研究的汉字基元、汉字结构、汉字编码进行符号化,研究汉字基元理论、结构理论、编码理论和造字理论的合理性、严肃性和稳定性,从而丰富和完善智能造字理论。为了检验智能造字的效果,研究智能造字的降熵机理并对智能造字的信息化效率进行评价。 下面介绍作者在论文研究期间所从事的主要工作以及取得的进展: 1.汉字基元理论研究。(1)利用拓扑理论对汉字基元进行了数学描述:分析了汉字集合,汉字成分集合和汉字基元集合之间的关系;建立了汉字基元和数学拓扑基之间的关系,为汉字基元的中文命名提供了数学理论上的支撑。(2)建立了可选择汉字基元的数学描述理论,解决了如何在不同的汉字子集合上各自选择基元集而不互相冲突的问题;并说明了汉字基元集合的确定性问题。(3)进一步地,用层次分析法建立了从汉字集合中选择汉字基元的数学模型,解决了实际如何从汉字集合中选择汉字基元的数学问题。(4)汉字基元个数的稳定性。由于汉字基元具有组成的确定性以及实验获取的稳定性的两个特性,用统计模型的可线性化的一元非线性回归预测了汉字基元个数的稳定性。 2.汉字结构理论研究。(1)利用拓扑理论对汉字结构进行了数学描述:利用现代拓扑学中商空间、同伦论等理论对汉字智能造字中具有不同拓扑特征的结构类分别进行了研究,形成一套对汉字结构的数学描述理论,从而实现了运用拓扑知识对汉字结构进行数学描述的目标。(2)汉字结构种类的稳定性:由于汉字结构具有定义的确定性和实验获取汉字结构种类的稳定性的两个特性,从汉字拼合方式的拓扑特性预测了汉字结构种类的稳定性。 3.汉字编码理论研究。针对汉字智能造字中的编码包括结构编码和基元编码两个部分的特性,(1)从数学上描述了汉字智能造字编码,并说明了汉字智能造字编码是一种“结构+基元”特征的组合编码;(2)从数学理论上验证了智能造字中的汉字编码的机内码是单义可译码和即时码。对GB18030-2005中的全部70244个汉字在编码平台下都有编码且是唯一编码的实验结果,汉字编码理论从数学角度对智能造字中汉字机内码编码的完备性和唯一性予以了解释。 4.汉字智能造字理论和系统模型研究。对汉字造字过程进行了数学描述:(1)从拓扑学的角度证明了可以造字的数学命题,解决了汉字造字的数学理论支撑的问题。(2)根据智能造字的理论思想建立了智能造字的数学模型,解决了智能造字的理论从定性描述向数学理论描述的转化问题。可造字的数学理论解释了汉字造字的可实现性,并进一步地建立了汉字智能造字的数学模型,造字实验结果也证实了本章提出的模型方法的可行性和有效性。 5.汉字智能造字的降熵机理和信息熵计算。现有的中文信息系统均采用汉字字库方式,以汉字作为最小的处理单元,其静态平均信息熵为9.65比特/字符,是开销最大和效率最低的文字处理系统。在分析了现有汉字字库方式的汉字系统信息熵偏高的原因及其降熵机理的基础上,以汉字基元为汉字处理的单位进行了信息熵实验,得到信息熵是5.29比特/字符,达到与拼音文字相接近的水平,实验结果表明上述方案有效地降低了汉字的信息熵。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前17条
1 徐祖哲;汉字信息化与传统文化的宏扬[J];信息系统工程;2000年02期
2 崔金明;;计算机辅助留学生汉字学习的设计理念[J];陕西教育(高教版);2013年03期
3 夏莹,张炘中;自动识别手写印刷体汉字系统中的部件分离问题[J];计算机学报;1985年06期
4 韩布新,陈一凡;汉字认知心理研究对机器自动识别汉字的启示[J];中文信息学报;1993年04期
5 潘德孚 ,詹振权;汉字部件的研究[J];中文信息;1995年03期
6 周浩华;统一汉字库的研究[J];中文信息学报;1993年04期
7 赵金铭!100083;汉字教学与学习的新思路——评《多媒体汉字字典》[J];语言教学与研究;2000年04期
8 王治阳;;T形汉字码输入法[J];计算机时代;2014年08期
9 陈晖;;多媒体环境下影响小学汉字学习的因素及对策探析[J];中小学电教;2006年08期
10 罗纲,孙星明;汉字数学表达式开发平台的设计与实现[J];计算机工程与应用;2005年05期
11 张问银,孙星明,曾振柄,吴尽昭;汉字数学表达式的自动生成[J];计算机研究与发展;2004年05期
12 王道平;黄文丽;;关于两个汉字部件规范的一点思考[J];中文信息学报;2013年02期
13 李毅民;王建新;李金铠;;汉字形符编码法研究报告[J];电子计算机动态;1981年01期
14 沈红丹;;《汉字文化大观》对汉语教学的启示[J];中国图书评论;2010年08期
15 徐火辉 ,王璐;汉字形态编码的认知心理规律[J];中文信息;1994年06期
16 冯志伟;信息时代中汉字的标准化和共通化(三)[J];术语标准化与信息技术;1997年03期
17 黄文智;汉字部件字符化编码[J];中文信息;1996年01期
中国重要会议论文全文数据库 前7条
1 李淑萍;;汉字部件暨词汇教材制作之构想[A];全国“大学语文”课程教材与教法研讨会论文集[C];2013年
2 王建勤;高立群;;欧美学生汉字形音意识发展的实验研究[A];对外汉语教学的全方位探索——对外汉语研究学术讨论会论文集[C];2004年
3 洪桂治;;浅谈汉字教材与对外汉字教学[A];第二届全国教育教材语言专题学术研讨会论文集[C];2008年
4 刘荣;刘娅莉;;欧美中高级汉语学习者汉字学习与汉语水平的提高[A];第四届全国语言文字应用学术研讨会论文集[C];2005年
5 王道平;;关于两个汉字部件规范的一点思考[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
6 金如集;;汉字的数字编码输入研究[A];中国中文信息学会汉字编码专业委员会第九届年会暨学术研讨会论文集[C];2011年
7 何远景;;汉典笔顺笔画数据献疑[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 本报记者 雷茂盛;让电脑听懂我们说话[N];中国改革报;2008年
2 季洪光;《土生说字》妙解汉字内涵外延[N];科技日报;2009年
3 杜永道;六十年来我国颁布多项汉字标准[N];语言文字周报;2009年
4 作者系北京语言文化大学汉语学院教师 贾颖;集中识字与母语讲解[N];人民日报海外版;2001年
5 计亚萍;“手脑并用”在“集中识字”教学中的运用[N];语言文字周报;2009年
6 王礼成;小学生识字探究[N];黔西南日报;2008年
7 耿悦 饶星 忠一;曲万波和他的“汉宇通”[N];科技日报;2008年
8 光明网记者 朱越 战钊;“汉字热”中热议汉字文化传承[N];光明日报;2013年
9 彭勇;《土生说字》全卷本系列丛书面世[N];中国信息报;2009年
10 记者 鲍研;电脑时代,汉字要如何“破茧而出”?[N];北京科技报;2012年
中国博士学位论文全文数据库 前7条
1 刘翔;汉字生成系统构建探索[D];西南大学;2011年
2 张英俊;对越汉字教学法研究[D];华中师范大学;2008年
3 刘靖年;汉字结构研究[D];吉林大学;2011年
4 梁添才;基于认知机理的汉字智能造字研究[D];华南理工大学;2008年
5 时璇;构形与认知[D];中央美术学院;2012年
6 胡智慧;汉字智能工具中的书写错误识别技术研究与应用[D];中国科学技术大学;2010年
7 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 黄蓉;零起点非汉字圈留学生汉字读写偏误个案研究[D];安徽大学;2010年
2 李平;对外汉语初级阶段随文识字类汉字教材的个案研究[D];安徽大学;2010年
3 韩冠玲;泰国学生汉字学习策略的研究[D];北京语言大学;2009年
4 李欣;“范例教学”对汉字形声字教学的有效性初探[D];北京语言大学;2009年
5 刘瑜;对外汉语教学中汉字认读层次教学法研究[D];湖北工业大学;2011年
6 施莎;基于《基础汉语40课》(上)的对外汉字教材探索与设计[D];华东师范大学;2011年
7 李金兰;泰国学生汉字习得途径和方法研究[D];南京师范大学;2004年
8 尉万传;东南亚华裔留学生汉字偏误综合考察[D];暨南大学;2004年
9 黄思贤;汉字取象构形研究[D];江西师范大学;2005年
10 刘晓丹;汉字修辞格的功能研究[D];湖南师范大学;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978