收藏本站
《北京工业大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

汉字字形形式化描述方法及应用研究

林民  
【摘要】: 在汉字信息处理领域,现有的各种汉字字形形式化描述方法主要以文字研究和汉语教学研究中描写汉字形体结构的结构分析法为基础,采用人认知的结构类型、部件、笔画等构形单位对汉字字形进行分层描述。这些方法在字形拆分规则、结构类型划分、描述基元选取等方面存在着歧义和描述缺失,无法满足统一描述各种汉字(包括错字、古籍异体字、民俗拼合字)字形的需要,也无法支持字形自动比对计算处理,不能满足以字形比对计算分析为基础的各种应用需要,如教学研究中错字描述及偏误定量分析、古籍字形描述及比对分析、数字图书中生僻字形检索等。 基于统计机器学习的汉字识别模型,对事先无法收集样本的错字、异体字、拼合字等特殊汉字,由于没有训练样本可学习,无法支持这类汉字的分类计算。对于可收集训练样本的一般汉字,识别模型中采用的字形统计特征难以逻辑解析来与人认知的字形结构类型、部件、笔画建立对应关系,是一种“黑盒”字形描述模型,无法支持面向人的各种字形比对分析应用需要。 上述问题归结为汉字缺少统一有效的字形形式化描述和字形比对计算方法。本文工作围绕这一核心问题展开,面向字形比对分析应用建立了一种汉字字形描述方法及一组相关的字形比对算法和实用工具。主要创新性工作包括: 1)提出一种笔段网格汉字字形形式化描述方法,用预先定义好长度、方向的直线段——笔段作为描述字形的基元,基元颗粒度适当、规范、无歧义,能统一描述一切可能今文字(包括错字、异体字、拼合字)字形骨架的异同。论证实验表明,这种方法与相同基元量点阵字形相比,描述同一汉字所需的有效基元更少,字形比对计算效率更高;描述不同汉字的字形间区分度大,有利于提高字形比对计算的准确性和可靠性,具有较高的性能代价比。 2)基于笔段网格字形描述方法,本文进一步提出一组字形比对算法。其中,笔段上下文字形比对算法,以笔段为比对单位,在GB2312字符集汉字和部分错字、异体字上的测试实验表明,算法无需进行训练就能比对字形相似性,字形相似性比对结果受汉字结构类型、笔画划分影响小,在输入字形和比对字形网格大小一致时比对准确率可达100%;基于笔段组合的字形比对算法,在笔段网格字形描述基础上,能自动提取简单笔画、复合笔画,既能按简单笔画为单位进行字形比对,也能按复合笔画、简单笔画自适应进行字形比对。在同样测试汉字集上实验表明,基于简单笔画和复合笔画的字形比对算法无需训练就能进行字形相似度比对计算,比对结果对输入字形整体大小变化、斜笔画不同变形的敏感性降低,对依照约束描画的结构规范字形,比对准确率很高,可达到100%;比对单位大,比对效率高,可以适应大规模汉字字形的比对、查找;比对单位容易与人认知的构字单位建立对应关系,是一种“白盒”字形相似度比对计算方法,既适用整体字形比对,也适用局部字形比对,对结构比例失调较大的不规范字形能发现与结构规范字形的差异性,适合面向字形分析的应用需要。此外,建立了基于笔画关系矩阵的汉字结构关系描述和计算方法,可用于支持汉字结构类型的自动判别。 3)由于汉字部件在汉字形体结构研究中的重要性,本文提出了在笔段网格描述的简单笔画上,附加组合关系标注的部件描述方法及部件自动发现算法,实验表明,该算法能很准确发现包含特定部件的汉字,而不受部件在字形中位置和大小的影响。 4)本文还改进了《汉字信息字典》的汉字结构描述体系,提出了基于结构描述的字形相似度比对算法,实验表明,该法找到的相似字结构类型一致性好,与人认知的相似字吻合度较高(96%以上),适合结构类型划分无歧义汉字的相似性计算。 5)本文最后设计实现了一个实用软件系统——汉字字形描述和自动比对分析工具,采用大众化手写描画方法来建立笔段网格字形描述,可以输入各种可以想见的汉字,包括错字、异体字和拼合字及其它相关信息,能自动将笔段网格字形转换成对应TrueType字模,与标准字符集内汉字一样被处理。对笔段网格字形可以自动进行整字、局部的字形比对,找出按相似度大小排序的相似字。采用这一工具完成了GBK字符集20902个汉字及北京语言大学留学生错字的描述,字形库应用于汉字教学错字偏误分析。 这些工作有益于汉字字形描述的标准化,在基于汉字字形计算的各种应用领域:如标准字符集外汉字的输入、我国数字图书馆建设、汉语教学研究和国际推广、汉字文化历史研究、社会管理信息化等具有应用前景。
【学位授予单位】:北京工业大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.12

【相似文献】
中国期刊全文数据库 前10条
1 马艳芳;张敏;陈仪香;;基于环境的软件正确性形式化描述[J];山东大学学报(理学版);2011年09期
2 贺琪;袁红春;陈晓峰;;面向数据的BPM中服务垂直匹配研究[J];计算机工程;2011年16期
3 何中阳;李鸥;杨白薇;刘洋;;基于TCPN的TCP协议形式化描述[J];计算机工程;2011年18期
4 陈亚莎;赵勇;刘燕;沈昌祥;;高安全级信息系统中的特权控制机制及其模型研究[J];山东大学学报(理学版);2011年09期
5 郭钢;汤华茂;罗妤;;基于语义的产品功能形式化建模[J];计算机集成制造系统;2011年06期
6 董宇欣;印桂生;谢新强;马志强;;网构软件信任机制的形式化研究[J];哈尔滨工程大学学报;2011年06期
7 凌云翔;叶挺;陆锡高;谈益兴;;基于触摸自然手势的指挥所业务映射与验证方法研究[J];系统仿真学报;2011年07期
8 李勇;李光;沈昌祥;;可信管道模型研究[J];计算机工程与应用;2011年26期
9 袁敏;黄志球;李祥;;支持业务事务验证的服务协调模型[J];小型微型计算机系统;2011年09期
10 生拥宏;汪东升;鞠大鹏;武健;;一种卷级连续数据保护一致点插入方法[J];高技术通讯;2010年11期
中国重要会议论文全文数据库 前10条
1 ;汉字字形系列表[A];福建省辞书学会2003年会论文集[C];2003年
2 郑晓娟;金英;;基于Seal演算形式化描述移动Agent安全[A];2006年全国理论计算机科学学术年会论文集[C];2006年
3 郭雄辉;赵保华;周颢;屈玉贵;;基于构造类别代数的数据流和控制流相结合的协议测试[A];2003年通信软件技术学术年会论文集[C];2003年
4 周扬;张久权;李传明;王健;;用于汉字字形认知研究的刺激源设计及其fMRI初步研究[A];中华医学会第十三届全国放射学大会论文汇编(下册)[C];2006年
5 朱朝霞;刘丽;丁国盛;彭聃龄;;拼音输入法经验对汉字字形和语音加工的影响[A];第十二届全国心理学学术大会论文摘要集[C];2009年
6 赵正旭;张常有;刘立嘉;;信息对象开放式采集系统的形式化描述[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
7 林民;宋柔;;基于结构描述的汉字字形相似度计算[A];第三届学生计算语言学研讨会论文集[C];2006年
8 王振;缪旭东;;基于XML的作战方案形式化描述[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
9 杨娟;王柏;艾波;;新一代电信运营支撑系统软件体系结构的形式化描述[A];’2004计算机应用技术交流会议论文集[C];2004年
10 蔡剑红;李德仁;;多空间尺度下顾及不确定性的16方向锥形模型研究[A];第四届海峡两岸GIS发展研讨会暨中国GIS协会第十届年会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 本报记者 王夕;44个汉字字形不改为好[N];北京科技报;2009年
2 记者 姚晓丹;44个汉字字形调整引发各界关注[N];光明日报;2009年
3 李宗江;关于汉字特点说法的质疑[N];语言文字周报;2006年
4 王宁;汉字规范的社会性与科学性[N];中国社会科学院院报;2006年
5 费锦昌;优化“规范汉字”,学好用好“规范汉字”[N];语言文字周报;2006年
6 荆玉静 李峥;见证中国文字历史重大变革[N];文汇报;2006年
7 本报记者 刘仁;当代毕升的光辉一生[N];中国知识产权报;2006年
8 本报记者 李子木;感谢王选[N];中国新闻出版报;2006年
9 汤大权 张维明 邓苏 肖卫东 李勇;主动信息服务[N];计算机世界;2001年
10 周玮;在世界范围内弘扬汉字文化[N];中国国门时报;2007年
中国博士学位论文全文数据库 前10条
1 林民;汉字字形形式化描述方法及应用研究[D];北京工业大学;2009年
2 时璇;构形与认知[D];中央美术学院;2012年
3 冯毅萍;石化生产过程多分辨率物流模型的建模方法[D];浙江大学;2008年
4 包铁;网络数据采集处理方法及形式化研究[D];吉林大学;2007年
5 赵晓峰;虚拟制造环境的信息规范及其Z描述研究[D];山东大学;2010年
6 汪文元;基于工作流的兵力调度技术研究[D];国防科学技术大学;2005年
7 陈虔;大型应用软件协同开发的版本控制和管理—面向组件增量的版本控制方法[D];中国科学院研究生院(高能物理研究所);1997年
8 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
9 杨卫东;设计样本的研究[D];西安电子科技大学;1999年
10 王宏刚;MAS在行车调度系统中的应用研究[D];铁道部科学研究院;2006年
中国硕士学位论文全文数据库 前10条
1 燕昊;UML建模的形式化研究[D];兰州大学;2006年
2 王少将;基于时序逻辑的Open Solaris内核进程形式化描述与求精[D];苏州大学;2008年
3 孙勇;突发事件应急预案形式化描述方法研究[D];大连理工大学;2007年
4 周桢干;现代汉语正反问句及其问点、答句句式和形式化的研究[D];重庆大学;2008年
5 李周能;泰国高中生对汉字字形的认识及其对汉字书写的影响[D];广西师范大学;2012年
6 代新敏;网络安全协议的形式化描述与验证[D];重庆大学;2004年
7 王华伟;基于形式化描述的协议鲁棒性测试研究[D];华中科技大学;2009年
8 高锐智;基于笔画抽取的汉字字形结构式压缩方法的研究和应用[D];清华大学;2002年
9 赖志诚;软件体系结构的形式化描述[D];广东工业大学;2005年
10 李明;常用汉字部件分析与对外汉字教学研究[D];北京语言大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026