收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

数学表达式数字化处理中关键技术的研究

张志伟  
【摘要】: 数学表达式数字化处理是指利用计算机自动处理数学表达式,其内容包括数学表达式的采集与输入、数学表达式的输出与显示、数学表达式的表示与传输和数学表达式的检索。在信息技术、电子计算机和网络迅猛发展的背景下,开展对数学表达式数字化处理的研究,在建设多功能的数字图书馆、构建自然简洁的计算机代数系统人机交互界面、开展远程教学、共享分布式计算数据等方面都具有重大的意义。本论文旨在对数学表达式数字化处理中的若干关键技术进行一些探讨和研究。 数学表达式的采集与输入,即数学表达式的识别,是数学表达式数字化处理中的核心内容,主要包括印刷体数学表达式识别与联机于写体表达式识别。目前对数学表达式识别的研究还处于实验室阶段,到实用还有一定距离。本文针对目前表达式识别中存在的问题,主要做了以下的工作: (1)文档图像的倾斜检测 文档图像的倾斜检测与校正是印刷体数学表达式识别系统文档图像预处理模块中的一个重要环节。目前存存的各种文档倾斜方法难以同时兼顾检测精确度和处理速度。为此提出了一种基于形态学和霍夫变换的文档倾斜检测方法。首先用形态学方法列文档图像进行行程平滑、消除噪声和边缘提取,然后用霍夫变换检测出文档的倾角。此外,还对形态学运算进行了改进,加快了检测速度。实验表明,该方法精确度高、速度快、具有良好的稳健性。 (2)中文科技文档中的数学表达式定位 数学表达式定位是印刷体数学表达式识别的前提。目前的研究大多是针对英文文档。本文针对中文科技文档,分别对独立表达式和内嵌表达式的定位问题提出了新的方法。采用自适应神经模糊推理系统(ANFIS)对行特征进行分类,提取出独立表达式;采用模糊聚类和动态规划方法,从文档中依次提取出汉字、中文标点和英文字符,之后合并剩余的数学符号而提取出内嵌表达式。实验表叫,本文提出的表达式定位方法有很高的正确率,其中独立数学表达式的定位正确率为97.39%.内嵌表达式的定位于确率为97.23%。 (3)从Postscript格式文献中提取数学表达式 从Postscript格式文献中提取识别数学公式,是数学公式识别领域的一个新的研究方向。本文主要针对以Word和Latex为生成源的Postscript文档,提出了基于内容的数学公式提取方法。首先重载了Postscript语言中的一些相关命令,先后提取出Postscript文档中的字符及由线段连接得到的图形。之后根据字符名称、字体信息、位置信息对字符进行判断分析,提取出其中的数学符号;对提取出的图形,进行编码以识别出其对应的数学符号。最后,根据得到的数学符号之间的空间位置关系,借助启发式规则,将数学符号合并,提取出完整的数学公式。实验结果表明,该方法具有很高的正确率,其中数学符号识别的正确率达到99.3%。 数学表达式的检索也是数学表达式数字化处理领域的重要内容。对表达式的检索不能仅靠字面还要依赖于语义。目前很少有这方面的研究。本文在这方面作了一些探索性的工作,把本体引入表达式的检索中,建立了数学表达式的本体模型,并且采用OpenMath作为本体模型的描述语言。在检索过程中用OpenMath树来表记表达式,从而将表达式的检索转变成了树的匹配问题。根据表达式检索精度要求的不同,本文把匹配分为了精确匹配、相容匹配、语义匹配和模糊匹配,并对每种情况给出了相应的匹配算法。本文重点讨论了模糊匹配的情况。根据数学表达式语义的特点,对经典树匹配算法中的编辑距离进行了改进。最终采用模糊匹配度作为衡量表达式检索中表达式间模糊匹配程度的依据。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李静梅;姚成浪;冉祥金;;基于WVD的文档图像纠偏算法[J];应用科技;2006年05期
2 靳从,魏之来,杨静宇;基于视窗的OCR页面图像倾斜检测方法[J];中国图象图形学报;2004年11期
3 李静梅;冉祥金;姚成浪;;基于垂直投影特征的文档图像自动拼接算法[J];信息技术;2005年12期
4 戴涛;韩旭东;冯天骄;;文档图像纠偏算法的研究与分析[J];煤炭技术;2006年02期
5 谭论正;朱宁波;孙星明;;基于文档图像的抗打印—扫描数字水印技术[J];计算机应用研究;2007年12期
6 王福宝;阎瑞华;许春蕾;;文档图像在数据库中的存储检索方法研究与实现[J];佳木斯大学学报(自然科学版);2009年04期
7 冯安;金辉;王素华;;一种DCT域文档图像鲁棒性水印算法[J];山东科学;2010年02期
8 苏云飞;林嘉宇;王晓飞;张权;唐朝京;;基于分块匹配的文档图像压缩性能分析与仿真[J];计算机工程与科学;2011年07期
9 何希平 ,朱庆生;基于二次距离动态相关的文档图像平滑新技术[J];微型机与应用;2003年03期
10 刘婀娜;罗予频;华成英;;变形文档图像的矫正方法研究[J];微计算机信息;2007年03期
11 张军;;数字图书馆中的文档图像真实性的认证方法[J];图书馆;2007年03期
12 刘建武;王希常;刘江;;信息熵与文档图像的清晰度分析[J];枣庄学院学报;2007年05期
13 岳岩;王希常;;基于DCT频域的文档图像水印算法[J];福建电脑;2009年05期
14 范兵;吉立新;于洪涛;;基于Office OCR组件的文档图象检索研究[J];通信技术;2009年06期
15 杨晓娟;宋凯;;基于投影法的文档图像分割算法[J];成都大学学报(自然科学版);2009年02期
16 张顺利;李卫斌;吉军;;基于投影的文档图像倾斜校正方法[J];计算机工程与应用;2010年03期
17 肖道举,姚园,陈晓苏;信息填涂卡文档图像预处理算法的研究[J];华中科技大学学报(自然科学版);2004年03期
18 胡芝兰;林行刚;严洪;;基于分层密度特征的文档图像检索[J];清华大学学报(自然科学版);2006年07期
19 黄海凌;刘列根;张宇;;彩色文档图像的版面分析[J];计算机工程;2008年15期
20 朱庆生;林杰;张敏;;一种优化的文档图像分割方法[J];计算机科学;2004年04期
中国重要会议论文全文数据库 前5条
1 钟辉;黄洋;;基于版面特征的文档图像的文本定位方法[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
2 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
3 田艳艳;李大湘;齐敏;彭进业;;一种改进的彩色图像图文分割方法[A];全国第一届信号处理学术会议暨中国高科技产业化研究会信号处理分会筹备工作委员会第三次工作会议专刊[C];2007年
4 梁莹;肖健;李玥;;多引擎印刷体汉字识别系统研发[A];广西计算机学会25周年纪念会暨2011年学术年会论文集[C];2011年
5 王萌;;浅谈大型综合性博物馆的存储与备份系统建设[A];创意科技助力数字博物馆[C];2011年
中国博士学位论文全文数据库 前10条
1 田大增;视觉文档图像识别预处理[D];河北大学;2007年
2 赵健;小波与分形理论在图像处理中的应用研究[D];西北工业大学;2003年
3 张俊松;书法碑帖图像去噪、轮廓拟合及纹理建模研究[D];浙江大学;2007年
4 黄亮;脱机中文手写文档检索关键技术研究[D];武汉大学;2013年
5 陈一平;图像增强及其在视觉跟踪中的应用[D];国防科学技术大学;2011年
6 刘建胜;文档图象版面理解的研究[D];重庆大学;2002年
7 张晓峰;基于条件随机场的目标提取[D];华东师范大学;2012年
8 魏宏喜;蒙古文古籍图像检索技术研究[D];内蒙古大学;2012年
9 吴锐;自然场景中文本识别技术研究及实现[D];哈尔滨工业大学;2010年
10 田学东;光学公式识别技术研究[D];河北大学;2007年
中国硕士学位论文全文数据库 前10条
1 李文成;一种二值文档图像高倍压缩算法[D];山东大学;2010年
2 范红梅;基于特征的文档图像检索技术研究与应用[D];山东师范大学;2010年
3 陈霞;二值文档图像鲁棒性水印技术研究[D];山东师范大学;2010年
4 文明才;一种双栏文档图像偏斜校正的方法[D];兰州大学;2011年
5 李旸觅;二值文档图像认证技术设计与实现[D];山东大学;2011年
6 赵聪;多镜头文档图像拼接技术研究[D];中南大学;2012年
7 王蓓蓓;面向内容认证的文档图像数字水印算法研究[D];山东师范大学;2010年
8 孟倩;基于图文分割的文档图像数字水印算法研究[D];山东师范大学;2011年
9 高鸿;文档图像拼接技术研究[D];中南大学;2011年
10 祁晓锐;扫描文档图像纠偏技术应用研究[D];山东大学;2011年
中国重要报纸全文数据库 前10条
1 本报记者 刘丽丽;富士通重拳出击高扫市场[N];计算机世界;2008年
2 史;富士通发布fi—6系列扫描仪[N];电脑商报;2008年
3 程光;成像技术走向邮政[N];人民邮电;2002年
4 元凯;为 彩色输入提速[N];计算机世界;2002年
5 ;Optralmage多功能设计引领数码打印[N];网络世界;2001年
6 郑华;如何让商用文档归顺降伏[N];国际商报;2004年
7 胡谋;走向开放 服务社会[N];人民日报;2003年
8 ;巧用Office 2003实现OCR[N];电脑报;2004年
9 Vicen;提高文本识别率“三板斧”[N];电脑报;2004年
10 ;传统文档管理的重大革新[N];中国计算机报;2004年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978