基于Lucene框架的Latex数学公式检索研究
【摘要】:数学公式是一种特殊的符号表达方式,是一种非线性结构的符号描述,在一些科技文档中,它能使文章展现出更加清晰的逻辑关系。如何像普通文本一样,实现对数学公式的检索,是目前信息检索领域的课题之一。
本文采用Lucene框架,研究基于Latex公式语言的数学公式检索系统。首先,选择Latex作为数学公式的描述语言,通过对Latex语言进行详细解析,构建针对数学公式的分析器,该分析器分别按照公式中的普通字符集、公式中的特殊字符集进行构建,公式中的特殊字符集中又细分为函数、运算符、公式同义符号等。根据传统的分词算法,实现针对数学公式的拆分算法和对Latex数学公式的解析;其次,基于Lucene框架构建Latex数学公式的预处理模块、索引模块以及搜索模块,其中预处理模块的主要功能是进行公式格式转换,使之成为Lucene可处理的文本文件类型;索引模块根据以运算为主线的按层次分类的索引方法创建索引;搜索模块采用Lucene中的模糊查询,提高了检索系统的查全率。基于Lucene框架的Latex数学公式检索系统取得了较好的实验效果。
|
|
|
|
1 |
马鸿键;李文钊;陈俏;;网络化教学中数学公式输入的简便实现[J];电脑知识与技术;2013年16期 |
2 |
张成昱
,窦天芳
,吴滨
,高竞妹;数学公式的采集、组织和检索[J];大学图书馆学报;2005年05期 |
3 |
田学东,杨捧,张立平,苗秀芬;印刷文档中数学公式抽取的研究[J];河北大学学报(自然科学版);2005年05期 |
4 |
李顺东,戴一奇,王向华,贾晓琳;数学公式和化学反应式的混沌序列加密算法[J];西安交通大学学报;2005年02期 |
5 |
黄潇;李奋华;;基于结构布局的数学公式识别[J];广西科学院学报;2007年03期 |
6 |
李奋华;;基于递归策略的数学公式识别模型[J];科技情报开发与经济;2009年36期 |
7 |
洪留荣;;在线手写数学公式结构分析算法[J];计算机应用;2010年09期 |
8 |
骆瑾;王昕;王有登;;数学公式审读的比较分析方法[J];编辑学报;2012年02期 |
9 |
陈强;燕春;齐炜;;数学公式在网络排版中的研究与应用[J];硅谷;2012年09期 |
10 |
陈国俊;唐勇智;;基于基准线的多候选数学公式识别[J];计算机工程与应用;2013年01期 |
11 |
王勇;刘德敏;张玮;周青云;姚萍;;数学公式审读探讨[J];中国科技期刊研究;2013年06期 |
12 |
彭贤安;;撰写科技论文知识讲座(4) 科技期刊中数理公式的编辑加工[J];油气田环境保护;1993年01期 |
13 |
潘真微;数学公式编排的几个问题[J];科技与出版;1995年02期 |
14 |
王科俊,王黎斌,林桂芳;科技文献中数学公式定位技术概述[J];自动化技术与应用;2004年05期 |
15 |
叶济蓉;高校学报数学公式编排探讨[J];福建教育学院学报;2004年01期 |
16 |
徐筠;;数学公式的句法属性、功能与位置[J];中国科技期刊研究;2005年05期 |
17 |
高贤波;;WEB系统中数理公式的解决方案[J];沈阳师范大学学报(自然科学版);2007年01期 |
18 |
陈德裕;朱学芳;苏啸晨;杭月芹;;印刷体文献中数学公式识别及描述系统研究[J];计算机应用;2009年03期 |
19 |
姜映映;敖翔;田丰;王绪刚;戴国忠;;基于语音和笔的手写数学公式纠错方法[J];计算机研究与发展;2009年04期 |
20 |
赵慧霞;;高校学报数学公式编排探讨[J];甘肃联合大学学报(自然科学版);2009年06期 |
|