收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web中LaTex数学公式提取方法研究

陈立辉  
【摘要】:随着互联网技术的不断发展,网络信息急速增长,大量的信息涌现在互联网上。搜索引擎为广大人们提供了信息检索和共享的一个平台,而传统的搜索引擎在一些方面已经满足不了人们增长的需求。在数学领域,Web中的数学论坛、Wiki等社会性的网站在数学教育方面影响力日益增长,而这些网站中存在大量的数学公式,而全文搜索引擎已经不能满足人们对数学公式搜索能力的要求。因此,如何对这些网站中数学公式进行搜索,对数学方面的学习、科学研究十分重要,其中,数学公式提取是索引系统的前提和基础,是搜索引擎中的重要环节。 在此类网站中,数学公式主要以LaTex、图片等形式存在,本文主要研究LaTex格式的数学公式的提取方法,一方面,本文结合BNF表述方式,提出自动分析提取包含LaTex公式特征的方法,来找出网页中包含LaTex公式的特征;另一方面,依据公式包含特征,提出提取和过滤LaTex数学公式的方法,过滤掉提取内容中存在的非LaTex数学公式,增加提取公式的精度,通过实验发现,该方法的查全率达到75%,查准率达到99%。


知网文化
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978