用位并行法进行过滤的中文近似串匹配算法
【摘要】:字符串的匹配问题被视为计算机科学的基本问题之一。早期的研究多集中于精确匹配领域,提出了许多单模式匹配算法和多模式匹配算法。
然而人们逐渐发现在实际应用中有时更需要进行近似字符串匹配。它在信号处理、文本检索、计算生物学、病毒检测、模式识别、OCR纠错等领域均有重要的应用价值。因此,研究(设计)高效的近似字符串匹配算法具有重要的理论价值和实际意义。
应该说,近似匹配是精确匹配的变种和发展,也就是按照一定的近似标准在文本串中找出与模式串相匹配的子串。对应的,多模式近似匹配则是按照一定的近似标准在文本串中找出与模式串集合相匹配的子串。
尽管对近似字符串匹配问题的研究历史已不短,相应的文献资料也不少,不过其中绝大多数的研究对象(字符集)都是针对英文等中等大小字符集或者针对DNA等微小字符集,而针对汉字及亚洲语言等大字符集的研究却很少。其次,对多模式近似字符串匹配问题的研究也还不成熟,不管是针对中小字符集还是大字符集,均没有特别成功的解决方法。
基于上述原因,论文主要完成了如下工作:
本文的第一、二章,我们简要介绍了论文的研究背景、研究目的、主要内容和组织结构。同时还对近似字符串匹配问题进行了综述,介绍了相关的理论及主要研究方法,并分别对动态规划、自动机、位并行、过滤等主要方法进行了介绍和分析。
第三章对BPM等部分重要算法进行了较详细的分析。
第四、五章是本文的核心,提出了在汉字等大字符集环境下基于过滤的位并行方法,具体包括基于汉字的单模式近似字符串匹配算法IBPM-BM和多模式近似字符串匹配算法MBPM-BM,称为基于汉字的主要原因是这两个算法在汉字等大字符集环境下的表现特别优异。算法在理论上和实践中均有较好的表现,论文还给出了复杂性分析和实验结果。需要说明的是,这两个算法的最重要特点就是在过滤阶段充分运用了位并行技术,用以充分挖掘计算机物理字长的潜力。
在第六章中,对本文进行总结,对应用前景进行了展望,并给出了未来可能的研究方向。