算法——Boyer-Moore算法

引言

在字符串匹配算法中,Boyer-Moore算法以其高效性和巧妙的设计而著称。它广泛用于文本搜索、编译器词法分析、信息检索等领域。本文将详细解读Boyer-Moore算法的原理、步骤,并通过实践案例展示其应用。

Boyer-Moore算法简介

Boyer-Moore算法是一种高效的字符串匹配算法,由Robert S. Boyer和J Strother Moore于1977年提出。该算法的核心思想是通过预处理模式串,利用字符比较的不匹配信息来跳过尽可能多的目标字符,从而快速定位可能的匹配位置,减少比较次数。

Boyer-Moore算法的基本原理

Boyer-Moore算法主要依赖于两个策略来减少比较的次数:坏字符规则(Bad Character Rule)和好后缀规则(Good Suffix Rule)。

  1. 坏字符规则
  • 当字符不匹配时,算法查找文本串中当前比较字符在模式串中出现的最后位置。
  • 如果该字符在模式串中存在,模式串可以移动到该字符的位置;如果不存在,则模式串向右移动到文本串的下一个字符位置。
  1. 好后缀规则
  • 当部分模式串与文本串匹配后,如果发生不匹配,算法利用已匹配的后缀信息来移动模式串。
  • 具体来说,算法查找已匹配后缀在模式串中的位置,或找到与已匹配后缀相同的部分,并进行相应的移动。

这两种规则相结合,使得Boyer-Moore算法能够在进行字符比较时,尽量减少不必要的比较。

Boyer-Moore算法的步骤

  1. 构建坏字符表
  • 创建一个表来记录每个字符在模式串中最后出现的位置。如果字符不在模式串中,则记录为-1。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述在这里插入图片描述
    在这里插入图片描述
  1. 构建好后缀表
  • 创建一个表来记录模式串中每个后缀的匹配信息,以便在匹配失败时调整模式串的位置。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  1. 匹配过程
  • 从模式串的末尾开始与文本串进行比较。
  • 如果出现匹配,继续向左比较;如果出现不匹配,根据坏字符表或好后缀表移动模式串。
    在这里插入图片描述

Boyer-Moore算法的Java实现

以下是Boyer-Moore算法的Java实现示例:

import java.util.HashMap;
import java.util.Map;

public class BoyerMooreAlgorithm {

    // 构建坏字符表
    private Map<Character, Integer> buildBadCharTable(String pattern) {
        Map<Character, Integer> badCharTable = new HashMap<>();
        int m = pattern.length();
        for (int i = 0; i < m; i++) {
            badCharTable.put(pattern.charAt(i), i);
        }
        return badCharTable;
    }

    // 构建好后缀表
    private int[] buildGoodSuffixTable(String pattern) {
        int m = pattern.length();
        int[] goodSuffixTable = new int[m + 1];
        int lastPrefixPosition = m; // 记录上一个前缀的位置

        // 初始化好后缀表
        for (int i = m; i >= 0; i--) {
            if (isPrefix(pattern, i)) {
                lastPrefixPosition = i;
            }
            goodSuffixTable[m - i] = lastPrefixPosition - i + (lastPrefixPosition == m ? 1 : 0);
        }

        // 计算好后缀的位置
        for (int i = 0; i < m - 1; i++) {
            int len = m - 1 - i;
            goodSuffixTable[len] = Math.min(goodSuffixTable[len], goodSuffixTable[m - 1 - i]);
        }

        return goodSuffixTable;
    }

    // 检查字符串是否为前缀
    private boolean isPrefix(String pattern, int p) {
        int m = pattern.length();
        for (int i = p, j = 0; i < m; i++, j++) {
            if (pattern.charAt(i) != pattern.charAt(j)) {
                return false;
            }
        }
        return true;
    }

    // Boyer-Moore字符串匹配算法
    public void boyerMoore(String text, String pattern) {
        Map<Character, Integer> badCharTable = buildBadCharTable(pattern);
        int[] goodSuffixTable = buildGoodSuffixTable(pattern);
        int n = text.length();
        int m = pattern.length();
        int i = 0; // 文本串的指针

        while (i <= n - m) {
            int j = m - 1; // 模式串的指针
            while (j >= 0 && text.charAt(i + j) == pattern.charAt(j)) {
                j--; // 如果匹配,继续向左比较
            }

            if (j < 0) {
                System.out.println("Pattern found at index: " + i);
                // 根据好后缀规则移动模式串
                i += (i + m < n) ? goodSuffixTable[0] : 1;
            } else {
                // 根据坏字符规则移动模式串
                i += Math.max(goodSuffixTable[j], j - badCharTable.getOrDefault(text.charAt(i + j), -1));
            }
        }
    }

    public static void main(String[] args) {
        BoyerMooreAlgorithm boyerMoore = new BoyerMooreAlgorithm();
        String text = "ABAAABCDABABCDAB";
        String pattern = "ABCD";
        boyerMoore.boyerMoore(text, pattern); // 在文本中查找模式串
    }
}

Boyer-Moore算法的优缺点

优点

  1. 高效性:Boyer-Moore算法通常比其他字符串匹配算法(如KMP和暴力匹配)更快,特别是在模式串相对较短而文本串较长时。
  2. 减少比较次数:通过坏字符和好后缀规则,最大限度地减少了不必要的比较。

缺点

  1. 复杂性:实现相对复杂,尤其是在构建好后缀表时。
  2. 最坏情况时间复杂度:在某些特定情况下,时间复杂度可能退化为O(n⋅m)。

Boyer-Moore算法的应用场景

Boyer-Moore算法在文本搜索、编译器词法分析、信息检索、数据挖掘等领域具有广泛应用。其高效的匹配能力和灵活的规则使其在处理大规模文本数据时非常有用。

  • 文本编辑器中的查找功能:许多文本编辑器使用Boyer-Moore算法来实现快速查找功能。
  • 字符串搜索引擎:搜索引擎需要对大量的文本进行索引和搜索,Boyer-Moore算法可以用于字符串搜索引擎中的关键字匹配。
  • 文件压缩和解压缩:Boyer-Moore算法可以应用于文件压缩和解压缩算法中的字符串匹配部分。
  • 数据库系统中的模式匹配:在数据库系统中,模式匹配是一个重要的操作,Boyer-Moore算法可以用于模式匹配中的字符串匹配部分。

结语

Boyer-Moore算法以其高效性和巧妙的设计在字符串匹配领域占据重要地位。通过深入理解其原理和实现,我们可以更好地应用这一算法来解决实际问题。希望本文能对读者有所帮助,并在实践中发挥Boyer-Moore算法的优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/973620.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智能网络感知,打造极致流畅的鸿蒙原生版中国移动云盘图文体验

背景 中国移动云盘&#xff08;原“和彩云网盘”&#xff09;是中国移动重磅推出的安全、智能、不限速、移动用户免流的智能云盘&#xff0c;致力于成为5G时代用户个人与家庭的数字资产管理中心&#xff0c;是中国移动继语音、短信、流量后的“第四项基础服务”。 照片、音视…

Windows 快速搭建C++开发环境,安装C++、CMake、QT、Visual Studio、Setup Factory

安装C 简介 Windows 版的 GCC 有三个选择&#xff1a; CygwinMinGWmingw-w64 Cygwin、MinGW 和 mingw-w64 都是在 Windows 操作系统上运行的工具集&#xff0c;用于在 Windows 环境下进行开发和编译。 Cygwin 是一个在 Windows 上运行的开源项目&#xff0c;旨在提供类Uni…

VS Code 如何搭建C/C++开发环境

目录 1.VS Code是什么 2. VS Code的下载和安装 2.1 下载和安装 2.2.1 下载 2.2.2 安装 2.2 环境的介绍 2.3 安装中文插件 3. VS Code配置C/C开发环境 3.1 下载和配置MinGW-w64编译器套件 3.1.1 下载 3.1.2 配置 3.2 安装C/C插件 3.3 重启VSCode 4. 在VSCode上编写…

2024年国赛高教杯数学建模A题板凳龙闹元宵解题全过程文档及程序

2024年国赛高教杯数学建模 A题 板凳龙闹元宵 原题再现 “板凳龙”&#xff0c;又称“盘龙”&#xff0c;是浙闽地区的传统地方民俗文化活动。人们将少则几十条&#xff0c;多则上百条的板凳首尾相连&#xff0c;形成蜿蜒曲折的板凳龙。盘龙时&#xff0c;龙头在前领头&#x…

详解同为科技桌面PDU系列产品特点

同为科技的桌面PDU系列产品是依据自身在电气联接领域25年专业积累并精心设计&#xff0c;产品采用模块化结构&#xff0c;实现各种功能、输出插口、输入方式可根据用户需求以模块组合的方式构建定制化产品。 桌面PDU产品特点 工业级材质和结构设计 桌面PDU系列产品采用一体成…

【排版教程】如何在Word/WPS中优雅的插入参考文献

材料展示 随便选取一段综述内容&#xff0c;以及对应的参考文献&#xff0c;如下图所示&#xff1a; 1 参考文献编辑 首先对参考文献部分进行编辑&#xff0c;将其设置自动编号 在段落中&#xff0c;选择悬挂缩进 在编号中&#xff0c;设置自定义编号&#xff0c;然后按照…

STM32 看门狗

目录 背景 独立看门狗&#xff08;IWDG&#xff09; 寄存器访问保护 窗口看门狗&#xff08;WWDG&#xff09; 程序 独立看门狗 设置独立看门狗程序 第一步、使能对独立看门狗寄存器的写操作 第二步、设置预分频和重装载值 第三步、喂狗 第四步、使能独立看门狗 喂狗…

【第二节】C++设计模式(创建型模式)-抽象工厂模式

目录 引言 一、抽象工厂模式概述 二、抽象工厂模式的应用 三、抽象工厂模式的适用场景 四、抽象工厂模式的优缺点 五、总结 引言 抽象工厂设计模式是一种创建型设计模式&#xff0c;旨在解决一系列相互依赖对象的创建问题。它与工厂方法模式密切相关&#xff0c;但在应用…

docker基操

docker基操 首先就是安装docker使用docker:创建容器-制作一个镜像-加载镜像首先就是安装docker 随便找一个教程安装就可以,安装过程中主要是不能访问谷歌,下面这篇文章写了镜像的一些问题: 安装docker的网络问题 使用docker:创建容器-制作一个镜像-加载镜像 主要是参考:这篇…

3D打印注塑件-省模具费90%的解决方案

"开模费用50万&#xff0c;首批订单才200件&#xff1f;" 这是许多制造企业的真实困境。传统注塑工艺动辄数周的开模周期和5-50万元的模具成本&#xff0c;让中小企业的产品迭代举步维艰。 在传统制造流程中&#xff0c;注塑件的生产往往需要高昂的模具开发费用和较…

Java+SpringBoot+Vue+数据可视化的综合健身管理平台(程序+论文+讲解+安装+调试+售后)

感兴趣的可以先收藏起来&#xff0c;还有大家在毕设选题&#xff0c;项目以及论文编写等相关问题都可以给我留言咨询&#xff0c;我会一一回复&#xff0c;希望帮助更多的人。 系统介绍 在当今社会&#xff0c;随着人们生活水平的不断提高和健康意识的日益增强&#xff0c;健…

美的楼宇科技基于阿里云 EMR Serverless Spark 构建 LakeHouse 湖仓数据平台

作者&#xff1a;美的楼宇科技事业部 先行研究中心智能技术部 美的楼宇科技 IoT 数据平台建设背景 美的楼宇科技事业部&#xff08;以下简称楼宇科技&#xff09;是美的集团旗下五大板块之一&#xff0c;产品覆盖多联机组、大型冷水机组、单元机、机房空调、扶梯、直梯、货梯…

matlab 车辆进出检测算法设计GUI界面-论文

1、内容简介 matlab151-车辆进出检测算法设计GUI界面-论文 可以交流、咨询、答疑 2、内容说明 略 随着科学技术的进步&#xff0c;社会的发展&#xff0c;各行各业都在发生着巨大的变化。近段时间以来&#xff0c;“无人化”智能产业正处于一个风口阶段&#xff0c;似乎我们…

python学习书籍推荐

### Python 学习路线图概述 为了有效地掌握Python这门编程语言并应用于不同领域&#xff0c;构建一个合理的学习路径至关重要。此学习路径不仅涵盖了基础语法&#xff0c;还深入到特定应用方向的关键技术。 #### 基础阶段 在这个初始阶段&#xff0c;重点在于理解Python的基…

基于Spring Boot的农事管理系统设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…

在 Ansys Motion 中创建链式伸缩臂的分步指南

介绍 链传动在负载和/或运动要远距离传递的机器中非常多产&#xff0c;例如&#xff0c;在两个平行轴之间。链条驱动系统的设计需要了解载荷传递和运动学如何影响链条张力、轴轴承中的悬臂载荷、轴应力和运动质量等。使用 Ansys Motion&#xff0c;可以轻松回答上述所有问题以…

Web Scraper,强大的浏览器爬虫插件!

Web Scraper是一款功能丰富的浏览器扩展爬虫工具&#xff0c;有着直观的图形界面&#xff0c;无需编写代码即可自定义数据抓取规则&#xff0c;高效地从网页中提取结构化数据&#xff0c;而且它支持灵活的数据导出选项&#xff0c;广泛应用于电商监控、内容聚合、市场调研等多元…

数据结构:栈和队列详解(下)

目录 一.如何用队列实现栈 1.思路&#xff1a; 2.具体代码&#xff1a; 二.如何用栈实现队列 1.思路&#xff1a; 2.具体代码&#xff1a; 一.如何用队列实现栈 原题来源&#xff1a;https://leetcode.cn/problems/implement-stack-using-queues/description/ 前言&#xf…

DeepSeek智能测试知识库助手PRO版:多格式支持+性能优化

前言 测试工程师在管理测试资产时,需要面对多种文档格式、大量文件分类及知识库的构建任务。为了解决这些问题,我们升级了 DeepSeek智能测试知识库助手,不仅支持更多文档格式,还加入了 多线程并发处理 和 可扩展格式支持,大幅提升处理性能和灵活性。 主要功能亮点: 多格…

宝塔面板开始ssl后,使用域名访问不了后台管理

宝塔面板后台开启ssl访问后&#xff0c;用的证书是其他第三方颁发的证书 再使用 域名/xxx 的形式&#xff1a;https://域名:xxx/xxx 访问后台&#xff0c;结果出现如下&#xff0c;不管使用 http 还是 https 的路径访问都进不后台管理 这个时候可以使用 https://ip/xxx 的方式来…