简洁思路推理 KMP 算法——子字符串匹配

例题 28. 找出字符串中第一个匹配项的下标

暴力遍历解法

枚举原串 ss 中的每个字符作为「发起点」,每次从原串的「发起点」和匹配串的「首位」开始尝试匹配: 匹配成功:返回本次匹配的原串「发起点」。 匹配失败:枚举原串的下一个「发起点」,重新尝试匹配。

时间复杂度: O(mn)

空间复杂度: O(1)

class Solution {
public:
    int strStr(string s, string p) {
        int n = s.size(), m = p.size();
        for(int k = 0; k <= n - m; k++){
            int i, j = 0; 
            while(j < m and s[k + i] == p[j]){
                j++; i++;
            }
            if(j == m) return i + k;
        }
        return -1;
    }
};

KMP

还有一种专门的方案KMP,时间复杂度O(m+n)。

很多讲解方案尤其复杂,这里只需要简单的理解一个东西就豁然开朗原理,无需背代码,在应试时候可以现场推导原理。

字符串前缀与后缀

首先理解字符串的前缀和后缀。

例如,”Harry”的前缀包括{”H”, ”Ha”, ”Har”, ”Harr”},我们把所有前缀组成的集合,称为字符串的前缀集合。”Potter”的后缀包括{”otter”, ”tter”, ”ter”, ”er”, ”r”},然后把所有后缀组成的集合,称为字符串的后缀集合。

要注意的是,字符串本身并不是自己的前缀或者后缀。

部分匹配表(Partial Match Table)

前面介绍字符串的前缀和后缀有什么用呢?是因为KMP算法的核心数据结构部分匹配表PMT用到了字符串的前缀集合与后缀集合。

首先给出一个定义1PMT中的值是字符串的前缀集合与后缀集合的交集中最长元素的长度。(请读三遍理解并深刻记住这个定义)

以下讲解将使用例子:主字符串ababababca中查找模式字符串abababca

例如,对于”aba”,它的前缀集合为{”a”, ”ab”},后缀 集合为{”ba”, ”a”}。两个集合的交集为{”a”},那么长度最长的元素就是字符串”a”了,长 度为1,所以对于”aba”而言,它在PMT表中对应的值就是1。

再比如,对于字符串”ababa”,它的前缀集合为{”a”, ”ab”, ”aba”, ”abab”},它的后缀集合为{”baba”, ”aba”, ”ba”, ”a”}, 两个集合的交集为{”a”, ”aba”},其中最长的元素为”aba”,长度为3。所以对于”ababa”而言,它在PMT表中对应的值就是1。

这里也先看一个PMT表关于模式字符串abababca``的例子(这里暂时不需要理解,看一下数据结构长什么样子)。

在这里插入图片描述

接下来就是KMP算法的核心:如何利用定义1简化暴力双循环的搜索方法:

  • 在暴力双循环中定义了i j 指针分别指向待匹配字符串str匹配字符串match ,若位置str[i+k] 和 match[j] 匹配失败时,丢弃已匹配成功的 match[0,j)字符串
  • 注意到已匹配成功的match[0,j)字符串其实是有用的,这里可以进行优化。
  • 目前匹配的字符串中, 从str[k, i+k) 得到后缀集合postfix_str, 从match[0,j) 得到前缀集合prefix_match,然后求两个集合的交集中最长的字符串 sub_str
  • 关键原理1:这个字符串 sub_str就是暴力双循环从 i+1 位置重新遍历到当前 i+j 位置时候匹配得到的最长字符串。
    • 以下图为例,a中在j = 6 处匹配失败,那么如果暴力循环就是i 回到k,j 回到0重新开始匹配,最终i又走到6这个位置的时候,最长匹配的一次是str[2,6]的字符串
    • KMP的前后缀集合重合的最长字符串,就是意味着在待匹配字符串str 中从i 回溯到k位置的后缀中与匹配字符串match匹配上最长的一次。
      在这里插入图片描述

有了如上的发现可以快速的回溯指针并省略一些遍历,但怎么快速的匹配前缀与后缀呢。下面关键原理2将解释如何做到这个快速回溯。

  • 关键原理2:可以发现match在j位置匹配失败了,match[0,j) 与 str[k,k+i)是完全相同的,则后缀集合postfix_str与前缀集合prefix_match实际都可以从 match[0,j) 数组来得到 。而match数组是遍历前就确定的,则遍历之前就可以通过match数组得到这个快速回溯的地址。
    • 看到这,你就明白了KMP的核心数据结构 部分匹配表PMT ,按照这个思路求出例子中的PMT表

    • 在这里插入图片描述

    • 其中 **next 数组就是在当前位置匹配失败后可以直接将j指针跳到哪个位置,代表 str[k, k+i) 和 match[0,j) 又匹配上了。**其中 -1 是第一个位置都匹配不上,i j都需要移动,而其他的都是匹配失败后只移动了j到next[j]

具体程序为:

int KMP(string haystack, string needle)
    {
        int n = haystack.size(), m = needle.size();
        vector<int> next = getNext(needle);
        // ij两个指针分别指向被匹配字符串和模式字符串的已成功匹配位置
        int i = 0, j = 0; 
        // 遍历整个被匹配字符串比对 或 匹配成功 结束循环
        while (i < n && j < m)
        {
            // 初始匹配位置 或 当前指针位置匹配成功
            if (j == -1 || haystack[i] == needle[j])
            {
                j++;
                i++;
            }
            else j = next[j];
        }
        if (j == m) return i - j;
        return -1;
    }

好了,KMP的主体原理就讲完了。这里你会发现KMP的核心思想就是从前后缀集合最长公共字符串而来。

Next 数组快速推导

另一方面首先需要得到PMT 中的核心数据结构Next数组,这里也有一定的技巧帮助我们快速得到。

具体来说,就是从模式字符串的第一位开始对自身进行匹配运算(注意,不包括第0位,因为第0位就匹配失败的next值为-1)。 在任一位置,能匹配的最长长度就是当前位置的next值。

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在next数组求取的时候,其实就是以match[0,i]的字符串后缀与match[0,j]的字符串前缀匹配。注意:那么当匹配失败可以快速的使用next数组,相当于递归的使用了KMP。

求next数组值的程序如下所示:

vector<int> getNext(string needle)
    {
        int n = needle.size();
        vector<int> next(n + 1); // +1 防止越界
        next[0] = -1; // 第一个匹配不成功指针j返回初始位置
        int post_idx = 0; // 后缀字符串指针
        int pre_idx = -1; // 匹配上的前缀字符串指针
        // 移动后缀指针
        while(post_idx < n)
        {
            // 判断与前缀的重合
            // 从头匹配的时候或当前位置匹配成功就记录
            if (pre_idx == -1 || needle[pre_idx] == needle[post_idx])
            {
                // 注意首先post_idx++,因为下一个位置的next是当前位置的KMP值
                // pre_idx++ 是因为KMP值不是从0计数,前后缀子集重合长度是从1计算
                pre_idx++; post_idx++; 
                next[post_idx] = pre_idx;
            }
            else
            {
                // 若当前位置未匹配上,就可以进入KMP匹配返回
                // 注意这里相当于递归了KMP的使用
                pre_idx = next[pre_idx];
            }
        }
        return next;
    }

参考

https://www.zhihu.com/question/21923021/answer/281346746

https://leetcode.cn/problems/find-the-index-of-the-first-occurrence-in-a-string/solutions/575568/shua-chuan-lc-shuang-bai-po-su-jie-fa-km-tb86/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/353137.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PC机组成之主板、芯片组与BIOS

PC机组成 台式PC由主机和外部设备组成&#xff0c;主机由主板、CPU、内存条、显卡、网卡、声卡、插卡和插座、机箱和电源等组成。 主板、芯片组和BIOS 主板 主板也称母版&#xff0c;是微型计算机中最大的一块集成电路板&#xff0c;也是其他部件和设备的连接载体。 CPU、内…

EndNote20 添加GBT7714文献格式

GBT 7714格式是中国国家标准《文后参考文献著录规则》的规定&#xff0c;用于指导学术论文、期刊文章等文献的参考文献著录。GBT 7714标准规定了参考文献的格式、内容和著录要求&#xff0c;以确保文献的一致性和标准化。 在EndNote 20中&#xff0c;若需要按照GBT 7714格式在W…

04.领域驱动设计:了解聚合和聚合根,怎样设计聚合-学习总结

目录 1、概述 2、聚合 3、聚合根 4、怎么设计聚合 4.1 聚合的构建过程主要步骤 第 1 步&#xff1a;采用事件风暴。 第 2 步&#xff1a;选出聚合根。 第 3 步&#xff1a;找出与聚合根关联的所有紧密依赖的实体和值对象。 第 4 步&#xff1a;画出对象的引用和依赖模型…

支持下一代网络IpV6的串口服务器,IpV6串口485接口转网口

和IPv4比较&#xff0c;IPv6有两个极具吸引力的特点&#xff1a;一个是IPv6采用的128位地址格式&#xff0c;而IPv4采用32位的地址格式&#xff0c;因此IPv6使地址空间增大了296&#xff1b;另一个是IPv6物联网数据业务具有更强的支持能力&#xff0c;成为未来物联网的重要协议…

体验 AutoGen Studio - 微软推出的友好多智能体协作框架

体验 AutoGen Studio - 微软推出的友好多智能体协作框架 - 知乎 最近分别体验了CrewAI、MetaGPT v0.6、Autogen Studio&#xff0c;了解了AI Agent 相关的知识。 它们的区别 可能有人要问&#xff1a;AutoGen我知道&#xff0c;那Autogen Studio是什么&#xff1f; https://g…

82 C++对象模型探索。数据语义学 - 单一继承下的数据成员布局

在使用继承后&#xff0c;由于内存对齐的影响&#xff0c;会带来内存空间的额外增加。 windows 和 linux 的图示&#xff1a; 对于windows&#xff0c;在继承时&#xff0c;子类中应该包含父类的全部&#xff0c;包括了父类内存对齐时空的内存部分。 对于linux&#xff0c;编…

pytorch-metric-learning度量学习工具官方文档翻译

基于Pytorch实现的度量学习方法 开源代码&#xff1a;pytorch-metric-learning官网文档&#xff1a;PyTorch Metric Learning官方文档 度量学习相关的损失函数介绍&#xff1a; 度量学习DML之Contrastive Loss及其变种度量学习DML之Triplet Loss度量学习DML之Lifted Structu…

python222网站实战(SpringBoot+SpringSecurity+MybatisPlus+thymeleaf+layui)-菜单管理实现

锋哥原创的SpringbootLayui python222网站实战&#xff1a; python222网站实战课程视频教程&#xff08;SpringBootPython爬虫实战&#xff09; ( 火爆连载更新中... )_哔哩哔哩_bilibilipython222网站实战课程视频教程&#xff08;SpringBootPython爬虫实战&#xff09; ( 火…

【大数据】详解 Flink 中的 WaterMark

详解 Flink 中的 WaterMark 1.基础概念1.1 流处理1.2 乱序1.3 窗口及其生命周期1.4 Keyed vs Non-Keyed1.5 Flink 中的时间 2.Watermark2.1 案例一2.2 案例二2.3 如何设置最大乱序时间2.4 延迟数据重定向 3.在 DDL 中的定义3.1 事件时间3.2 处理时间 1.基础概念 1.1 流处理 流…

ubuntu20.04 安装ROS2 记录

主要参考B站古月居的ROS2入门21讲 和 以下链接&#xff08;基本和视频上一致&#xff09; ubuntu20.04安装ROS2 详细教程_ubuntu20.04 ros2-CSDN博客 但是中间有些需要注意的地方&#xff0c; 1&#xff0c;添加源 步骤中提到 sudo curl -sSL https://raw.githubuserconten…

基于QC-LDPC编码的循环移位网络的FPGA实现

一、桶式移位寄存器(barrel shifter) 八位桶式移位寄存器的VHDL实现如下&#xff0c;由于每一层结构相似&#xff0c;于是采用生成语句for_generate实现&#xff0c;使用该代码实现的RTL级分析和理论的结构一致&#xff0c;仿真结果也符合预期。 entity barrel_shift isGENE…

【RT-DETR有效改进】反向残差块网络EMO | 一种轻量级的CNN架构(轻量化网络,参数量下降约700W)

前言 大家好&#xff0c;这里是RT-DETR有效涨点专栏。 本专栏的内容为根据ultralytics版本的RT-DETR进行改进&#xff0c;内容持续更新&#xff0c;每周更新文章数量3-10篇。 专栏以ResNet18、ResNet50为基础修改版本&#xff0c;同时修改内容也支持ResNet32、ResNet101和PP…

文件上传之大文件分块上传进度控制处理

在分块上传内容结束以后的事件监听&#xff0c;我们会实现 unlinkSync 删除临时文件操作&#xff0c;那么试想一下&#xff0c;在这个事件监听中&#xff0c;我们是否可以通过totalChunks以及currentChunk获取当前上传的进度情况呢&#xff1f; 后端 upload上传接口&#xff…

python222网站实战(SpringBoot+SpringSecurity+MybatisPlus+thymeleaf+layui)-友情链接管理实现

锋哥原创的SpringbootLayui python222网站实战&#xff1a; python222网站实战课程视频教程&#xff08;SpringBootPython爬虫实战&#xff09; ( 火爆连载更新中... )_哔哩哔哩_bilibilipython222网站实战课程视频教程&#xff08;SpringBootPython爬虫实战&#xff09; ( 火…

在 React 组件中使用 JSON 数据文件,怎么去读取请求数据呢?

要在 React 组件中使用 JSON 数据&#xff0c;有多种方法。 常用的有以下几种方法&#xff1a; 1、直接将 JSON 数据作为一个变量或常量引入组件中。 import jsonData from ./data.json;function MyComponent() {return (<div><h1>{jsonData.title}</h1>&…

openssl3.2 - 测试程序的学习 - 准备openssl测试专用工程的模板

文章目录 openssl3.2 - 测试程序的学习 - 准备openssl测试专用工程的模板概述笔记工程中需要的openssl的库实现END openssl3.2 - 测试程序的学习 - 准备openssl测试专用工程的模板 概述 openssl3.2 - 测试程序的学习 整了几个test.c, 每开一个新的测试工程, 总要改这改那的. …

Maven入门及其使用

目录 一、Maven入门 1.1 初识Maven 1.2 Maven的作用 1.2.1 依赖管理 1.2.2 统一项目结构 1.2.3 项目构建 1.3 Maven坐标 1.4 Maven仓库 1.4.1 Maven仓库概述 二、Maven的下载与安装 2.1 安装步骤 2.1.1 解压安装&#xff08;建议解压到没有中文、特殊字符的路径下。&#xff09…

【JavaScript】ECMA6Script es6

文章目录 一、 es6的介绍二、 es6的变量和模板字符串2.1 let 与 var2.2 const 与 var2.3 模板字符串 三、 es6的解构表达式四、 es6的箭头函数4.1 声明和特点4.2 实践和应用场景4.3 rest和spread 五、es6的对象创建和拷贝5.1 对象创建的语法糖5.2 对象的深拷贝和浅拷贝 六、es6…

STM32 PWM驱动设计

单片机学习&#xff01; 目录 文章目录 前言 一、PWM驱动配置步骤 二、代码示例及注意事项 2.1 RCC开启时钟 2.2 配置时基单元 2.3 配置输出比较单元 2.4 配置GPIO 2.5 运行控制 三、PWM周期和占空比计算 总结 前言 PWM本质是利用面积等效原理来改变波形的有效值。 一、PWM驱动…

【electron】打包问题处理

目录 项目无法在win7执行场景尝试处理 项目无法在win7执行 场景 使用electron25.0.1、electron-builder24.2.1&#xff0c;打出来的项目在win7系统上跑不起来&#xff0c;报错无法定位程序输入点DiscardVirtualMemoty于动态链接库KERNEL32.dll上。 尝试处理 通过百度发现ele…