【数据结构】KMP算法细节详解

KMP算法细节详解

    • 前言
    • 一、字符串匹配问题
      • 1.BF算法
      • 2.KMP算法
    • 二、next数组
    • 三、手写nex思想
    • 四、机算next思想
    • 五、next数组细节理解
    • 六、nextVal数组
    • 七、KMP算法代码实现
    • 八、nextVal数组代码实现
    • 完结

前言

KMP算法是为了字符串匹配问题而被研究出来的,字符串匹配问题就是查看一个字符串A是否是字符串B的子串,如果是字串的话,在B的哪个位置?此算法代码简练,但理解起来非常困难,建议挑出一整块时间来专门学习,本文作者写的非常用心,还不了解KMP的小伙伴一定要静下心来慢慢细品,你一定会有所收获🍊

一、字符串匹配问题

如果遇到这种在一个字符串中寻找另一个字符串的子串这种问题,大多数人第一时间想到的肯定是通过暴力匹配算法来完成,也就是Brute-Force算法简称BF算法,时间复杂度为O(m*n),如果有上千行上万文本呢?,时间成本一定会很高,所以D.E.Knuth,J.H.Morris和V.R.Pratt三位大神提出了KMP算法,KMP(Knuth-Morris-Pratt )算法也由他们三个的名字命名。

1.BF算法

在这里插入图片描述

2.KMP算法

肉眼可见的差距

在这里插入图片描述

二、next数组

next数组是KMP算法的精髓

KMP之所以会这样高效的查找字符串全都是next数组的功劳,也就是动图中字符串下面的数字,KMP算法会根据生成的next数组来移动,如果比对错误,将子串的首位直接移动到主串对比错误的位置,随后根据next数组提供的下标向左移动x格,图中下标为-1,所以向左移动-1格,就是向右移动一格

在这里插入图片描述

三、手写nex思想

注:上面图片的下标是按照nextVal生成的,next数组生成请看下面,nextVal是next的改进版,后面会讲到,我们先理解next数组生成原理

next数组的值计算的是从第n位开始前面字符串的最大公共前后缀的长度,不包括整个字符串本身,比如有这样一个字符串

在这里插入图片描述

从第一位向前看,没有字符,没法求,所有人为规定next[0]固定为-1(这里也有部分老师讲解第一位是0,其实思想都一样只不过是下标不一样而已,我们学的是思想不用在意这些),从第二位b向前看,也没有公共前后缀,next[2]为0,从第三位c向前看,也没有,next[3]为0,第四位a向前看,也没有next[4]为0,第五位b向前看,此时,最大公共前后缀为a,长度就是1,next[5]为1,从第六位向前看,最大公共前后缀为ab,长度为2,所以next[6]为2

在这里插入图片描述

四、机算next思想

比如一个字符串abcda,此时next数组的最大公共前后缀是1,那如果加个b呢,abcdab,此时最大公共前后缀是2,加个c呢,最大公共前后缀就变成3,经过大量数据观察,发现每次最大公共前后缀最多+1。

如果一个字符串abcdeffabcde,此时最大公共前后缀是3,如果在后面加一个g,这个字符串变成abcdffabcdg,最大公共前后缀直接就变成了0,也就是说每次最大公共前后缀可能直接减少到0。

如果增加一个字符的时候,发现新增加的字符与前缀后面的字母不相同了,就会进行减少,如下图所示,一次次进行查找,当前新的最大相同前后缀是什么,直到查找到位置。

在这里插入图片描述

这种方法未免有些麻烦,我们可以利用已有的条件进行优化,如果没有找到,直接找到其对应的next数组的值的字符串的下标,进行比对,如果成功,将找打他的next数组的值进行+1,就是next数组最新一位的值,如果找到最后,会找到字符串下标为0的位置,0位置的next数组值是-1,拿到-1的话数组会报错,这里写代码的时候不要忘记处理

在这里插入图片描述
为什么可以这么做呢?因为前面红框的前缀,等于后面红框的后缀,我们在此基础上向后进行对比一位即可判断出next数组最新一位的值。
在这里插入图片描述

五、next数组细节理解

为什么按照next数组移动就可以保证不跳过匹配成功的字符串呢?

前面说过,如果匹配失败子串的首字符的位置会移动到匹配失败的位置,再向左移动next数组[i]格,匹配失败的那一位的next数组记录着前面字符的最大公共前后缀长度,由于前面的前缀都已经于主串匹配过了,只不过后缀后面的位置对不上,那么我们直接将后缀的起始位置对准匹配失败的位置,也就是向左移动next[i]个长度(也就是向左移动最大公共前后缀的长度),就能保证跳跃过程中没有错过任何可以匹配成功的串。还可以使主串中已经成功配对的后缀于子串的前缀相匹配,再向后匹配。

在这里插入图片描述

下图中,①=②=③=④,所以移动回去时保证前面的后缀会与匹配失误的地方对齐

在这里插入图片描述

上面展示的是有公共前后缀的情况,那么如果整个字符串都没有公共前后缀会怎么样?

  • 将发挥KMP算法的最大作用!

我们只需大胆向后跳,不用再往前跳了

此动画后半部省略掉了,找到最后没有发现相同串

在这里插入图片描述

六、nextVal数组

讲完了next数组,接下来讲解nextval数组,nextVal数组是next数组的改进版,因为next数组还有改进的空间,那就是在生成数组的时候对在next数组的基础上,对失配字符的next数组下标进行读取,读取数组下标到字符串的下标位置,然后进行比较,如果不相等,那么不对其进行优化,如果读取失配字符的next数组下标到字符串的下标位置相等,那么将读取失配字符的next数组下标到字符串下标,然后取出这个位置的next数组的值到失配位置的next数组。(这里难理解,多看几次)

在这里插入图片描述

这样做的原理是什么呢?

在这里插入图片描述

如果此时a在与上面的字符串进行配对,那么a此时与b失配,说明对比的数是非a,按照next数组原理我们将下标为0的位置移动到上面b的位置,可是a已经和b对比过了,将下标为0的a移动过去必然也会失配,所有nextVal要先对失配的位置与next数组的值对应的下标的字符进行比较,相等就会读取其对应位置的next下标到失配位置的next下标。

七、KMP算法代码实现

讲完了原理,这里是代码实现。

  • 可以将里面的next替换为nextVal,两者都为独立的数组生成函数。
#define _CRT_SECURE_NO_WARNINGS 1
#include <stdlib.h>
#include <assert.h>
#include <stdio.h>

void getNext(int * next,const char* s,int len)
{
	assert(next && s);				//判断两个指针是不是空指针
	int i = 0, cur = -1;			//i是当前位置、cur是当前最大相同前后缀的长度
	next[0] = cur;
	while (i < len)
	{
		if (cur==-1||s[i]==s[cur]) 	//cur为-1的时候也要恢复成0同时i++
		{
			next[i + 1] = cur+1;
			cur++;					//cur恢复成0
			i++;				
		}
		else
		{
			cur = next[cur];		//如果失配,直接找到这个位置的next数组的值给到cur
		}
	}
}
int kmp(const char* p, const char* s)
{
	int len = strlen(s);
	int* next = (int*)malloc(sizeof(len) * len);
	getNext(next, s, len - 1);
	assert(next);
	int i = 0, j = 0;			//定义i为字符串下标,j为next数组下标
	while (p[i])				
	{
		if (j==-1||p[i] == s[j])	//如果next数组下标为-1,next数组下标恢复为0,字符串下标+1	
		{
			i++;				
			j++;		
			if (s[j] == '\0')		//如果字符串下标为‘\0’,查找成功返回i-j也就是字符串匹配成功位置的收个字符的下标
			{
				free(next);
				next = NULL;
				return i - j;
			}
		}
		else
		{
			j = next[j];			//将此位置的next数组下标对准字符串对应位置得下标
		}
	}
	free(next);
	next = NULL;
	return -1;					//如果p[字符串下标]=='\0',跳出循环,证明查找失败,返回-1
}
int main()
{
	char p[] = "abcdabecabcfdsafdasdasfdasfasdfasfdasafdsbc";
	char s[] = "abecab";
	printf("%d", kmp(p, s));
}

八、nextVal数组代码实现

void getNextVal(int *next,const char* s,int len)
{
	assert(next);
	int i = 0, cur = -1;
	next[0] = cur;
	while(i < len)
	{
		if (cur == -1 || s[i] == s[cur])  //为-1注意处理
		{
			i++;
			cur++;
			if (s[i] != s[cur])			//比next数组增加一个判断
			{
				next[i] = cur;
			}
			else
			{
				next[i] = next[cur];		//如果相等,把next[cur]的值取过来
			}
		}
		else
		{
				cur = next[cur];
		}
	}
}

完结

作者的话
KMP是一块硬骨头,建议各位能挑出一段长时间专门攻克它,不要今天看一点,明天再看一点,这样不会有收获,写代码不代表就已经真正理解了KMP,你最好要能熟练的讲给其他小伙伴KMP到底一种什么样的算法,记录一份详细的笔记,忘记的时候拿出来反复重温,最后如果觉得哪里没有理解,可以评论区留言或者私信作者,我会耐心地给大家来答疑解惑。当然如果有不足的地方还请各位帮忙补充。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/1972.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

真实的软件测试日常工作是咋样的?

最近很多粉丝问我&#xff0c;小姐姐&#xff0c;现在大环境不景气&#xff0c;传统行业不好做了&#xff0c;想转行软件测试&#xff0c;想知道软件测试日常工作是咋样的&#xff1f;平常的工作内容是什么&#xff1f; 别急&#xff0c;今天跟大家细细说一下一个合格的软件测…

【LeetCode每日一题】——面试题17.21.直方图的水量

文章目录一【题目类别】二【题目难度】三【题目编号】四【题目描述】五【题目示例】六【解题思路】七【时间频度】八【代码实现】九【提交结果】一【题目类别】 双指针 二【题目难度】 困难 三【题目编号】 面试题17.21.直方图的水量 四【题目描述】 给定一个直方图(也称…

Android Studio 中使用 Gradle 配置多渠道打包 配置不同的渠道名称 配置不同的App名称 配置不同的Logo

废话三种操作都是可以混合一起用的&#xff0c;本来也不是很难的事情&#xff0c;为了方便分别理解&#xff0c;这里我就分开处理了。如果需要将打包出来的apk的名称自动命名成指定格式&#xff0c;也可以进行配置&#xff0c;我这里没这个需求&#xff0c;所以这里就不讨论了。…

晶晨S905D3切换到外部phy方法

文章目录 前言一、s905d3的以太网驱动的理解二、修改设备树注意前言 随着芯片的国产化推荐,越来越多的国产芯片被大家重视起来,但是国产的一些稍微高性能的芯片资料太少,这里把调实phy的流程记录一下,不做太多的理论分析 一、s905d3的以太网驱动的理解 如果拿到sdk后,默…

ESP32设备驱动-ADXL335加速计驱动

ADXL335加速计驱动 文章目录 ADXL335加速计驱动1、ADXL335介绍2、硬件准备3、软件准备4、驱动实现1、ADXL335介绍 ADXL335 是一款小型、薄型、低功耗、完整的 3 轴加速度计,具有信号调理电压输出。 该产品以 3 g 的最小满量程测量加速度。它可以测量倾斜传感应用中的静态重力…

JAVASE/封装、继承、多态

博客制作不易&#xff0c;欢迎各位点赞&#x1f44d;收藏⭐关注前言在学习面向对象编程语言时&#xff0c;封装、继承、多态则是我们必须学习和使用的三大特征。本文通过举例&#xff0c;说明了该三大特征的基本权限特点。一、访问限定符范围private默认权限protectedpublic同一…

springcloud3 nacos,sentinel,ribbon,openfegin等整合案例4[fallback+blockhandler完美整合]

一 说明 1.1 结论 SentinelResource(value "fb",fallback "handlerFallback") //fallback只负责业务异常 SentinelResource(value "fb",blockHandler "blockHandler") //blockHandler只负责sentinel控制台配置违规 假设fallbac…

国内版的ChatGPT弯道超车的机会在哪里?

前言 从去年11月最后一天ChatGPT诞生&#xff0c;截至目前&#xff0c;ChatGPT的热度可谓是爆了。众所周知&#xff0c;ChatGPT是美国“开放人工智能研究中心”研发的聊天机器人程序&#xff0c;它是一个人工智能技术驱动的自然语言处理工具&#xff0c;它能够通过学习和理解人…

Android性能优化的底层逻辑

前言 性能优化仿佛成了每个程序员开发的必经之路&#xff0c;要想出人头地&#xff0c;与众不同&#xff0c;你还真需要下点功夫去研究Android的性能优化&#xff0c;比如说&#xff0c;从优化应用启动、UI加载、再到内存、CPU、GPU、IO、还有耗电等等&#xff0c;当你展开一个…

Docker部署springcloud项目(清晰明了)

概述 最近在想做个cloud项目,gitee上找了个模板项目&#xff0c;后端使用到 Nacos、Gateway、Security等技术&#xff0c;需要到 Docker 容器部署&#xff0c;在此总结一下&#xff0c;若有不足之处&#xff0c;望大佬们可以指出。 什么是 Docker Docker 使用 Google 公司推…

【8】核心易中期刊推荐——人工智能与机器人

🚀🚀🚀NEW!!!核心易中期刊推荐栏目来啦 ~ 📚🍀 核心期刊在国内的应用范围非常广,核心期刊发表论文是国内很多作者晋升的硬性要求,并且在国内属于顶尖论文发表,具有很高的学术价值。在中文核心目录体系中,权威代表有CSSCI、CSCD和北大核心。其中,中文期刊的数…

【C++】Google编码风格学习

Google规范线上地址&#xff1a;https://zh-google-styleguide.readthedocs.io/en/latest/ 文章目录1. 头文件2. 作用域3. 类4. 函数5. 其他C特性6. 命名约定7. 注释8. 格式1. 头文件 每个cpp/cc文件都对应一个h头文件&#xff0c;除单元测试代码和只包含main()的文件外。 所…

100天精通Python(可视化篇)——第80天:matplotlib绘制不同种类炫酷柱状图代码实战(簇状、堆积、横向、百分比、3D柱状图)

文章目录0. 专栏导读1. 普通柱状图2. 簇状柱形图3. 堆积柱形图4. 横向柱状图5. 横向双向柱状图6. 百分比堆积柱形图7. 3D柱形图8. 3D堆积柱形图9. 3D百分比堆积柱形图0. 专栏导读 &#x1f3c6;&#x1f3c6;作者介绍&#xff1a;Python领域优质创作者、CSDN/华为云/阿里云/掘金…

Python读写EXCEL文件常用方法大全

python读写excel的方式有很多&#xff0c;不同的模块在读写的讲法上稍有区别&#xff0c;这里我主要介绍几个常用的方式。 用xlrd和xlwt进行excel读写&#xff1b;用openpyxl进行excel读写&#xff1b;用pandas进行excel读写&#xff1b; 一、数据准备 为了方便演示&#xff…

基于深度学习的动物识别系统(YOLOv5清新界面版,Python代码)

摘要&#xff1a;动物识别系统用于识别和统计常见动物数量&#xff0c;通过深度学习技术检测日常几种动物图像识别&#xff0c;支持图片、视频和摄像头画面等形式。在介绍算法原理的同时&#xff0c;给出Python的实现代码、训练数据集以及PyQt的UI界面。动物识别系统主要用于常…

C++ , STL常用容器

STLSTL初识STL的诞生STL基本概念STL六大组件STL中的容器、算法、迭代器容器算法迭代器初识STL — 常用容器string容器vector容器deque容器stack容器queue容器list容器set/ multiset 容器map/ multimap 容器C 模板. STL初识 STL的诞生 长久以来&#xff0c;软件界一直希望建立…

最好用的Markdown编辑器:MWeb Pro mac

MWeb pro Mac中文版是一款非常好用的Markdown编辑器和博客生成工具&#xff0c;支持语法高亮&#xff0c;预览&#xff0c;Fenced code blocks和代码高亮&#xff0c;Math ML支持&#xff0c;具有导出HTML/PDF&#xff0c;自定编辑器主题&#xff0c;字数统计&#xff0c;大纲视…

DRAM功能介绍与基础概念

目录 ROM与RAM DRAM定义与形态 DRAM存储单元 DRAM架构和工作流程 存储器是计算机系统中的记忆设备&#xff0c;用来存储程序和各种数据信息&#xff0c;存储器的存储介质主要采用半导体器件和磁性材料。接下来简单介绍存储器的主要分类。 按存储介质可以分类为半导体存储器…

2023年Android现代开发

2023年现代Android开发 下面与大家分享如何构建具有2023年最新趋势的Android应用程序。 Android是什么&#xff1f; Android 是一种基于 Linux 内核并由 Google 开发的开源操作系统。它用于各种设备&#xff0c;包括智能手机、平板电脑、电视和智能手表。 目前&#xff0c…

JVM-栈详解二

前言 虚拟机栈概述 虚拟机栈出现的背景 由于跨平台性的设计&#xff0c;Java的指令都是根据栈来设计的。不同平台CPU架构不同&#xff0c;所以不能设计为基于寄存器的。 优点是跨平台&#xff0c;指令集小&#xff0c;编译器容易实现&#xff0c;缺点是性能下降&#xff0c;实…