数据结构与算法C语言版学习笔记(5)-串,匹配算法、KMP算法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、串的定义
  • 二、串的存储结构
    • 1.顺序结构
    • 2.链式结构
  • 三、串的朴素的模式匹配算法(暴力匹配算法)
    • 1.背景
    • 2.假设我们要从下面的主串 S="goodgoogle" 中,找到 T="google”这个子串的位置。
  • 四、升级版的匹配算法:KMP模式匹配算法
    • 1.背景:如果主串 S="aabaabaaf" ,要匹配的子串为 T=“aabaaf” 。
    • 2.KMP算法解决的问题:字符串匹配中,将时间复杂度从O(m*n)缩短到O(m+n)
    • 3.浅显的KMP匹配过程:
    • 4.关键在于如何得知让子串跳到哪个位置去跟主串比较呢?(这里是b)——求最长相等前后缀
      • ①一个串的前缀和后缀是什么?
      • ②子串为 T=“aabaaf” 的前缀和后缀是什么?
      • ③什么叫最长相等前后缀?
      • ④根据前缀表求匹配
      • ⑤next数组是什么?
      • ⑥KMP算法的思想不难,难的是如何计算最长相同前后缀和next数组。
  • 五、 KMP算法再举一个例子
    • 主串:ababbaabbaababaaacb
    • 子串:ababaa
    • (1)手算求next数组:求子串每个字母和前面一坨的最长公共前后缀长度
    • (2)KMP过程:
  • 六、KMP算法的代码实现
    • 1.求next数组
    • 2.KMP算法


前言

关于串,首先想到的就是字符串。为什么会有字符串这个东西产生呢?
比如外国人说英语,都是字母,但是我们中国人说的话不是字母,只能是汉字,所以汉字这种特殊的、无法被计算机直接阅读的字符,在组成一个短语或者句子时,就形成了字符串。
字符串的产生是为了能够表示和处理文本信息。在计算机科学中,文本是一种非常常见的数据类型,例如输入的命令、输出的结果、存储的文件内容等等。为了能够对文本进行操作和处理,就需要一种能够表示和存储文本的数据类型,于是字符串应运而生

字符串可以看作是由字符组成的序列,每个字符都有自己的编码表示,例如ASCII码或Unicode码。通过将字符依次排列组合,就可以构成一个完整的字符串。字符串可以进行各种操作,例如连接、截取、替换、查找等等,使得对文本的处理变得更加灵活和方便。

另外,字符串还可以用来表示和处理其他类型的数据,例如将数字转换为字符串进行输出、从用户输入的字符串中解析出数字等等。字符串的产生也是为了满足对不同类型数据的统一处理需求。

一、串的定义

在C语言中,字符和字符串是两个不同的概念,但它们之间存在一些联系和关联。

字符:字符是C语言中最基本的数据类型之一,用于表示单个字符。它使用单引号括起来,例如 ‘A’、‘9’、'!'等。每个字符在内存中占用一个字节的空间

字符串:字符串是由一系列字符组成的序列,以空字符 ‘\0’ 结尾。在C语言中,字符串实际上是以字符数组的形式存在的。例如,“Hello” 可以表示为一个包含6个字符的字符数组:{‘H’, ‘e’, ‘l’, ‘l’, ‘o’, ‘\0’}。字符串可以使用双引号括起来,例如 “Hello”

数据结构中,串(String)是由零个或多个字符组成的有限序列。它是一种线性数据结构,可以用来表示和处理文本、符号序列等信息。

串的定义可以表示为:一个串S是一个字符的有限序列,记作S = “a1a2…an”,其中每个字符ai属于一个字符集,n表示串的长度。串的长度可以是零,称为空串。

串在存储上通常使用字符数组来表示,其中每个字符占用一个存储位置。通常,字符串的最后一个位置用特殊字符 ‘\0’ 表示串的结束。

二、串的存储结构

1.顺序结构

串的顺序存储结构是用一组地址连续的存储单元来存储串中的字符序列的。按照预定义的大小,为每个定义的串变量分配一个固定长度的存储区。一般是用定长数组来定义。
既然是定长数组,就存在一个预定义的最大串长度,一般可以将实际的串长度值保存在数组的0下标位置,有的书中也会定义存储在数组的最后一个下标位置。但也有些编程语言不想这么干,觉得存个数字占个空间麻烦。它规定在串值后面加一个不计入串长度的结束标记字符,比如“\0”来表示串值的终结。
在这里插入图片描述
对于串数组的长度MaxSize,由于串数组长度是提前给定的,所以也很可能发生超出上限的情况。
在这里插入图片描述

2.链式结构

在这里插入图片描述

三、串的朴素的模式匹配算法(暴力匹配算法)

1.背景

字符串一般是一个有很多字符的组合,比如“Ilikeappleandyou"或者古诗“床前明月光,疑是地上霜”,这个时候我想在一个很大的字符串里面找到指定的子串“and”或者“明月”,应该怎么做呢?
这种子串的定位操作通常称做串的模式匹配, 应该算是串中最重要的操作之一

2.假设我们要从下面的主串 S=“goodgoogle” 中,找到 T="google”这个子串的位置。

在这里插入图片描述
在这里插入图片描述
代码思路:设主串str,子串substr。先计算出两个字符串的长度为10和6,大循环从0开始,循环
str_len - substr_len=4次,表示子串最多后移四次就无法匹配成功了。每一次大循环里面,让子串的每一位和主串对应位比较,如果不相等就跳出小循环,大循环让子串后移一位。

int findSubstring(char *str, char *substr) {
    int str_len = strlen(str);
    int substr_len = strlen(substr);

    for (int i = 0; i <= str_len - substr_len; i++) {
        int j;
        for (j = 0; j < substr_len; j++) {
            if (str[i + j] != substr[j]) {
                break;
            }
        }
        if (j == substr_len) {
            return i;  // 子串在主串中的起始位置
        }
    }

    return -1;  // 子串未找到
}

朴素匹配算法是一种简单直观的字符串匹配算法,但它也存在一些缺点:

效率较低:朴素匹配算法的时间复杂度为O(n*m),其中n为主串的长度,m为子串的长度。在最坏的情况下,需要进行大量的字符比较和回溯操作,导致算法效率较低。
回溯次数较多:当主串中的某个字符与子串的第一个字符匹配,但后续字符不匹配时,朴素匹配算法需要回溯到主串中的下一个位置,继续进行匹配。这可能导致大量的回溯操作,影响算法的性能。
没有利用已有信息:朴素匹配算法没有利用已经匹配过的字符信息,每次都从头开始比较。这使得算法的效率较低,尤其是在处理大规模文本时。

所以需要改进算法。

四、升级版的匹配算法:KMP模式匹配算法

1.背景:如果主串 S=“aabaabaaf” ,要匹配的子串为 T=“aabaaf” 。

朴素匹配算法时,主串从第一位开始逐次与子串比较,比较一圈不匹配后又从第二位开始逐次与子串比较,如此往复。那么主串需要不断的回溯,之前比较时得到的信息没有充分利用。

2.KMP算法解决的问题:字符串匹配中,将时间复杂度从O(m*n)缩短到O(m+n)

3.浅显的KMP匹配过程:

(1)第一次匹配时,a-a、a-a、b-b、a-a、a-a、b-f,这时不一致了。
在这里插入图片描述
(2)我不想回溯重新匹配,所以第二次匹配,让子串跳到从b之后开始匹配,这样的话,刚好一个循环就能完成匹配。所以KMP算法重要的思想就是:省略了普通算法中逐次比较的第2、3、4、5、、、步,只进行了第1步和可以成功匹配的最后一步。
在这里插入图片描述

4.关键在于如何得知让子串跳到哪个位置去跟主串比较呢?(这里是b)——求最长相等前后缀

①一个串的前缀和后缀是什么?

一个字符串的前缀是指从开头到某个位置的子串,后缀是指从结尾到某个位置的子串。换句话说,给定一个字符串S,它的前缀是S的任意一个以开头的子串,而后缀是S的任意一个以结尾的子串

例如,对于字符串"ABCD",它的前缀包括:“” (空串),“A”,“AB”,“ABC”,而后缀包括:“BCD”,“CD”,“D”,“” (空串)。

②子串为 T=“aabaaf” 的前缀和后缀是什么?

前缀:a、aa、aab、aaba、aabaa
后缀:f、bf、abf、aabf、baabf、abaaf
记忆技巧:前缀:有头无尾 后缀:有尾无头

③什么叫最长相等前后缀?

子串都有自己的前缀和后缀,对每个前缀进行分析,看看他们的前后缀有没有相同的,有几项,就记录为几。

根据子串的前缀来分析子串前缀的前后缀:
在这里插入图片描述
比如aaba,前缀a和后缀a相同,长度为1;前缀aa和后缀ba不同,前缀aab和后缀aba不同。
比如aabaa,前缀aa和后缀aa相同,长度为2,是最长的。
在这里插入图片描述

这个东西叫做前缀表。

④根据前缀表求匹配

第一次匹配后,b≠f,那么要找f前面的子串的最长相等前后缀,即为2。
数字2意味着什么呢?f之前的前缀是aabaa,意味着后缀aa和前缀aa刚好形成了一个相同且对称的形式。而我们要让第二次匹配时子串跳到b的位置去,因为b在子串的这个数组里刚好下标就是2。

所以第二次匹配时,子串就从主串的b位置开始逐一比较。省略了前面的一些繁琐的步骤,简化了时间复杂度。
在这里插入图片描述

⑤next数组是什么?

就是求出最长的相等的前后缀,把长度记录到next数组中。
next数组:当主串与子串的某一位字符不匹配时,子串要回退的位置。

⑥KMP算法的思想不难,难的是如何计算最长相同前后缀和next数组。

五、 KMP算法再举一个例子

主串:ababbaabbaababaaacb

子串:ababaa

(1)手算求next数组:求子串每个字母和前面一坨的最长公共前后缀长度

①a:前面没有,就是0
②ab:前缀a,后缀a,长度为1;
③aba:前缀a,后缀a;前缀ab,后缀ba;长度为1
④abab:前缀ab,后缀ab,长度为2
⑤ababa:前缀aba,后缀aba,长度3
⑥ababaa:前缀a,后缀a,长度1
所以前缀表:
a b a b a a
0 1 1 2 3 1
所以next数组:
a b a b a a
-1 0 0 1 2 0

(2)KMP过程:

在这里插入图片描述
在这里插入图片描述
这样不断让子串往后面对齐移动,其中省略掉的就是不用让子串每次重新回到主串头位置了,根据已有的信息巧妙地省略掉了公共的、无意义的比较过程。

六、KMP算法的代码实现

1.求next数组

void calculateNext(char *pattern, int *next) {
    int len = strlen(pattern);
    int i = 0, j = -1;
    next[0] = -1;

    while (i < len) {
        if (j == -1 || pattern[i] == pattern[j]) {
            i++;
            j++;
            next[i] = j;
        } else {
            j = next[j];
        }
    }
}

函数 calculateNext 用于计算模式串的 Next 数组。

首先,获取模式串的长度 len,并初始化两个指针 i 和 j,其中** i 表示当前遍历到的位置,j 表示前缀的末尾位置**。

然后,将** Next 数组的第一个元素 next[0] 设置为 -1,表示不存在前缀**。

接下来,使用一个循环,从索引 1 开始遍历子串的字符

如果 j 等于 -1 或者当前字符 pattern[i] 等于前缀的末尾字符 pattern[j],则说明可以扩展当前位置的前缀长度,即 i++ 和 j++,然后将 j 的值赋给 next[i]。
如果当前字符不匹配,则需要回溯到更短的相等前后缀。将 j 更新为 next[j],即回溯到前缀的前缀。
最后,循环结束后,Next 数组中存储了每个位置的最长相等前后缀的长度。

这个函数的目的是为了通过利用已匹配的部分,避免无谓的字符比较,从而提高字符串匹配的效率。

2.KMP算法

思路:先获取next数组,然后

int kmpSearch(char *text, char *pattern) {
    int textLen = strlen(text);
    int patternLen = strlen(pattern);
    int i = 0, j = 0;

    int next[patternLen];
    calculateNext(pattern, next);

    while (i < textLen && j < patternLen) {//条件为 i 小于文本串的长度且 j 小于模式串的长度
        if (j == -1 || text[i] == pattern[j]) {//如果 j 等于 -1 或者当前文本串字符 text[i] 等于模式串字符 pattern[j]
            i++;//说明当前字符匹配成功,继续比较下一个字符,即 i++ 和 j++
            j++;
        } else {
            j = next[j];//如果当前字符不匹配,则需要根据 Next 数组来进行回溯
            //将模式串向右移动到最大匹配的位置
        }
    }

    if (j == patternLen) { //j 等于模式串的长度
        return i - j; // 已完全匹配成功,返回匹配的起始位置
    } else {
        return -1; // 没有找到匹配的子串
    }
}

函数 kmpSearch 是使用 KMP 算法在文本串中查找匹配的子串。

首先,获取文本串和模式串的长度,并初始化两个指针 i 和 j,分别指向文本串和模式串的起始位置。
然后,创建一个长度为模式串长度的 Next 数组,并调用 calculateNext 函数来计算模式串的 Next 数组。

接下来,使用一个循环,条件为 i 小于文本串的长度且 j 小于模式串的长度:
如果 j 等于 -1 或者当前文本串字符 text[i] 等于模式串字符 pattern[j],则说明当前字符匹配成功,继续比较下一个字符,即 i++ 和 j++。
如果当前字符不匹配,则需要根据 Next 数组来进行回溯。将 j 更新为 next[j],即将模式串向右移动到最大匹配的位置。

循环结束后,有两种情况:
如果 j 等于模式串的长度,表示模式串已完全匹配成功,返回匹配的起始位置 i - j。
如果 j 不等于模式串的长度,表示没有找到匹配的子串,返回 -1。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/125601.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

app自动化测试(Android)--显式等待机制

WebDriverWait类解析 WebDriverWait 用法代码 Python 版本 WebDriverWait(driver,timeout,poll_frequency0.5,ignored_exceptionsNone)参数解析&#xff1a; driver&#xff1a;WebDriver 实例对象 timeout: 最长等待时间&#xff0c;单位秒 poll_frequency: 检测的间隔步…

华为L410上制作内网镜像模板02

原文链接&#xff1a;华为L410上制作离线安装软件模板02 hello&#xff0c;大家好啊&#xff0c;今天给大家带来第二篇在内网搭建Apache服务器&#xff0c;用于安装完内网操作系统后&#xff0c;在第一次开机时候&#xff0c;为系统安装软件的文章&#xff0c;今天给大家介绍在…

nodejs+vue+python+PHP+微信小程序南七街道志愿者服务平台的设计与实现-计算机毕业设计推荐

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性&#xff1a;…

PCIe寄存器之二

关键字索引&#xff1a; CAP_PM 对应&#xff1a;Capabilities: [c0] Power Management CAP_MSI 对应&#xff1a;Capabilities: [c8] MSI CAP_MSIX对应&#xff1a;Capabilities: [e0] MSI-X CAP_EXP 对应&#xff1a;Capabilities: [70] Express (v2) Endpoint 以上 [] 内的…

【云栖2023】张治国:MaxCompute架构升级及开放性解读

简介&#xff1a; 本文根据2023云栖大会演讲实录整理而成&#xff0c;演讲信息如下 演讲人&#xff1a;张治国|阿里云智能计算平台研究员、阿里云MaxCompute负责人 演讲主题&#xff1a;MaxCompute架构升级及开放性解读 活动&#xff1a;2023云栖大会 MaxCompute发展经历了…

网络基础(1)

目录&#xff1a; 1.了解局域网&#xff08;LAN&#xff09;和广域网&#xff08;WAN&#xff09; 2.认识“协议” 3.浅谈OSI七层模型 4.网络传输的基本流程 5.路由器这个设备 ---------------------------------------------------------------------------------------…

手写一个Webpack,带你了解构建流程

如果对前端八股文感兴趣&#xff0c;可以留意公重号&#xff1a;码农补给站&#xff0c;总有你要的干货。 前言 Webpack是一个强大的打包工具&#xff0c;拥有灵活、丰富的插件机制&#xff0c;网上关于如何使用Webpack及Webpack原理分析的技术文档层出不穷。最近自己也是发现…

回归预测 | Matlab实现PCA-PLS主成分降维结合偏最小二乘回归预测

回归预测 | Matlab实现PCA-PLS主成分降维结合偏最小二乘回归预测 目录 回归预测 | Matlab实现PCA-PLS主成分降维结合偏最小二乘回归预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 Matlab实现PCA-PLS主成分降维结合偏小二乘回归预测&#xff08;完整源码和数据) 1.输…

【19】c++11新特性 —>线程异步

什么是异步&#xff1f; async的两种方式 //方式1 async( Function&& f, Args&&... args ); //方式2 async( std::launch policy, Function&& f, Args&&... args );函数参数&#xff1a; f:任务函数 Args:传递给f的参数 policy:可调用对象f的…

微信的通讯录联系人,有没有什么办法导出来做备份

6-10 这是可以做到的&#xff0c;并且很简单&#xff0c;对于需要把微信通讯录备份出来&#xff0c;或者离职交接的人来说&#xff0c;本文非常适合阅读&#xff0c;只是一个简单的方法&#xff0c;即可快速地把微信的通讯录搞出来&#xff0c;本质其实就是使用正确的工具就行…

C++指针访问数组 函数中用指针传参

用指针访问数组 在函数中用指针传参

2023 年最新腾讯官方 QQ 机器人(QQ 群机器人 / QQ 频道机器人)超详细开发教程

注册 QQ 开放平台账号 QQ 开放平台是腾讯应用综合开放类平台&#xff0c;包含 QQ 机器人、QQ 小程序、QQ 小游戏 等集成化管理&#xff0c;也就是说你注册了QQ 开放平台&#xff0c;你开发 QQ 机器人还是 QQ 小程序都是在这个平台进行部署上线和管理。 如何注册 QQ 开放平台账…

小程序day05

使用npm包 Vant Weapp 类似于前端boostrap和element ui那些的样式框架。 安装过程 注意:这里建议直接去看官网的安装过程。 vant-weapp版本最好也不要指定 在项目目录里面先输入npm init -y 初始化一个包管理配置文件: package.json 使用css变量定制vant主题样式&#xff0…

记误删Linux的python与yum

根据各路大神的方法整理一下自己解决的步骤 注意&#xff1a;不要手贱删python2&#xff01;想用python3就安装并用python3命令 重新安装python2 查看系统版本&#xff1a; cat /etc/redhat-release进入默认的安装地址&#xff1a;注意查看一下rpm文件是不是删干净了&#x…

Python---列表的循环遍历,嵌套

循环遍历就是使用while或for循环对列表中的每个数据进行打印输出 while循环&#xff1a; list1 [貂蝉, 大乔, 小乔]# 定义计数器 i 0 # 编写循环条件 while i < len(list1):print(list1[i])# 更新计数器i 1 for循环&#xff08;推荐&#xff09;&#xff1a; list1 [貂…

Spring Boot 3.0正式发布及新特性解读

目录 【1】Spring Boot 3.0正式发布及新特性依赖调整升级的关键变更支持 GraalVM 原生镜像 Spring Boot 最新支持版本Spring Boo 版本版本 3.1.5前置系统清单三方包升级 Ref 个人主页: 【⭐️个人主页】 需要您的【&#x1f496; 点赞关注】支持 &#x1f4af; 【1】Spring Boo…

2023.11.8 hadoop学习-概述,hdfs dfs的shell命令

目录 1.分布式和集群 2.Hadoop框架 3.版本更新 4.hadoop架构详解 5.页面访问端口 6.Hadoop-HDFS HDFS架构 HDFS副本 7.SHELL命令 8.启动hive服务 1.分布式和集群 分布式: 多台服务器协同配合完成同一个大任务(每个服务器都只完成大任务拆分出来的单独1个子任务)集 群:…

phpstudy本地快速搭建网站,实现无公网IP外网访问

文章目录 [toc]使用工具1. 本地搭建web网站1.1 下载phpstudy后解压并安装1.2 打开默认站点&#xff0c;测试1.3 下载静态演示站点1.4 打开站点根目录1.5 复制演示站点到站网根目录1.6 在浏览器中&#xff0c;查看演示效果。 2. 将本地web网站发布到公网2.1 安装cpolar内网穿透2…

使用ESP8266构建家庭自动化系统

随着物联网技术的不断发展&#xff0c;家庭自动化系统变得越来越受欢迎。ESP8266是一款非常适合于构建家庭自动化系统的WiFi模块。它小巧、低成本&#xff0c;能够实现与各种传感器和执行器的连接&#xff0c;为家庭带来智能化、便利化的体验。在本篇文章中&#xff0c;我们将向…

有关python库

官方库 #1、导入某模块 import os #2、导入OS模块中的system方法 from os import system #3、导入某模块中的孙子模块中的xx方法&#xff0c;并重命名 from module.xx.xx import xx as rename #4、导入OS中的所有模块 #不用进行OS.method(),直接method&#xff08;&#xff0…