01 Python进阶:正则表达式

re.match函数

使用 Python 中的 re 模块时,可以通过 re.match() 函数来尝试从字符串的开头匹配一个模式。以下是一个简单的详解和举例:

import re

# 定义一个正则表达式模式
pattern = r'^[a-z]+'  # 匹配开头的小写字母序列

# 要匹配的字符串
text = "hello world"

# 使用 re.match() 尝试匹配模式
match_obj = re.match(pattern, text)

if match_obj:
    print("匹配成功:", match_obj.group())
else:
    print("无匹配结果")

在这个示例中,我们使用了 re.match() 函数来尝试从字符串的开头匹配一个小写字母序列。让我们具体解释一下:

  • r'^[a-z]+':这是一个正则表达式模式,包含了以下几个部分:

    • ^ 表示匹配字符串的开头。
    • [a-z] 表示匹配任意一个小写字母。
    • + 表示匹配前面的模式一次或多次。
  • "hello world":这是我们要进行匹配的字符串。

  • re.match(pattern, text):使用 re.match() 函数尝试从字符串开头匹配指定的模式。

  • match_obj:re.match() 函数返回一个 Match 对象,如果匹配成功则包含匹配的结果,否则为 None。

  • match_obj.group():如果匹配成功,可以通过 match_obj.group() 方法获取匹配的内容。

在这个示例中,由于 “hello” 符合模式 r'^[a-z]+',因此匹配成功,输出 “匹配成功: hello”。

re.search方法

可以通过 re.search() 函数来搜索整个字符串,尝试找到与指定模式匹配的子串。以下是一个详细解释和示例:

import re

# 定义一个正则表达式模式
pattern = r'world'  # 要匹配的模式是 "world"

# 要搜索的字符串
text = "hello world"

# 使用 re.search() 方法在整个字符串中搜索模式
search_obj = re.search(pattern, text)

if search_obj:
    print("找到匹配:", search_obj.group())
else:
    print("未找到匹配")

在这个示例中,我们使用了 re.search() 函数来搜索整个字符串,尝试找到子串 “world”。以下是每个部分的详细解释:

  • r'world':这是一个简单的正则表达式模式,它表示要匹配的字符串是 “world”。

  • "hello world":这是我们要进行搜索的字符串。

  • re.search(pattern, text):使用 re.search() 函数在整个字符串中搜索指定的模式。

  • search_obj:re.search() 函数返回一个 Match 对象,如果找到了匹配的子串,Match 对象就会包含匹配的结果,否则为 None。

  • search_obj.group():如果找到了匹配的子串,可以通过调用 match_obj.group() 方法来获取匹配的内容。

在这个示例中,由于字符串 “world” 存在于 “hello world” 中,因此 re.search() 函数找到了匹配,输出 “找到匹配: world”。

re.search() 是一个非常有用的函数,可以帮助您在字符串中查找特定的模式。希望这个示例能够帮助您理解 re.search() 函数的使用方法。

re.match 与 re.search的区别

re.match() 和 re.search() 是 Python 中 re 模块中用于正则表达式匹配的两个函数,它们之间有以下区别:

  1. re.match():

    • re.match() 函数尝试从字符串的开头开始匹配模式。
    • 如果字符串开头不符合模式,则匹配失败,返回 None。
    • 如果字符串开始部分与模式匹配,返回一个 Match 对象,可以通过 group() 方法获取匹配的内容。
  2. re.search():

    • re.search() 函数在整个字符串中搜索并找到第一个符合模式的子串。
    • 不要求字符串从开头开始匹配,只要找到一个符合模式的子串就返回。
    • 返回第一个匹配到的结果,也是一个 Match 对象,可以通过 group() 方法获取匹配的内容。

举例来说,假设有字符串 “hello world”,并使用以下两个正则表达式模式进行匹配:

  • 模式为 r'world'

    • re.match() 将会匹配失败,因为 “hello” 不符合该模式,返回 None。
    • re.search() 将会匹配成功,在 “world” 中找到了符合的子串,返回 “world”。
  • 模式为 r'hello'

    • re.match() 将会匹配成功,因为 “hello” 符合该模式,返回 “hello”。
    • re.search() 将会匹配成功,在 “hello world” 中找到了符合的子串,返回 “hello”。

re.match() 适用于需要从字符串开头处进行匹配的场景,而 re.search() 则适用于需要在整个字符串中查找符合模式的子串的场景。根据具体的需求选择使用不同的函数能够更有效地实现匹配目的。

检索和替换

在Python中,您可以使用re模块来进行文本的检索和替换。下面是一个简单的例子来说明如何使用re模块进行检索和替换:

import re

# 要操作的字符串
text = "The cat and the hat sat on the mat."

# 定义要搜索的模式
pattern = r'cat'

# 使用re.sub()进行替换
new_text = re.sub(pattern, 'dog', text)

print(new_text)

在上面的示例中,我们使用了re.sub()函数来将文本中所有匹配模式r’cat’的部分替换为’dog’。执行上述代码后,输出结果为:“The dog and the hat sat on the mat.”。

另外,如果想要查找所有匹配的子串,并对其进行特定处理,也可以使用re.findall()和re.finditer()函数来实现。这两个函数可以用于找到所有匹配的子串,并返回它们的位置或者进行进一步的处理。

repl 参数是一个函数

是的,re 模块中的 re.sub() 函数允许使用一个函数作为 repl 参数,以便对每个匹配的子串进行更复杂的替换操作。下面是一个示例,演示了如何使用函数作为 repl 参数:

import re

# 要操作的字符串
text = "The cat and the hat sat on the mat."

# 定义替换函数
def repl_function(match_obj):
    word = match_obj.group()
    if word == 'cat':
        return 'dog'
    elif word == 'hat':
        return 'rug'
    else:
        return '***'

# 使用re.sub()并将函数作为repl参数
new_text = re.sub(r'\b(cat|hat)\b', repl_function, text)

print(new_text)

在这个示例中,我们定义了一个名为 repl_function 的函数,该函数接收一个 Match 对象作为输入,并根据匹配到的子串来决定如何进行替换。然后,我们使用 re.sub() 函数,将这个函数作为 repl 参数传递给它。执行上述代码后,输出结果为:“The dog and the rug sat on the mat.”。

函数作为 repl 参数的用法,可以让你对每个匹配到的子串进行更加灵活和复杂的处理,从而进行更加精细的替换操作。

compile 函数

在 Python 中,re 模块提供了 compile() 函数,用于将正则表达式编译为一个对象,以便在之后的匹配中复用。这种预编译的方式可以提高匹配效率,特别是在需要多次使用同一模式进行匹配时。下面是一个简单的示例来说明 compile() 函数的使用:

import re

# 将正则表达式编译为对象
pattern = re.compile(r'hello')

# 要匹配的字符串
text = "hello world"

# 使用编译后的对象进行匹配
match_obj = pattern.search(text)

if match_obj:
    print("找到匹配:", match_obj.group())
else:
    print("未找到匹配")

在上述示例中,我们首先使用 re.compile() 函数将正则表达式模式 r’hello’ 编译为一个模式对象 pattern,然后在之后的代码中可以重复使用这个 pattern 对象进行匹配操作。

使用 compile() 函数的优点包括提高匹配效率和可以提前检查正则表达式的有效性(如果有语法错误,会在编译阶段就抛出异常)。

re.compile() 函数允许您事先编译好正则表达式模式,并得到一个可重复使用的模式对象,为之后的匹配操作提供了便利和性能上的提升。

findall

在 Python 的 re 模块中,re.findall() 函数用于在给定的字符串中查找所有匹配指定模式的子串,并以列表的形式返回这些子串。下面是一个简单的示例来说明 re.findall() 函数的使用:

import re

# 要匹配的字符串
text = "The cat and the hat sat on the mat."

# 使用 re.findall() 查找所有匹配的子串
matches = re.findall(r'\b\w{3}\b', text)

print(matches)

使用了 re.findall() 函数来搜索字符串中所有匹配特定模式的子串。具体来说,我们使用的模式是 \b\w{3}\b,表示匹配长度为 3 的单词。

执行这段代码后,将输出结果作为一个列表:['The', 'cat', 'the', 'hat', 'sat', 'the', 'mat'],其中包含所有匹配到的长度为3的单词。

re.findall() 函数非常适合在不需要对每个匹配结果做更复杂处理的情况下,快速地获取所有匹配到的子串。当需要获取文本中所有符合特定模式的部分时,这个函数非常实用。

re.finditer

re.finditer() 函数与 re.findall() 类似,但它返回一个迭代器(iterator),该迭代器生成匹配的模式在字符串中的每一次出现。下面是一个简单的示例来说明 re.finditer() 函数的使用:

import re

# 要匹配的字符串
text = "The cat and the hat sat on the mat."

# 使用 re.finditer() 查找所有匹配的子串
matches = re.finditer(r'\b\w{3}\b', text)

for match in matches:
    print(match.group(), match.start(), match.end())

在这个示例中,我们使用了 re.finditer() 函数来搜索字符串中所有匹配特定模式的子串。具体来说,我们使用的模式是 \b\w{3}\b,表示匹配长度为 3 的单词。

使用 re.finditer() 返回的迭代器,我们可以迭代处理每次匹配到的结果,从中获取匹配子串的内容以及其在原始文本中的起始和结束位置。执行上述代码后, 将输出每个匹配子串的内容以及起始和结束索引位置。

因此,re.finditer() 是一个非常有用的函数,特别适用于需要对每个匹配结果做更复杂处理的情况,或者在需要获取匹配子串的位置信息时。

re.split

re.split() 函数用于根据指定的模式对字符串进行分割,并返回分割后的子串组成的列表。下面是一个简单的示例来说明 re.split() 函数的使用方式:

import re

# 要分割的字符串
text = "apple, banana, cherry, date"

# 使用 re.split() 进行分割
result = re.split(r',\s*', text)

print(result)

在这个示例中,我们使用了 re.split() 函数来根据逗号加空格的模式 ,\\s* 对字符串进行分割,其含义是以逗号加零或多个空格为分隔符。执行上述代码后,将输出结果作为一个列表:['apple', 'banana', 'cherry', 'date'],即根据指定的模式成功地将原始字符串分割成了多个子串。

re.split() 是在字符串操作中非常有用的函数,特别适用于需要根据复杂的模式对字符串进行分割的情况,如按照标点符号、空格或其他自定义的分割符号进行分割。

正则表达式对象

正则表达式对象
re.RegexObject
re.compile() 返回 RegexObject 对象。

re.MatchObject
group() 返回被 RE 匹配的字符串。

  • start() 返回匹配开始的位置
  • end() 返回匹配结束的位置
  • span() 返回一个元组包含匹配 (开始,结束) 的位置

在 Python 的 re 模块中,使用re.compile()函数可以将正则表达式模式编译为一个正则表达式对象。正则表达式对象具有与模式相关联的各种方法,可用于在文本中进行搜索、匹配和替换操作。以下是一些常用的正则表达式对象的方法:

  1. search(string[, pos[, endpos]]): 在字符串中搜索模式的第一个匹配项,返回一个匹配对象。
  2. match(string[, pos[, endpos]]): 在字符串开头匹配模式,如果匹配成功则返回一个匹配对象。
  3. findall(string[, pos[, endpos]]): 找到所有与模式匹配的子串,并以列表的形式返回这些子串。
  4. finditer(string[, pos[, endpos]]): 返回一个迭代器,用于生成字符串中与模式匹配的每一个匹配对象。
  5. split(string[, maxsplit]): 根据模式对字符串进行分割,返回分割后的子串组成的列表。
  6. sub(repl, string, count=0): 使用指定的替换字符串替换匹配到的模式,返回替换后的字符串。

正则表达式对象的创建通过re.compile()函数,其基本语法如下:

import re
pattern = re.compile(r'正则表达式模式')

接下来,您可以使用pattern对象调用上述列出的方法来进行搜索、匹配或替换操作。例如:

# 使用 compile() 函数将正则表达式模式编译为对象
pattern = re.compile(r'\b\w{4}\b')

# 使用 findall() 方法找到所有匹配的子串
matches = pattern.findall("The cat and the hat sat on the mat.")
print(matches)

这将会输出:['cat', 'hat', 'sat'],即从字符串中找到了所有长度为 4 的单词。

正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。

以下标志可以单独使用,也可以通过按位或(|)组合使用。例如,re.IGNORECASE | re.MULTILINE 表示同时启用忽略大小写和多行模式。
在这里插入图片描述
在这里插入图片描述

正则表达式模式

正则表达式模式是由普通字符(例如字符 a 到 z)和特殊字符(称为元字符)组合而成的字符串,用于描述在文本中搜索、匹配或替换特定模式的规则。下面列举了一些常用的正则表达式元字符及其含义:

  1. .:匹配任意单个字符,除了换行符。
  2. ^:匹配字符串的开头。
  3. $:匹配字符串的结尾。
  4. *:匹配前面的元素零次或多次。
  5. +:匹配前面的元素一次或多次。
  6. ?:匹配前面的元素零次或一次。
  7. \d:匹配任意数字,相当于 [0-9]。
  8. \w:匹配字母、数字、下划线,相当于 [a-zA-Z0-9_]。
  9. [...]:匹配方括号中的任意一个字符。
  10. (x|y):匹配 x 或 y。
  11. \s:匹配任意空白字符,包括空格、制表符、换行符等。

除了上述元字符外,正则表达式还支持通过括号来表示分组,使用 {} 来指定重复次数,使用 \ 来转义特殊字符等。

例如,正则表达式模式 \b\w{3}\b 可以用于匹配长度为 3 的单词,其中:

  • \b 表示单词的边界。
  • \w 匹配任意字母、数字或下划线。
  • {3} 表示重复前面的元素三次。
  • 因此,整个模式就是匹配长度为 3 的单词。

正则表达式模式在对文本进行搜索、匹配或替换时非常强大,可以满足各种复杂的匹配需求。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

正则表达式实例

在这里插入图片描述
在这里插入图片描述

关注我,不迷路,共学习,同进步

关注我,不迷路,共学习,同进步

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/511936.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

程序的编译、链接过程分析(简洁浓缩版)!

《嵌入式工程师自我修养/C语言》系列——程序的编译、链接过程分析(简洁浓缩版)! 一、程序的编译1.1 预编译指令 pragma1.2 编译过程概述1.3 符号表和重定位表 二、程序的链接2.1 分段组装2.2 符号决议2.2.1 强符号与弱符号2.2.2 GNU编译器的…

了解与生成火焰图

目录 一、如何看懂火焰图 1、基本特征 2、基本分类 二、如何生成火焰图 1、捕获调用栈 2、折叠栈 3、转换为 svg 格式 4、展示 svg 一、如何看懂火焰图 1、基本特征 (1)纵轴:即每一列代表一个调用栈,每一个格子代表一个函…

智能仓储变革在即,从业者该何去何从?

导语 大家好,我是智能仓储物流技术研习社的社长,你的老朋友,老K。行业群 新书《智能物流系统构成与技术实践》 随着2024年的到来,物流和仓储行业正处于一个技术革命的关键时刻。人工智能(AI)的融入不仅预示…

【二叉树】Leetcode 437. 路径总和 III【中等】

路径总和 III 给定一个二叉树的根节点 root ,和一个整数 targetSum ,求该二叉树里节点值之和等于 targetSum 的 路径 的数目。 路径 不需要从根节点开始,也不需要在叶子节点结束,但是路径方向必须是向下的(只能从父节…

Zabbix6 - Centos7部署Grafana可视化图形监控系统配置手册手册

Zabbix6 - Centos7部署Grafana可视化图形监控系统配置手册手册 概述: Grafana是一个开源的数据可视化和监控平台。其特点: 1)丰富的可视化显示插件,包括热图、折线图、饼图,表格等; 2)支持多数据…

[源码] Android 上的一些快捷方式,如通知、快捷方式等

目录 一、通知0. 配置权限1. 测试发送通知代码2. 打开通知设置界面代码3. 前台服务创建常驻通知 二、快捷方式1. 测试添加动态快捷方式代码 三、开发者图块四、桌面小部件 基于jetpack compose 框架的使用代码 一、通知 参见 官方文档 0. 配置权限 <uses-permission andr…

REST API的指纹验证机制

前端或者客户端涉及数据相关的请求都是不安全的&#xff0c;从某种意义上只能通过一些手段降低请求不被容易使用。本来来介绍一种基于 JWT 的指纹机制。 关于 JWT 令牌机制就不详细介绍了。在 JWT 令牌中包含系统 JWT 指纹可以带来安全改进&#xff0c;而不会给用户带来任何不…

RocketMQ 消费者源码解读:消费过程、负载原理、顺序消费原理

B站学习地址 上一遍学习了三种常见队列的消费原理&#xff0c;本次我们来从源码的角度来证明上篇中的理论。 1、准备 RocketMQ 版本 <!-- RocketMQ --> <dependency><groupId>org.apache.rocketmq</groupId><artifactId>rocketmq-spring-boot-s…

yolov5关键点检测-实现溺水检测与警报提示(代码+原理)

基于YOLOv5的关键点检测应用于溺水检测与警报提示是一种结合深度学习与计算机视觉技术的安全监控解决方案。该项目通常会利用YOLOv5强大的实时目标检测能力&#xff0c;并通过扩展或修改网络结构以支持人体关键点检测&#xff0c;来识别游泳池或其他水域中人们的行为姿态。 项…

常关型p-GaN栅AlGaN/GaN HEMT作为片上电容器的建模与分析

来源&#xff1a;Modeling and Analysis of Normally-OFF p-GaN Gate AlGaN/GaN HEMT as an ON-Chip Capacitor&#xff08;TED 20年&#xff09; 摘要 提出了一种精确基于物理的解析模型&#xff0c;用于描述p-GaN栅AlGaN/GaN高电子迁移率晶体管&#xff08;HEMT&#xff09…

【Linux】Vim编辑器

专栏文章索引&#xff1a;Linux 目录 在Vim编辑器中&#xff0c;一个Tab键相当于几个空格&#xff1f; 在Vim编辑器中&#xff0c;一个Tab键相当于几个空格&#xff1f; 在Vim编辑器中&#xff0c;默认情况下&#xff0c;一个Tab键相当于8个空格。 这是Vim的默认设置&#x…

【C++】哈希之位图

目录 一、位图概念二、海量数据面试题 一、位图概念 假如有40亿个无重复且没有排序的无符号整数&#xff0c;给一个无符号整数&#xff0c;如何判断这个整数是否在这40亿个数中&#xff1f; 我们用以前的思路有这些&#xff1a; 把这40亿个数遍历一遍&#xff0c;直到找到为…

鸿蒙OS元服务开发:【(Stage模型)设置悬浮窗】

一、设置悬浮窗说明 悬浮窗可以在已有的任务基础上&#xff0c;创建一个始终在前台显示的窗口。即使创建悬浮窗的任务退至后台&#xff0c;悬浮窗仍然可以在前台显示。通常悬浮窗位于所有应用窗口之上&#xff1b;开发者可以创建悬浮窗&#xff0c;并对悬浮窗进行属性设置等操…

frp内网穿透之(反向代理nginx)

通过公网 https 连接访问内网&#xff08;局域网&#xff09;本地http服务如下&#xff1a; 1.准备工作 ​ 想要实现内网穿透功能首先我们需要准备&#xff1a; 一台公网服务器&#xff08;用作frps的服务端&#xff09;一台需要做转发的内网服务器&#xff08;用作frpc的客…

D-迷恋网游(遇到过的题,做个笔记)

我的代码&#xff1a; #include <iostream> using namespace std; int main() {int a, b, c; //a表示内向&#xff0c;b表示外向&#xff0c;c表示无所谓cin >> a >> b >> c; //读入数 if (b % 3 0 || 3-b % 3 < c) //如果外向的人能够3人组成…

Golang Channel底层实现原理

1、本文讨论Channel的底层实现原理 首先&#xff0c;我们看Channel的结构体 简要介绍管道结构体中&#xff0c;几个关键字段 在Golang中&#xff0c;管道是分为有缓冲区的管道和无缓冲区的管道。 这里简单提一下&#xff0c;缓冲区大小为1的管道和无缓冲区的管道的区别&…

Android14之BpBinder构造函数Handle拆解(二百零四)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

详解人工智能(概念、发展、机遇与挑战)

前言 人工智能&#xff08;Artificial Intelligence&#xff0c;简称AI&#xff09;是一门新兴的技术科学&#xff0c;是指通过模拟、延伸和扩展人类智能的理论、方法、技术和应用系统&#xff0c;以实现对人类认知、决策、规划、学习、交流、创造等智能行为的模拟、延伸和扩展…

Linux 线程互斥、互斥量、可重入与线程安全

目录 一、线程互斥 1、回顾相关概念 2、抢票场景分析代码 多个线程同时操作全局变量 产生原因 如何解决 二、互斥量 1、概念 2、初始化互斥量&#xff1a; 方法1&#xff1a;静态分配 方法2&#xff1a;动态分配 3、销毁互斥量&#xff1a; 4、加锁和解锁 示例抢…

MySQL 8.0.13安装配置教程

写个博客记录一下&#xff0c;省得下次换设备换系统还要到处翻教程&#xff0c;直接匹配自己常用的8.0.13版本 1.MySQL包解压到某个路径 2.将bin的路径加到系统环境变量Path下 3.在安装根目录下新建my.ini配置文件&#xff0c;并用编辑器写入如下数据 [mysqld] [client] port…