Python学习之-正则表达式

目录

    • 前言:
    • 1.re.serach
      • 1.1例子:
    • 2.re.match
      • 2.1示例1:
      • 2.2 示例2:
    • 3.re.findall
      • 3.1 示例
    • 4.re.fullmatch
      • 4.1 示例1:
      • 4.2 示例2:
    • 5.re.split
      • 5.1 示例1:
      • 5.2 示例2:
      • 5.3 示例3:
    • 6.re.sub
      • 6.1 示例:
    • 7.re.compile
      • 7.1 示例:
    • 8 总结

前言:

在python中使用的是re模块对正则表达式提供支持,下面我来讲解一些日常中比较常用的几种正则表达式的方法,希望对各位日常的工作中有帮助。

常见的正则表达式的操作:
\d
匹配任何十进制数字,相当于[0-9]。

示例:\d+ 匹配一个或多个连续的数字。

\D
匹配任何非数字字符,相当于[^0-9]。

\w
匹配任何字母数字字符,包括下划线,相当于[A-Za-z0-9_]。

示例:\w+ 匹配一个或多个字母数字字符或下划线。

\W
匹配任何非字母数字字符,不包括下划线,相当于[^A-Za-z0-9_]。

\s
匹配任何空白字符,包括空格、制表符、换页符等,相当于[ \t\n\r\f\v]。

\S
匹配任何非空白字符,相当于[^ \t\n\r\f\v]。

. (点)
匹配除换行符以外的任何单个字符。

[…]
匹配方括号内的任何单个字符。例如,[abc] 会匹配"a"、“b"或"c”。

[^…]
匹配不在方括号内的任何单个字符。例如,[^abc] 会匹配任何不是"a"、"b"或"c"的字符。

| (竖线)
A|B可以匹配A或B,所以(P|p)ython可以匹配"Python"或"python"。

^
匹配字符串的开始。在多行模式中,它还可以匹配每一行的开头。

$
匹配字符串的结尾。在多行模式中,它还可以匹配每一行的结尾。
*

匹配前面的子表达式零次或多次。例如,bo* 可以匹配 “b”、“bo” 或 “booo”。
+
匹配前面的子表达式一次或多次。例如,bo+ 可以匹配 “bo” 或 “booo”,但不会匹配 “b”。

?
匹配前面的子表达式零次或一次。例如,bo? 可以匹配 “b” 或 “bo”。

{n}
精确匹配 n 次前面的子表达式。例如,o{2} 不能匹配 “Bob” 中的 “o”,但能匹配 “food” 中的两个 o。

{n,}
匹配前面的子表达式至少 n 次。

{n,m}
匹配前面的子表达式至少 n 次,但不超过 m 次。
有需要详细了解的可以看re的官方文档:
re正则表达式操作

1.re.serach

该方法会根据传入的正则去扫描整个字符串,若能找到对应的子字符串,则返回该Match对象,否则返回None。这里返回的Match对象保存的是从左到右匹配到的第一个子字符串的信息。

re.search(pattern, string, flags=0)

1.1例子:

import re
result = re.search(r'\d+', 'abc123def')
if result:
    print(result.group())  # 输出: 123

在这里插入图片描述
注意:下图显示 re.serach 这里他只会匹配从左到右第一个连续的数字,第二个不会匹配到
在这里插入图片描述

2.re.match

这个方法从字符串的开始处进行匹配,如果匹配成功,返回一个匹配对象;失败则返回None。

re.match(pattern, string, flags=0)

pattern 表示传进来的正则表达式
string 表示被匹配的字符串
flags 正则表达式匹配的模式

2.1示例1:

import re
result = re.match(r'\d+', '123abc')
if result:
    print(result.group())  # 输出: 123

在这里插入图片描述

2.2 示例2:

import re
result = re.match(r'\d+', 'abc123')
print(result)
if result:
    print(result.group())  # 输出: None

在这里插入图片描述

Match对象是一个包含关于搜索和结果的信息的特殊类型的对象。为了获取实际匹配的字符串,你需要调用Match对象的.group()方法。.group()方法返回模式匹配的子串。
Match对象的.group()方法可以接受一个或多个参数(称为group numbers)。如果没有提供参数,.group()方法默认返回第0组,即整个匹配的字符串。

示例:

import re

pattern = r"(\d+).(\d+)"
match = re.match(pattern, "123.456")

if match:
    # 获取整个匹配的字符串
    print(match.group())  # 输出: "123.456"

    # 获取第一个括号内匹配的分组(组1)
    print(match.group(1))  # 输出: "123"

    # 获取第二个括号内匹配的分组(组2)
    print(match.group(2))  # 输出: "456"

在这里插入图片描述
在上面的例子中,我们使用了两组括号来创建两个分组:
(\d+) 第一个分组匹配一个或多个数字。
(\d+) 第二个分组再次匹配一个或多个数字。
当我们调用.group()方法时:
.group() 或 .group(0) 返回整个匹配的字符串,即"123.456"。
.group(1) 返回第一个分组匹配的字符串,即"123"。
.group(2) 返回第二个分组匹配的字符串,即"456"。

3.re.findall

找到字符串中所有非重叠匹配的列表。意思就是
pattern 没有捕获组的话,该方法会返回所有匹配结果的list
pattern 包含一个或多个捕获组的话,list保存的结果是这些捕获组的匹配结果,且list里面的各项都是一个tuples

re.findall(pattern, string, flags=0)

3.1 示例

import re
result=re.findall(r"[a-z]+\d+","abc11kk22k34")
print(result) 
# 匹配一个或多个小写字母 [a-z]+ 后面跟一个或多个数字 \d+。
# 输出: ['abc11', 'kk22', 'k34'] 因为它匹配了连续的字母和数字的组合。
result=re.findall(r"[a-z]+(\d+)","abc11kk22k34")
print(result)
#这个模式类似于第一个,但是这次数字部分被括号 (\d+) 包围,这意味着使用括号的分组功能。
# 在 findall 方法中,当模式包含分组时,只有分组内的内容会被返回。
# 输出: ['11', '22', '34'] 这是因为只有分组中的数字被返回。

result=re.findall(r"([a-z]+)(\d+)","abc11kk22k34")
print(result)
# 这个模式有两个分组 ([a-z]+) 和 (\d+),分别匹配一系列字母和数字。
# 由于有两个分组,findall 会返回包含每个分组匹配的元组列表。
# 输出: [('abc', '11'), ('kk', '22'), ('k', '34')] 每对括号内的匹配分别作为元组的元素。

result=re.findall(r"([a-z]+)(\d+)()()()","abc11kk22k34")
print(result)
# 这个模式现在包含两个有效的分组 ([a-z]+) 和 (\d+),以及三个空的分组 ()()()。
# 空的分组不会捕获任何内容,但它们仍然作为结果的一部分出现。
# 输出: [('abc', '11', '', '', ''), ('kk', '22', '', '', ''), ('k', '34', '', '', '')] 
# 每个匹配现在都返回一个包含两个有效匹配和三个空字符串的元组。

在这里插入图片描述

4.re.fullmatch

该方法需要整个字符串跟正则完全匹配才会返回一个Match对象,否则返回None

4.1 示例1:

这里需要完全匹配字符串是数字

import re
result=re.fullmatch(r"\d+","123abc")
print(result)

在这里插入图片描述

4.2 示例2:

import re
result=re.fullmatch(r"\d+", "123")
print(result)
print(result.group())

在这里插入图片描述

5.re.split

re.split(pattern, string, maxsplit=0, flags=0

pattern: 这是用于分割字符串的正则表达式模式。字符串会在匹配这个模式的所有地方被分割。
string: 这是需要被分割的输入字符串。
maxsplit (可选): 这个参数指定了分割的最大次数。默认值为0,表示不限制分割次数,即分割可以在每次匹配到模式时发生。如果maxsplit被设置为一个正整数n,那么分割会在前n次匹配到模式之后停止,剩余的字符串会作为列表的最后一个元素返回。
flags (可选): 这个参数允许你指定正则表达式的一些额外选项,如忽略大小写(re.IGNORECASE)、多行模式(re.MULTILINE)等。默认值为0,表示没有特殊标志。
如果pattern没有捕获组的话,则按照正则分割后,返回一个list结果集;如果pattern里面包含捕获组的话,list结果集里面包含捕获组获取到的内容

5.1 示例1:

import re
result = re.split(r'\d+', 'abc123def456ghi')
print(result)  # 输出: ['abc', 'def', 'ghi']

在这里插入图片描述

5.2 示例2:

不带 maxsplit:

import re

result = re.split(r'\d+', 'one1two2three3four4')
print(result)

输出:
在这里插入图片描述

5.3 示例3:

带有 maxsplit:
import re

result = re.split(r’\d+', ‘one1two2three3four4’, maxsplit=2)
print(result)
输出:
在这里插入图片描述
在这个例子中,由于maxsplit被设置为2,所以分割只在前两次匹配到数字时发生,剩余的字符串(‘three3four4’)作为列表的最后一个元素返回。

6.re.sub

re.sub(pattern, repl, string, count=0, flags=0)

pattern: 一个字符串或者一个预编译的正则表达式对象(通过 re.compile 创建)。这是你想要在原始字符串中查找的正则表达式模式。
repl: 替换匹配项的字符串或者一个函数。如果是一个字符串,任何正则表达式中的分组引用(如 \1, \2 等)都会被匹配项中对应的分组替换。如果是一个函数,它应该接受一个匹配对象作为参数,并返回一个用来替换的字符串。
string: 要进行搜索和替换操作的原始字符串。
count (可选): 一个表示替换次数的整数,默认为0,表示替换所有匹配项。如果指定了这个参数,则最多替换 count 次匹配。
flags (可选): 正则表达式标志,例如 re.IGNORECASE、re.MULTILINE 等。这些标志用于修改正则表达式的行为。默认为0,表示没有标志被设置。
这个方法的作用是字符串替换,其中,rep1可以是字符串,也可以是一个方法。

6.1 示例:

import re

# 替换所有数字为 #
result = re.sub(r'\d+', '#', "12 apples, 34 oranges, 56 bananas")
print(result)  # 输出: "# apples, # oranges, # bananas"

# 使用函数来替换匹配项
def to_upper(match):
    return match.group().upper()

result = re.sub(r'[a-z]+', to_upper, "hello world")
print(result)  # 输出: "HELLO WORLD"

# 替换前两个匹配项
result = re.sub(r'\d+', '#', "12 apples, 34 oranges, 56 bananas", count=2)
print(result)  # 输出: "# apples, # oranges, 56 bananas"

# 使用标志忽略大小写
result = re.sub(r'[a-z]+', 'X', "Hello World", flags=re.IGNORECASE)
print(result)  # 输出: "X X"

输出结果:
在这里插入图片描述

7.re.compile

编译正则,返回一个Pattern对象。 这样做的目的是可以重复使用该正则模式对象

pattern: 正则表达式字符串,即你希望编译的模式。
flags (可选): 正则表达式标志,可以改变正则表达式的行为。常见的标志包括:
re.IGNORECASE 或 re.I: 使匹配对大小写不敏感。
re.MULTILINE 或 re.M: 影响 ^ 和 $ 的行为。^ 匹配每一行的开始,$ 匹配每一行的结束,而不仅是整个字符串的开始和结束。
re.DOTALL 或 re.S: 使.(点)特殊字符匹配任何字符,包括换行符。
re.UNICODE 或 re.U: 根据Unicode字符属性数据库使 \w, \W, \b, \B, \d, \D, \s 和 \S 起作用。
re.ASCII 或 re.A: 使 \w, \W, \b, \B, \d, \D, \s 和 \S 只匹配ASCII字符。
re.LOCALE 或 re.L: 使 \w, \W, \b, \B, \s 和 \S 受当前区域设置的影响(不推荐使用,因为re.UNICODE通常是更好的选择)。
re.VERBOSE 或 re.X: 允许你通过忽略空白和添加注释来编写更易读的正则表达式。

7.1 示例:

import re

# 编译一个正则表达式对象
pattern = re.compile(r'\d+', flags=re.IGNORECASE)

# 使用编译后的对象进行匹配操作
match = pattern.match("123abc")

if match:
    print(match.group())  # 输出: 123

# 使用编译后的对象进行搜索操作
search = pattern.search("abc123def")

if search:
    print(search.group())  # 输出: 123

# 使用编译后的对象进行查找所有匹配项的操作
findall = pattern.findall("123abc456def")

print(findall)  # 输出: ['123', '456']

输出
在这里插入图片描述

8 总结

re.search, re.match, 和 re.findall 是Python中用于正则表达式匹配的三个不同的函数,它们有着不同的用途和行为。下面是每个函数的作用、相似之处和不同之处:
re.search(pattern, string, flags=0)
作用: 在字符串中查找第一个匹配正则表达式pattern的位置。
返回: 如果找到匹配,返回一个Match对象;如果没有找到匹配,则返回None。
行为: re.search会扫描整个字符串,直到找到一个匹配项。
re.match(pattern, string, flags=0)
作用: 从字符串的开始处检查是否有匹配正则表达式pattern的内容。
返回: 如果字符串开始的字符匹配正则表达式,返回一个Match对象;如果不匹配或匹配不是在字符串的开始处,返回None。
行为: re.match仅在字符串的开始处进行匹配检查。
re.findall(pattern, string, flags=0)
作用: 查找字符串中所有匹配正则表达式pattern的非重叠匹配项。
返回: 返回一个列表,包含所有匹配项的字符串。如果正则表达式中包含了一个或多个捕获组,将返回一个元组列表。
行为: re.findall会扫描整个字符串,并返回所有匹配的完整列表。
相同点
它们都是re模块提供的函数,用于执行正则表达式匹配。
它们都可以接受flags参数,该参数可以改变正则表达式的行为(如忽略大小写等)。
它们都从左到右扫描字符串进行匹配。
不同点
re.match只在字符串的起始处检查匹配,而re.search在整个字符串中搜索第一个匹配项。
re.findall返回的是一个列表,包含所有的匹配项,而re.match和re.search返回的是Match对象。
如果正则表达式包含捕获组,re.match和re.search返回的Match对象可以通过.group()方法访问各个捕获组,而re.findall将直接返回一个包含捕获组内容的元组列表。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/495037.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年阿里云服务器价格30元、61元、99元、165元、199元报价

2024年阿里云服务器优惠价格表,一张表整理阿里云服务器最新报价,阿里云服务器网aliyunfuwuqi.com整理云服务器ECS和轻量应用服务器详细CPU内存、公网带宽和系统盘详细配置报价单,大家也可以直接移步到阿里云CLUB中心查看 aliyun.club 当前最新…

【详细讲解React 快速入门教程】

🔥博主:程序员不想YY啊🔥 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家💫 🤗点赞🎈收藏⭐再看💫养成习惯 🌈希望本文对您有所裨益,如有…

虚机无法进入系统一直轮转在内核启动页面处理

【问题现象】 在日常处理虚机过程中会出现,虚机无法进入系统,一直轮转在内核启动页面的情况 【处理办法】 【步骤一】登录原先内核系统,设置默认新内核启动 【步骤二】进入系统后设置 # grubby --set-default /boot/vmlinuz-3.10.0-957.ax…

Healix Protocol 的 HLX 通证预售:医疗领域的未来展望

Healix Protocol推出 HLX 通证预售,将带来医疗领域的重要变革。通过其区块链技术,Healix Protocol致力于重新定义医疗服务的可及性与负担性,成为医疗行业的希望之光。该项目旨在增强透明度、可及性和效率,推动医疗体系向更加公平和…

[计算机效率] 文件预览工具:QuickLook

3.9 文件预览工具:QuickLook Quicklook是一款强大的文件预览工具,可以帮助用户快速浏览文件夹中的文件内容,而无需打开每个文件。 功能特点: 快速预览:Quicklook能够快速预览文件夹中的文件内容,包括文本…

把本地文件上传到HDFS上操作步骤

因为条件有限,我这里以虚拟机centos为例 实验条件:我在虚拟机上创建了三台节点,部署了hadoop,把笔记本上的数据上传到hdfs中 数据打包上传到虚拟机节点上 采用的是rz命令,可以帮我们上传数据 没有的话可以使用命令安装…

虹科Pico汽车示波器 | 免拆诊断案例 | 2018款东风风神AX7车发动机怠速抖动、加速无力

一、故障现象 一辆2018款东风风神AX7车,搭载10UF01发动机,累计行驶里程约为5.3万km。该车因发动机怠速抖动、加速无力及发动机故障灯异常点亮而进厂维修,维修人员用故障检测仪检测,提示气缸3失火;与其他气缸对调点火线…

Questasim 跑自动化脚本使用教程

自动化脚本使用 1.日常工程的自动化脚本程序,一共需要两个文件.do和.文件bat sim.do文件如下 #删除work工作目录 file delete -force work#设置uvm环境变量,指定uvm的dpi位置 set UVM_HOME C:/questasim64/verilog_src/uvm-1.1d set UVM_DPI_HOME …

Python实现一个简单的银行管理系统GUI应用

介绍 在本教程中,我们将创建一个基本的银行管理系统GUI应用,用户可以通过图形界面执行各种银行操作。我们将使用Python编程语言和Tkinter库来实现此应用。 使用说明 需要安装Python解释器,以及PythonCharm 👉 点我去下载 效果图…

ssm网上订餐管理系统开发mysql数据库web结构java编程计算机网页源码eclipse项目采用线性算法

一、源码特点 ssm 网上订餐管理系统是一套完善的信息系统,结合springMVC框架完成本系统,对理解JSP java编程开发语言有帮助系统采用SSM框架(MVC模式开发),系统具有完整的源代码和数据库,系统主要采用B/S模…

前端学习--品优购项目

文章目录 前端学习--品优购项目1.案例铺垫文件建立与命名必备文件网站favicon图标网站TDK三大标签SEO优化常用命名 2.LOGO SEO优化3.实际代码 前端学习–品优购项目 1.案例铺垫 文件建立与命名 一个项目中为了方便实用和查找内容会有多个文件夹,比如images文件夹中…

java数据结构与算法刷题-----LeetCode540. 有序数组中的单一元素

java数据结构与算法刷题目录(剑指Offer、LeetCode、ACM)-----主目录-----持续更新(进不去说明我没写完):https://blog.csdn.net/grd_java/article/details/123063846 文章目录 1. 异或运算2. 全数组二分查找异或奇偶3. 偶数下标二分查找 1. 异…

算法之美:二叉树演进之多叉树及B-Tree树原理

在上篇文章我们了解了平衡二叉树的优势,了解到平衡二叉树能够对不平衡的节点施加旋转,使得树达趋于平衡,以提升查询效率,操作效率很高,与之同时也存在着不少的问题,例如我们在实际使用中会通常会将树加载到…

RiPro主题-子主题huzao-child美化包v4.0带更新,附下载插件

压缩包里包含子主题下载插件演示数据 V4.0更新内容如下 1、左下角会员推广广告悬浮集成到后台 2、底部悬浮登录增加是否登录判断 3、在线申请友链页面美化 4、手机端底部版权信息被遮挡优化 5、部分bug修复及细节优化 源码下载 RiPro主题-子主题huzao-child美化包v4.0带…

Matlab|基于隐式Zbus高斯法的三相不平衡潮流计算【可设定变压器数量和位置】【Yy、Yd两种绕组方式】

目录 主要内容 部分代码 结果一览 主要内容 该模型基于隐式高斯法实现对配电网的三相不平衡潮流计算,通过选项可实现【不含变压器】和【含变压器】两种方式下的潮流计算,并且通过参数设置可实现多个变压器接入,该程序可计算【IE…

SSH连接SFTP传输:如何使用libssh库在Linux环境下进行(文件、文件夹)传输到远端服务器

建立SSH会话并连接远端服务器SSH身份验证密码验证密钥验证生成密钥查看密钥拷贝密钥验证密钥是否正确 SFTP子系统构建传输普通文件递归传输文件夹完整传输小demo 建立SSH会话并连接远端服务器 target_host:远端主机IPtarget_username:远端主机用户名 s…

Echarts之x轴,Y轴配置项大全

ECharts是一个强大的数据可视化库,提供了丰富的配置项来定制图表的x轴和y轴。下面是ECharts中x轴和y轴的配置项大全: xAxis配置项: type:轴类型,可选值有:“value”(数值轴), “cat…

生产调度问题分类——机器视角

获取更多资讯,赶快关注上面的公众号吧! 文章目录 单机调度并行机调度流水车间调度作业车间调度柔性作业车间开放车间总结 生产调度问题是实际工作中广泛存在的运筹学问题,可以描述为“给定若干加工任务,根据已有的生产条件&#…

ubuntu之搭建samba文件服务器

1. 在服务器端安装samba程序 sudo apt-get install samba sudo apt-get install smbclient 2.配置samba服务 sudo gedit /etc/samba/smb.conf 在文件末尾追加入以下配置 [develop_share] valid users ancy path /home/ancy public yes writable y…

Tuxera for Mac2024免费读写硬盘U盘工具

作为软件产品专家,我对各类软件都有较为深入的了解,下面介绍Tuxera for Mac这款读写硬盘/U盘工具的相关信息: Tuxera for Mac是一款高效稳定的NTFS读写工具,专为解决Mac系统无法直接读写NTFS格式驱动器的问题而设计。它提供了完整…