【Python进阶必备】一文掌握re库:实战正则表达式

目录

re库初识

re库基础使用方法

compile()函数

基本用法

正则表达式常用规则字符

match与search方法

match

search

match/search

findall与finditer方法

使用findall()返回所有匹配项

使用findall()提取多个组的匹配

使用finditer()逐个返回Match对象

使用finditer()并处理复杂匹配结构

进阶用法

分组与反向引用

替换文本中的部分内容

提取并重组子组

在搜索结果中使用子组

贪婪与懒惰匹配

预定义字符集与特殊字符

结语与讨论


亲爱的读者,你是否在编程过程中遇到过字符串处理难题?是否对繁琐复杂的文本匹配操作感到困扰?今天,我们就一起深入探索Python世界中的强大工具——re模块,它是Python标准库中用于处理正则表达式的利器,帮你轻松驾驭各类字符串处理任务。

re库初识

Python的re模块提供了完整的正则表达式功能。正则表达式(Regular Expression)是一种强大的文本模式匹配工具,它能高效地进行查找、替换、分割等复杂字符串操作。

在Python中,通过 import re 即可引入这一神器。 


re库基础使用方法

compile()函数

首先,我们需要使用re.compile()函数将正则表达式编译为Pattern对象

基本用法

import re

# 匹配一个或多个连续的数字字符
pattern = re.compile(r'\d+') 

# 匹配email电邮地址
email_pattern = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', re.IGNORECASE)

# 匹配任意字母数字组成的用户名(至少1个字符)
username_pattern = re.compile(r'\w+')

# 匹配任意URL链接
url_pattern = re.compile(r'http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+')

# 匹配电话号码(格式如:123-456-7890 或 (123) 456-7890)
phone_pattern = re.compile(r'(\d{3}[-\.\s]??\d{3}[-\.\s]??\d{4}|\(\d{3}\)\s*\d{3}[-\.\s]??\d{4})')

# 匹配IPv4地址
ipv4_pattern = re.compile(r'(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)')

# 匹配信用卡号(一般为16位数字,可能包含空格分隔符)
credit_card_pattern = re.compile(r'\d{4}[- ]?\d{4}[- ]?\d{4}[- ]?\d{4}')

# 匹配日期格式(YYYY-MM-DD)
date_pattern = re.compile(r'\d{4}-\d{2}-\d{2}')

# 匹配颜色代码(如 #FF0000)
color_code_pattern = re.compile(r'^#([A-Fa-f0-9]{6}|[A-Fa-f0-9]{3})$')

# 匹配整数和小数(包括负数、正数和零)
number_pattern = re.compile(r'-?\d+(\.\d+)?')

正则表达式常用规则字符

  • \d:在大多数正则表达式语法中(包括Python中的 re 模块),\d 相当于 [0-9],即它会匹配任意一个十进制数字字符,相当于阿拉伯数字从0到9。
  • +:这是一个量词,表示前面的元素(这里是\d)至少出现一次或多次。因此,\d+ 作为一个整体,它会匹配一个或连续的一个以上数字字符,例如 "123"、"456789" 等等。

  • \w:匹配字母(大写或小写)、数字和下划线(等价于 [a-zA-Z0-9_])。

  • \s:匹配任何空白字符,包括空格、制表符、换行符等。
  • . (句点):匹配除换行符之外的任何单个字符。
  • ^:在字符串起始位置时匹配,或者在字符类 [] 中表示反向选择(如 [^abc] 匹配非 a、b、c 的字符)。
  • $:在字符串结束位置时匹配。
  • *:零次或多次匹配前面的元素。
  • ?:零次或一次匹配前面的元素。
  • {m,n}:前面的元素至少出现 m 次,至多出现 n 次。
  • |:表示“或”操作,用于匹配多个选项之一。
  • ():用于分组和捕获子匹配项。

re.compile(pattern, flags=0) 的作用是:

  1. 预编译:将正则表达式转换为编译过的模式对象,提高后续匹配操作的速度。
  2. 复用:创建一次编译好的模式后,可以在程序的不同地方重复使用该模式进行匹配、查找、替换等操作。
  3. 支持标志:可以传递标志参数来改变正则表达式的默认行为,如忽略大小写、多行模式等。

match与search方法

pattern.match()方法只检测字符串开始位置是否满足匹配条件;而pattern.search()方法会搜索整个字符串以找到第一个匹配项。

match

import re

text = "2023-01-01 This is a date at the start of the string."

# 使用match()方法,只从字符串开始位置匹配日期格式
pattern = re.compile(r'\d{4}-\d{2}-\d{2}')
match_result = pattern.match(text)

if match_result:
    print(f"Match found: {match_result.group(0)}")
else:
    print("No match at the beginning of the string.")

# 输出:
# Match found: 2023-01-01
import re

text = "The date today is 2023-01-01, let's remember it."

# 使用search()方法在整个字符串中搜索日期格式
pattern = re.compile(r'\d{4}-\d{2}-\d{2}')
search_result = pattern.search(text)

if search_result:
    print(f"Search found: {search_result.group(0)}")
else:
    print("No match found in the string.")

# 输出:
# Search found: 2023-01-01

match/search

import re

text = "This sentence does not start with a date like 2023-01-01."

# match()不会找到任何匹配项,因为日期不在字符串开头
match_result = re.match(r'\d{4}-\d{2}-\d{2}', text)
if match_result:
    print("Match found.")
else:
    print("No match at the beginning using match().")

# search()能找到匹配项,因为它搜索整个字符串
search_result = re.search(r'\d{4}-\d{2}-\d{2}', text)
if search_result:
    print("Search found.")
else:
    print("No match found anywhere using search().")

# 输出:
# No match at the beginning using match().
# Search found.

findall与finditer方法

pattern.findall()返回所有非重叠匹配结果的列表;pattern.finditer()返回一个迭代器,逐个返回Match对象。

使用findall()返回所有匹配项

import re

text = "The3 quick5 brown5 fox3 jumps5 over4 the3 lazy4 dog."

# 找到文本中所有的"fox"
pattern = re.compile(r'\d+')
matches = pattern.findall(text)

print(matches)

# 输出: ['3', '5', '5', '3', '5', '4', '3', '4']

使用findall()提取多个组的匹配

import re

text = "John Doe, Jane Smith, Alice Johnson"

# 提取所有名字和姓氏
pattern = re.compile(r'(\w+) (\w+)')
matches = pattern.findall(text)

print(matches)

# 输出: [('John', 'Doe'), ('Jane', 'Smith'), ('Alice', 'Johnson')]

# 返回的是元组组成的列表,每个元组代表一个匹配的结果,其中包含了括号分组的内容

使用finditer()逐个返回Match对象

import re

text = "I have 3 apples and 7 bananas in 2 baskets."

# 查找所有数字
pattern = re.compile(r'\d+')

for match in pattern.finditer(text):
    print(match.group(0))

# 输出:
# 3
# 7
# 2
# finditer()方法逐个返回Match对象,并可以通过group()方法获取匹配的具体内容

使用finditer()并处理复杂匹配结构

import re

text = "colors: red, colors:blue; shapes: square, shapes:circle"

# 匹配颜色或形状
pattern = re.compile(r'(?:colors?[:\s]+(\w+)(?:[,;\s]|$))|(?:shapes?[:\s]+(\w+)(?:[,;\s]|$))')

for match in pattern.finditer(text):
    if match.group(1):  # 如果是颜色
        print(f"Color found: {match.group(1)}")
    elif match.group(2):  # 如果是形状
        print(f"Shape found: {match.group(2)}")

# 输出:
# Color found: red
# Color found: blue
# Shape found: square
# Shape found: circle

进阶用法

分组与反向引用

通过圆括号可以创建子组,以便捕获和引用部分匹配内容。如re.compile(r'(\w+) (\d+)')\1\2分别代表第一个和第二个子组的内容。

替换文本中的部分内容

import re

text = "John Doe has 3 apples and Jane Smith has 7 bananas."
pattern = re.compile(r'(\w+) (\d+)')
new_text = pattern.sub(r'\1 has \2 fruits', text)

print(new_text)
# 输出: "John Doe has 3 fruits and Jane Smith has 7 fruits."

# 在这个例子中,\1 替换为第一个子组(名字),\2 替换为第二个子组(数字)

提取并重组子组

import re

text = "The date is 2023-01-01, and the time is 15:30:45."
pattern = re.compile(r'(\d{4})-(\d{2})-(\d{2})')

match = pattern.search(text)
if match:
    date_reformatted = f"{match.group(1)}.{match.group(2)}.{match.group(3)}"
    print(date_reformatted)
    # 输出: "2023.01.01"

    # 这里直接通过group()方法获取每个子组的内容,并重新组合

在搜索结果中使用子组

import re

text = "Some emails are user1@exam.com, user2@apple.net, and user3@example.org."
pattern = re.compile(r'([\w.%+-]+)@([\w.-]+)\.([a-z]{2,})')

matches = pattern.findall(text)
for email in matches:
    username, domain, dtype = email[0], email[1], email[2]
    print(f"Username: {username}, Domain: {domain}.{dtype}")
    
    # 使用子组匹配的邮箱用户名和域名
    # 输出:
    # Username: user1, Domain: exam.com
    # Username: user2, Domain: apple.net
    # Username: user3, Domain: example.org

贪婪与懒惰匹配

*+?后添加?可变为非贪婪模式,尽可能少地匹配字符。

贪婪与非贪婪的 * 量词

import re

text = "I love Python programming and Java programming very much!"

# 贪婪模式
pattern_greedy = re.compile(r'love.*programming')
match_greedy = pattern_greedy.search(text)
print(match_greedy.group(0))  # 输出: 'love Python programming and Java programming'

# 非贪婪模式
pattern_lazy = re.compile(r'love.*?programming')
match_lazy = pattern_lazy.search(text)
print(match_lazy.group(0))  # 输出: 'love Python programming'

贪婪与非贪婪的 + 量词

import re

text = "The numbers are 139-626 and 123456."

# 贪婪模式
pattern_greedy = re.compile(r'\d+')
matches_greedy = pattern_greedy.findall(text)
print(matches_greedy)
# 输出: ['139', '626', '123456']

# 非贪婪模式
pattern_lazy = re.compile(r'\d+?')
matches_lazy = pattern_lazy.findall(text)
print(matches_lazy)
# 输出: ['1', '3', '9', '6', '2', '6', '1', '2', '3', '4', '5', '6']

 贪婪与非贪婪的 ? 量词

import re

text = "Optional text or not?"

# 贪婪模式
pattern_greedy = re.compile(r'(Optional)?.*')
match_greedy = pattern_greedy.search(text)
print(match_greedy.group(0))  # 输出: 'Optional text or not?'

# 非贪婪模式
pattern_lazy = re.compile(r'(Optional)?.*?')
match_lazy = pattern_lazy.search(text)
print(match_lazy.group(0))  # 输出: 'Optional'

预定义字符集与特殊字符

\d\D\w\W\s\S分别代表数字、非数字、单词字符、非单词字符、空白符、非空白符。


结语与讨论

正则表达式和re库的强大远不止于此,其深度和灵活性足以应对各种复杂的文本处理场景。然而,掌握好这门艺术需要不断的实践和积累,本文只是带你踏入了Python re库的门槛,但正则表达式的奥秘还等待着你进一步挖掘。实践中如果遇到“明明规则写得对,为何匹配不上?”这类疑问,不妨回看本文,或是在留言区留下你的问题,我们一同探讨解惑,让正则表达式真正成为你手中的“文本魔法棒”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/314320.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android14之解决Pixel手机联网出现感叹号(一百八十)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

MySQL的Windows系统安装

一、MySQL的Windows系统安装 1、下载MySQL安装包 打开如下链接地址,下载安装包 2、安装并配置 双击下载好的安装包进行安装,出现如下界面: 选择【 Full 】选项,然后单击【 Next 】按钮。 出现如下界面,单击【 Execute…

数据结构实战:利用JavaScript和Python实现链表

文章目录 一、实战概述二、链表(一)链表概述(二)结点结构(二)链表结构 三、利用JavaScript实现链表(一)创建LinkedList.js(二)创建LinkedList.html&#xff0…

数字图像处理常用算法的原理和代码实现详解

本专栏详细地分析了常用图像处理算法的数学原理、实现步骤。配有matlab或C实现代码,并对代码进行了详细的注释。最后,对算法的效果进行了测试。相信通过这个专栏,你可以对这些算法的原理及实现有深入的理解!   如有疑问&#xf…

中通快递批量查询方法

你是否经常需要处理大量的中通快递单号,却苦于一个个等待查询?现在,有了固乔快递查询助手,这个问题迎刃而解!通过批量查询功能,你可以轻松管理、追踪你的中通快递单号,大大提高工作效率。 一、下…

结构体成员 分数比较大小

题目&#xff1a; 代码&#xff1a; #include <bits/stdc.h> #include<cstring>using namespace std;struct Num{double fenzi;double fenmu;char fenhao;};bool cmp(Num r1,Num r2){return r1.fenzi/r1.fenmu<r2.fenzi/r2.fenmu;}int main(){int n;Num num[n…

基于net6的asp.net core webapi项目打包为docker镜像,并推送至私有镜像仓库harbor中

基于net6的asp.net core webapi项目打包为docker镜像&#xff0c;并推送至私有镜像仓库harbor中 0、环境说明1、打包步骤1.1 创建Asp.net core WebApi项目1.2 在Asp.net core WebApi项目根目录下创建Dockerfile文件1.3 在子系统Ubuntu20.04.4中通过docker build生成docker镜像1…

游戏测试大揭秘,帮你轻松过关

游戏测试可以看作是软件测试的一个分支&#xff0c;黑盒测试最基本的要求是会玩游戏。小公司会要求测试能力更加全面的员工&#xff0c;其中除了功能测试还要会性能测试&#xff0c;兼容测试&#xff0c;弱网测试&#xff0c;自动化测试等。 游戏测试是游戏开发过程中必不可少…

vue2-手写轮播图

轮播图5长展示&#xff0c;点击指示器向右移动一个图片&#xff0c;每隔2秒移动一张照片&#xff01; <template><div class"top-app"><div class"carousel-container"><div class"carousel" ref"carousel">&…

Tensorflow2.0笔记 - 修改形状和维度

本次笔记主要使用reshape&#xff0c;transpose&#xff0c;expand_dim&#xff0c;和squeeze对tensor的形状和维度进行操作。 import tensorflow as tf import numpy as nptf.__version__#tensor的shape和维数获取 #假设下面这个tensor表示4张28*28*3的图片 tensor tf.rando…

RAG 详解

原文&#xff1a;GitHub - Tongji-KGLLM/RAG-Survey 目录 RAG调查 什么是RAG&#xff1f;RAG的范式 幼稚的 RAG高级 RAG模块化 RAG如何进行增强&#xff1f;RAG 还是微调&#xff1f;如何评估 RAG&#xff1f;前景 严峻的挑战多式联运扩展RAG的生态系统RAG论文清单 增强阶段 …

C++多线程学习[二]:线程的传参以及传参的一些坑

一、线程的传参 #include<iostream> #include<thread> #include<string> using namespace std; void threadtest(int a,double b,string str) {this_thread::sleep_for(100ms);cout << a << " " << b << " " &…

【Linux】编写第一个小程序:进度条

文章目录 1. 预备知识1.1 简单认识几个函数1.1.1 sleep()1.1.2 fflush()1.1.3 usleep()1.1.4 memset() 1.2 缓冲区1.3 回车与换行 2. 编写入门版的进度条2.1 基本逻辑2.2 美化效果2.3 代码实现2.4 执行效果 3. 编写升级版的进度条3.1 代码实现3.2 执行效果 1. 预备知识 1.1 简…

C++每日一练(15):简单幂计算

题目描述 输入两个数a和b&#xff0c;求a的b次方。 输入 输入两个整数a&#xff0c;b&#xff08;1<a<10&#xff0c;1<b<15&#xff09;。 输出 输出一个正整数&#xff0c;该值<1000000000000。 输入样例 3 3 输出样例 27 参考答案 #include<bits/stdc.h&…

企业级iptalbes防火墙

一、IPtables介绍 Iptables是unix/linux自带的一款开源的基于包过滤(对OSI模型的四层或者是四层以下进行过滤)的防火墙工具&#xff0c;它的功能十分强大&#xff0c;可以对流入和流出服务器的数据包进行很精细的控制。 iptables其实并不是真正的防火墙&#xff0c;我们可以把…

【AI绘画】全网最强midjourney使用方法!新手必收藏!!

手把手教你入门绘图超强的AI绘画程序Midjourney&#xff0c;用户只需要输入一段图片的文字描述&#xff0c;即可生成精美的绘画。下面是Midjourney注册和使用的方法。给大家带来了全新保姆级教程资料包**&#xff08;文末可获取&#xff09;** 第一步&#xff1a; 先注册一个D…

10 sping核心技术验证(Validation) 数据绑定(Data Binding)

Validation Spring提供了一个Validator接口&#xff0c;您可以使用它来验证对象。Validator接口通过使用Errors对象来工作&#xff0c;以便在进行验证时&#xff0c;验证器可以向Errors对象报告验证失败public class Person {private String name;private int age;// the usua…

代码随想录算法训练营第三天| LeetCode203.移除链表元素、707.设计链表、206.反转链表

文章目录 一、203. 移除链表元素感受代码二、707.设计链表感受代码206.反转链表感受总结一、203. 移除链表元素 感受 我对这道题。从理论上来说太熟悉了。咸鱼讲数据结构常用的方法他都会讲。但是我没上机没写过。到后面上机还是写不出来。giao。 代码 第一次写,想说一下,…

Blazor中使用impress.js

impress.js是什么&#xff1f; 你想在浏览器中做PPT吗&#xff1f;比如在做某些类似于PPT自动翻页&#xff0c;局部放大之类&#xff0c;炫酷无比。 官方示例直接放到Blazor中是不可用的。几经尝试&#xff0c;用以下方法可以实现。 &#xff08;写文不易&#xff0c;请点赞、…

Java常用类---日期时间类

日期时间类 Date类 简介 在Java中&#xff0c;Date类用来封装当前的日期和时间。Date类提供两个构造函数来初始化对象&#xff0c;如下所示。 通过Date() 使用当前日期和时间来初始化对象。 通过Date(long millisec) 来初始化对象&#xff0c;其中的参数是从1970年1月1日起…