掌握Python中re模块的正则表达式应用与技巧【第155篇—正则表达式】

👽发现宝藏

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。

掌握Python中re模块的正则表达式应用与技巧

Python 中的 re 模块是用于处理正则表达式的强大工具。正则表达式是一种用来匹配字符串的模式,它可以在文本中搜索和匹配特定的字符串模式。在本文中,我们将探讨 Python 中 re 模块的应用和一些技巧,帮助您更好地理解和利用正则表达式。

1. 导入 re 模块

在开始之前,首先要确保已经导入了 re 模块:

import re

2. 使用 re 模块进行匹配

以下是一个简单的示例,演示如何使用 re 模块在字符串中查找特定模式的匹配项:

text = "The quick brown fox jumps over the lazy dog"

# 使用 re 模块查找匹配项
matches = re.findall(r'\b\w{3}\b', text)

print(matches)  # 输出匹配的单词列表

在上面的示例中,我们使用了 \b\w{3}\b 这个正则表达式来匹配长度为3的单词。\b 表示单词的边界,\w{3} 表示匹配三个字母字符。re.findall() 函数返回所有匹配的结果。

3. 使用分组

分组是正则表达式中的一个强大功能,它允许您对匹配的部分进行分组处理。以下是一个示例,演示如何使用分组从文本中提取出邮件地址:

text = "Contact us at: support@example.com, sales@example.com"

# 使用分组提取邮件地址
emails = re.findall(r'([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})', text)

print(emails)  # 输出提取的邮件地址列表

在上面的示例中,([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}) 是一个匹配邮件地址的正则表达式。其中,() 将整个邮件地址作为一个分组,使得 re.findall() 函数只返回匹配的邮件地址部分。

4. 替换文本中的字符串

re 模块还提供了替换功能,允许您使用正则表达式来替换文本中的特定字符串。以下是一个示例,演示如何将文本中的所有数字替换为 “X”:

text = "There are 123 apples and 456 oranges"

# 使用 re.sub() 函数替换文本中的数字为 "X"
new_text = re.sub(r'\d+', 'X', text)

print(new_text)  # 输出替换后的文本

在上面的示例中,re.sub(r'\d+', 'X', text) 使用正则表达式 \d+ 匹配一个或多个数字,并将其替换为 “X”。

5. 使用编译的正则表达式

在处理大量文本时,编译正则表达式可以提高匹配效率。以下是一个示例,演示如何使用编译后的正则表达式进行匹配:

pattern = re.compile(r'\bpython\b', re.IGNORECASE)

text = "Python is a popular programming language"

# 使用编译后的正则表达式进行匹配
match = pattern.search(text)

if match:
    print("Found")
else:
    print("Not found")

在上面的示例中,re.compile() 函数编译了一个不区分大小写的正则表达式,并且使用 search() 方法进行匹配。

通过掌握以上技巧,您可以更加灵活和高效地使用 Python 中的 re 模块进行正则表达式的处理。正则表达式是一项强大的技能,在处理文本和字符串时非常有用。

6. 使用预定义字符类

正则表达式中有一些预定义的字符类,可以简化匹配特定类型字符的操作。以下是一些常用的预定义字符类及其示例用法:

  • \d:匹配任意数字字符。
  • \w:匹配任意字母、数字或下划线字符。
  • \s:匹配任意空白字符(空格、制表符、换行符等)。
text = "The code is 1234 and the password is abcd_123"

# 使用预定义字符类匹配数字和字母密码
codes = re.findall(r'\b\w+\b', text)

print(codes)  # 输出匹配的代码和密码列表

7. 使用量词

量词用于指定匹配字符或组的数量。以下是一些常用的量词及其示例用法:

  • *:匹配前一个字符零次或多次。
  • +:匹配前一个字符一次或多次。
  • ?:匹配前一个字符零次或一次。
  • {n}:匹配前一个字符恰好 n 次。
  • {n,}:匹配前一个字符至少 n 次。
  • {n,m}:匹配前一个字符至少 n 次,但不超过 m 次。
text = "The Python programming language is widely used for data analysis"

# 使用量词匹配至少包含两个字母的单词
words = re.findall(r'\b\w{2,}\b', text)

print(words)  # 输出匹配的单词列表

8. 使用锚点

锚点用于匹配字符串的边界,而不是实际的字符。以下是一些常用的锚点及其示例用法:

  • ^:匹配字符串的开头。
  • $:匹配字符串的结尾。
  • \b:匹配单词的边界。
text = "Python is a great language for both beginners and experts"

# 使用锚点匹配以 Python 开头的句子
sentence = re.findall(r'^Python.*', text)

print(sentence)  # 输出匹配的句子

9. 贪婪与非贪婪匹配

在正则表达式中,量词默认是贪婪的,即它们会尽可能匹配最长的字符串。但有时候我们希望匹配最短的字符串,这时候就需要使用非贪婪匹配。在量词后面加上 ? 符号可以将其变为非贪婪匹配。

text = "Python is a powerful programming language"

# 使用贪婪匹配查找 "p" 到 "g" 之间的内容
greedy_match = re.findall(r'p.*g', text)

# 使用非贪婪匹配查找 "p" 到 "g" 之间的内容
non_greedy_match = re.findall(r'p.*?g', text)

print("贪婪匹配:", greedy_match)  # 输出贪婪匹配结果
print("非贪婪匹配:", non_greedy_match)  # 输出非贪婪匹配结果

10. 使用后向引用

后向引用允许您在正则表达式中引用先前匹配的内容。这在需要匹配重复的模式时非常有用。

text = "apple apple orange orange"

# 使用后向引用匹配重复的单词
duplicates = re.findall(r'(\b\w+\b) \1', text)

print("重复的单词:", duplicates)  # 输出匹配到的重复单词列表

11. 多行匹配

有时候我们需要匹配多行文本,而不仅仅是单行。这时可以使用 re.MULTILINE 标志来启用多行匹配模式。

text = """Python is a popular programming language.
It is used for web development, data analysis, and more.
Python has a simple syntax and is easy to learn."""

# 使用多行匹配模式匹配以大写字母开头的句子
sentences = re.findall(r'^[A-Z].*$', text, re.MULTILINE)

print("以大写字母开头的句子:", sentences)  # 输出匹配到的句子列表

12. 使用命名分组

在复杂的正则表达式中,为了增加可读性和维护性,可以使用命名分组来标识匹配的部分。

text = "John has 5 apples, Mary has 3 oranges"

# 使用命名分组提取人名和水果数量
matches = re.findall(r'(?P<name>\w+) has (?P<quantity>\d+) \w+', text)

for match in matches:
    print("Name:", match['name'], "- Quantity:", match['quantity'])

以上是一些高级技巧,可以进一步扩展您对正则表达式的应用和理解。通过不断练习和尝试,您将能够更灵活地应用正则表达式来解决各种文本处理问题。

13. 使用预搜索断言

预搜索断言允许您在匹配字符串时,指定字符串之前或之后的条件。它不会消耗匹配的字符,仅用于指定条件。

text = "apple banana orange grape"

# 使用预搜索断言匹配出包含 "apple" 之后的所有水果
result = re.findall(r'(?<=apple\s)(\w+)', text)

print("包含 'apple' 之后的水果:", result)  # 输出匹配到的水果列表

14. 使用肯定与否定预搜索断言

肯定预搜索断言 (?=...) 匹配满足条件的字符串,而否定预搜索断言 (?!) 匹配不满足条件的字符串。

text = "Python is a powerful programming language"

# 使用肯定预搜索断言匹配包含 "is" 的单词
positive_result = re.findall(r'\b\w+(?= is\b)', text)

# 使用否定预搜索断言匹配不包含 "is" 的单词
negative_result = re.findall(r'\b\w+(?! is\b)', text)

print("肯定预搜索断言:", positive_result)  # 输出匹配到的单词列表
print("否定预搜索断言:", negative_result)  # 输出匹配到的单词列表

15. 使用 re.finditer() 函数

re.finditer() 函数与 re.findall() 函数类似,但它返回一个迭代器,可以逐个访问匹配对象。

text = "Python is a powerful programming language"

# 使用 re.finditer() 函数匹配所有单词
matches_iter = re.finditer(r'\b\w+\b', text)

for match in matches_iter:
    print(match.group())  # 输出匹配到的单词

16. 使用 re.split() 函数

除了匹配和查找文本模式,re 模块还提供了 re.split() 函数,用于根据正则表达式模式拆分字符串。

text = "apple,banana,orange,grape"

# 使用 re.split() 函数根据逗号拆分字符串
fruits = re.split(r',', text)

print("拆分后的水果列表:", fruits)  # 输出拆分后的水果列表

17. 使用 re.sub() 函数的替换函数参数

re.sub() 函数的第二个参数可以是一个函数,用于处理匹配的结果后再替换。

def double(match):
    return str(int(match.group(0)) * 2)

text = "The numbers are 1, 2, 3, and 4"

# 使用替换函数参数将所有数字乘以2
new_text = re.sub(r'\d+', double, text)

print("替换后的文本:", new_text)  # 输出替换后的文本

18. 使用 re.fullmatch() 函数

re.fullmatch() 函数用于检查整个字符串是否完全匹配给定的模式。

pattern = re.compile(r'\d{4}-\d{2}-\d{2}')

date1 = "2022-01-15"
date2 = "15-01-2022"

# 使用 re.fullmatch() 函数检查日期格式
match1 = pattern.fullmatch(date1)
match2 = pattern.fullmatch(date2)

if match1:
    print("日期格式正确")
else:
    print("日期格式错误")

if match2:
    print("日期格式正确")
else:
    print("日期格式错误")

19. 使用 re.IGNORECASE 标志进行不区分大小写匹配

在编译正则表达式时,可以使用 re.IGNORECASE 标志来进行不区分大小写的匹配。

pattern = re.compile(r'python', re.IGNORECASE)

text = "Python is a powerful programming language"

# 使用不区分大小写匹配模式查找 "Python"
match = pattern.search(text)

if match:
    print("Found")
else:
    print("Not found")

20. 使用 re.DEBUG 标志进行正则表达式调试

在编译正则表达式时,可以使用 re.DEBUG 标志来输出正则表达式的调试信息,以便更好地理解它的工作原理。

pattern = re.compile(r'\b\w{3}\b', re.DEBUG)

text = "The quick brown fox jumps over the lazy dog"

# 输出编译后的正则表达式调试信息
pattern.findall(text)

通过继续学习和实践这些高级的正则表达式技巧,您将能够更好地应用正则表达式来处理各种文本匹配和处理任务,提高代码的效率和可维护性。正则表达式是 Python 中强大而灵活的工具之一,对于处理字符串模式非常有用。

总结:

通过本文的介绍,我们探索了 Python 中 re 模块的应用与技巧,使您能够更灵活和高效地处理正则表达式。我们从基础的模式匹配开始,介绍了如何使用 re 模块进行匹配、分组、替换等操作。随后,我们深入探讨了一些高级技巧,包括贪婪与非贪婪匹配、后向引用、多行匹配、预搜索断言等,这些技巧可以帮助您更好地处理复杂的文本处理任务。此外,我们还介绍了一些实用的函数和标志,如 re.split()re.sub() 的替换函数参数、re.fullmatch()re.IGNORECASEre.DEBUG 等,使您能够更灵活地应用正则表达式解决实际问题。

掌握正则表达式是 Python 编程中非常重要的一部分,它能够帮助我们更快地处理字符串模式匹配、文本提取等任务,提高代码的效率和可维护性。通过不断学习和实践,您将能够更深入地理解和应用正则表达式,解决各种文本处理问题,提升自己在 Python 编程中的技能水平。希望本文对您有所帮助,欢迎继续探索和学习更多关于正则表达式的知识。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/485178.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[SAP MM] 名词专业术语解释

采购凭证 采购凭证通常是一种证明文件&#xff0c;用于记录和跟踪特定时间点的采购活动 采购凭证是指企业在采购物品或服务时所开立的一种凭证&#xff0c;用于记录采购的信息和流程 采购凭证通常包括采购申请、采购订单、采购合同等&#xff0c;其中采购订单是最常用的采购…

PCB中常用电子器件封装学习——【一网打尽】

‘ 上图是这个世界上大概所有的封装种类&#xff0c;当然我们日常硬件电路设计肯定用不到这么多&#xff0c;接下来我将介绍几种工程上常用的封装&#xff0c;配以图片方便大家理解学习。在电子器件选型的时候&#xff0c;避免选择到一些非常难以焊接的封装电子器件。

Acrobat Pro DC ----专业PDF编辑与管理

Acrobat Pro DC 2023是一款功能强大的PDF处理软件&#xff0c;它提供了丰富的编辑工具&#xff0c;支持创建、编辑、合并、分割PDF文件&#xff0c;以及高质量的PDF到其他格式的转换功能。同时&#xff0c;该软件集成了最新的OCR技术&#xff0c;可将扫描文档或图片转换成可编辑…

Godot 学习笔记(5):彻底的项目工程化,解决GodotProjectDir is null+工程化范例

文章目录 前言GodotProjectDir is null解决方法解决警告问题根本解决代码问题测试引用其实其它库的输出路径无所谓。 工程化范例环境命名规范Nuget项目结构架构代码ISceneModelIOC服务 测试GD_Extension 通用扩展TestUtils GD_ProgramTestServiceMainSceneModel Godot对应的脚本…

mac 解决随机出现的蓝色框

macbookair为什么打字的时候按空格键会出现蓝色框? - 知乎

t-rex2开放集目标检测

论文链接&#xff1a;http://arxiv.org/abs/2403.14610v1 项目链接&#xff1a;https://github.com/IDEA-Research/T-Rex 这篇文章的工作是基于t-rex1的工作继续做的&#xff0c;核心亮点&#xff1a; 是支持图片/文本两种模态的prompt进行输入&#xff0c;甚至进一步利用两…

配置git公钥

电脑重置重新配置公钥记录一下供自己观看 打开git bash 输入生成ssh公钥命令 ssh-keygen -t rsa -C your-email 一直回车直到出现 输入查看公钥命令 cat ~/.ssh/id_rsa.pub 复制公钥&#xff0c;打开git设置&#xff0c;找到ssh公钥添加(标题随便命名) 配置完后就可以正常使…

【DataWhale学习】灵境Agent开发——Agent介绍

【DataWhale学习】灵境Agent开发——Agent介绍 ​ 这次我参加了 DataWhale 的灵境Agent开发者训练营&#xff0c;第一次开发了一款属于自己的Agent&#xff0c;整体体验下来&#xff0c;操作还是非常方便的。灵境Agent和Coze上面创建的bot差不多&#xff0c;零代码开发可以仅仅…

QT常见布局器使用

布局简介 为什么要布局&#xff1f;通过布局拖动不影响鼠标拖动窗口的效果等优点.QT设计器布局比较固定&#xff0c;不方便后期修改和维护&#xff1b;在Qt里面布局分为四个大类 &#xff1a; 盒子布局&#xff1a;QBoxLayout 网格布局&#xff1a;QGridLayout 表单布局&am…

双指针(滑动窗口)-算法刷题

一.移动零&#xff08;. - 力扣&#xff08;LeetCode&#xff09;&#xff09; 算法思想 &#xff1a; 设置两个指针left,right&#xff0c;将数组分为三块[0,left]为不为0的元素&#xff0c;[left1,right-1]为0元素&#xff0c;[right,num.size()-1]为未扫描的区域&#xff0c…

Notepad++ 如何调整显示字面大小

在 Notepad 上&#xff0c;可以使用 ctrl 加上鼠标的左键来滚动来进行调整。 如何恢复默 可以使用 Ctrl 加数字键盘上的 / 键 来恢复默认设置。 当然也可以通过菜单栏上 view 菜单下的 Zoom 选项。 上面的界面中可以看到我们的在 Notepad 中使用的选项。 Notepad 如何调整显示…

stm32知识总结--简单复习各部件

目录 内部结构 部件介绍 配置步骤 之前学了很多部件&#xff0c;配置了很多参数&#xff0c;但是没有很系统地把他们连接在一起&#xff0c;今天这个图里简洁描述了资源与资源之间的关系。 内部结构 部件介绍 黑框部分为CPU、内部有一个内核专门处理事件&#xff0c;所有的…

Android Studio 无法下载 gradle-7.3.3-bin.zip

下载新的Android Studio&#xff0c;然后创建新的工程时&#xff0c;出现报错&#xff1a;Could not install Gradle distribution from https://services.gradle.org/distributions/gradle-7.3.3-bin.zip 或者超时&#xff0c;我们可以复制&#xff1a;https://services.grad…

基于Google云原生工程师的kubernetes最佳实践(二)

目录 二、应用部署篇 为deployment打上丰富的label,以便selecting 使用sidecar容器部署agent、proxy等组件 使用init container处理依赖关系,而不要用sidecar 镜像tag使用版本号,不要用latest或空tag 为pod设置readiness和liveness探针 不要给所有服务都使用LoadBalance…

C++实现FFmpeg音视频实时拉流并播放

1.准备工作: 下载rtsp流媒体服务器rtsp-simple-server,安装go开发环境并编译 编译好后启动流媒体服务器 准备一个要推流的mp4视频文件,如db.mp4 使用ffmpeg开始推流 推流命令: ffmpeg -re -stream_loop -1 -i db.mp4 -c copy -rtsp_transport tcp -f rtsp rtsp://192.168.16…

笔记本和台式机主板内部结构分析

笔记本和态势机主板内存接口以及配件安装位置 笔记本主板 1 以thinkpad L-490为例,使用拆机小工具拆机&#xff0c;打开后面板&#xff0c;内部结构示意图如下 台式机主板 以技嘉-B660M-AORUS-PRO-AX型号主板为例 笔记本电脑和台式机电脑的相同之处 CPU&#xff1a;笔记本…

前端学习之css media查询、自定义字体、过度动画、css变换、动画、渐变、多列、字体图标

media查询 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>media查询</title><!-- media查询&#xff1a;根据设备类型不同&#xff1a;比如说打印机、屏幕不同而产生不一样效果格式&#x…

Web安全基础入门+信息收集篇

教程介绍 学习信息收集&#xff0c;针对域名信息,解析信息,网站信息,服务器信息等&#xff1b;学习端口扫描&#xff0c;针对端口进行服务探针,理解服务及端口对应关系&#xff1b;学习WEB扫描&#xff0c;主要针对敏感文件,安全漏洞,子域名信息等&#xff1b;学习信息收集方法…

海外媒体宣发:十大国外中文网站-大舍传媒

十大国外中文网站 1、欧洲时报 覆盖欧洲且较具影响力的华文媒体 国外中文新闻网站&#xff0c;欧洲时报文化传媒集团旗舰日报《欧洲时报》旗下官方网站&#xff0c;总部设在法国巴黎&#xff0c;创刊于1983年&#xff0c;现已成为唯一发行覆盖全欧、发行量最大、最具影响力的华…

每日一题 --- 两两交换链表中的节点[力扣][Go]

两两交换链表中的节点 题目&#xff1a;24. 两两交换链表中的节点 给你一个链表&#xff0c;两两交换其中相邻的节点&#xff0c;并返回交换后链表的头节点。你必须在不修改节点内部的值的情况下完成本题&#xff08;即&#xff0c;只能进行节点交换&#xff09;。 示例 1&a…