正则表达式梳理(基于python)

正则表达式(regular expression)是一种针对字符串匹配查找所定义的规则模式,独立于语言,但不同语言在实现上也会存在一些细微差别,下面基于python对常用的相关内容进行梳理。

文章目录

  • 一、通用常识
    • 1.通配符
      • ps.反义
    • 2.量词
      • ps.非贪婪匹配
    • 3.位置限定符
    • 4.其他特殊符号
  • 二、python实现
    • 1.常用函数
      • 1)search
      • 2)match
      • 3)findall
    • 2.特殊用法
      • 1) `(?:...) `非捕获组
      • 2)`(?=...)`正向先行断言
      • 3)`(?!...)`负向先行断言
      • 4)`(?<=...)`正向后行断言
      • 5)`(?<=...)`负向后行断言
      • ps1.理解 先行/后行 & 正向/负向
      • ps2.后行断言时,限定字符的长度必须固定

一、通用常识

1.通配符

.:匹配任意字符。(换行符除外)
\w:匹配字母、数字、下划线。(也可以写为[a-zA-Z0-9_]
\d:匹配阿拉伯数字([0-9])。
\s:匹配空白字符。(空格、制表符、换行符等)
[ ]:匹配列表中任意字符。(所有特殊字符在列表中都会按照字面量对待,不需要特殊转义)

ps.反义

\W:匹配非字母、数字、下划线外的字符。
\D:匹配非阿拉伯数字。
\S:匹配非空白字符。
[^ ]:不匹配列表中任意字符。

2.量词

?:0次或1次。
+:1次或多次。
*:0次或多次。
{m}:精确匹配m次。
{m,n}:匹配m~n次。
{m,}:至少匹配m次。

ps.非贪婪匹配

贪婪匹配:满足正则的情况下尽可能多的匹配。
非贪婪匹配:满足正则的情况下尽可能少的匹配。

默认正则中都是贪婪匹配,需要非贪婪匹配时需要在量词后面加个?

3.位置限定符

^:限制起始字符。
$:限制结尾字符。

4.其他特殊符号

|:逻辑或,匹配逻辑或中的任意一个。
\:转义字符,通常对\本身进行转义。

二、python实现

python中实现正则的标准库是re,下面主要介绍该模块中常用的一些方法及作用。

1.常用函数

1)search

匹配目标字符串第一个出现的符合正则的子串,匹配成功返回Match对象,匹配失败返回None

返回的Match对象可通过group方法获取指定捕获组()的内容,无论正则中有没有指定捕获组,默认的捕获组都是0,即整个符合正则的子串。

当在正则中显式指定捕获组时,捕获组索引号按照在正则中从左到右的顺序自1开始递增。

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

match = re.search(r'(\d+路)(\d+号)(\d+楼)', '北京市昌平区1路2号3楼')
print(match.group())
print(match.group(1))
print(match.group(2))
print(match.group(3))

# 1路2号3楼
# 1路
# 2号
# 3楼

当出现捕获组嵌套的情况时,同样是按照在正则中从左往右出现的顺序解析对应,只不过是递归解析,类似于树的先序遍历。

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

match = re.search(r'((\d+路)(\d+号))(\d+楼)', '北京市昌平区1路2号3楼')
print(match.group())
print(match.group(1))
print(match.group(2))
print(match.group(3))
print(match.group(4))

# 1路2号3楼
# 1路2号
# 1路
# 2号
# 3楼

2)match

match方法和search用法及返回的对象都一致,唯一的区别是search的目标子串可以出现在字符串中的任何位置,而match是从开头开始匹配,目标子串必须在字符串开头出现。

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

match = re.match(r'((\d+路)(\d+号))(\d+楼)', '北京市昌平区1路2号3楼')
if match:
    print(match.group())
    print(match.group(1))
    print(match.group(2))
    print(match.group(3))
    print(match.group(4))
else:
    print('None')

# None

在正则前面加个.*适配就可以成功匹配了:

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

match = re.match(r'.*((\d+路)(\d+号))(\d+楼)', '北京市昌平区1路2号3楼')
if match:
    print(match.group())
    print(match.group(1))
    print(match.group(2))
    print(match.group(3))
    print(match.group(4))
else:
    print('None')

# 北京市昌平区1路2号3楼
# 1路2号
# 1路
# 2号
# 3楼

3)findall

顾名思义,找出字符串中所有匹配正则的子串。无论有无匹配返回的结果都是一个列表。

当正则中无捕获组或者仅有一个捕获组时,返回的是包含单个元素的列表,每个元素都是一个匹配项。

无捕获组返回的是匹配整个正则的子串,1个捕获组返回的是匹配捕获组的子串。

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

ans1 = re.findall(r'\d+路\d+号\d+楼', '北京市昌平区1路2号3楼')
print(ans1)

ans2 = re.findall(r'(\d+路)\d+号\d+楼', '北京市昌平区1路2号3楼')
print(ans2)

# ['1路2号3楼']
# ['1路']

当正则中包含多个捕获组时,返回包含元组的列表,每个元组是一个正则匹配项,元组中的元素对应了每个匹配项中捕获组的匹配内容,无匹配时用空字符串''代替。

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

ans1 = re.findall(r'((\d+路)(\d+号))(\d+楼)', '北京市昌平区1路2号3楼')
print(ans1)

ans2 = re.findall(r'((\d+路)?(\d+号))(\d+楼)', '北京市昌平区2号3楼')
print(ans2)

# [('1路2号', '1路', '2号', '3楼')]
# [('2号', '', '2号', '3楼')]

ps:特别注意正则中包含逻辑或|时,无论匹配的是哪个逻辑分支,其余的逻辑分支中的捕获组都会在元组中用空字符串''表示。

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

ans = re.findall(r'B(\d+)层([A-Z]+)区|地下([一二三四五六七八九]+)层([A-Z]+)区',
                 '停车场B2层C区;停车场地下一层B区')
print(ans)

# [('2', 'C', '', ''), ('', '', '一', 'B')]

2.特殊用法

1) (?:...) 非捕获组

仅匹配,不捕获。通常用于目标需要提取的捕获组前的限制规则比较复杂,需要用到()的场景。

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

ans = re.findall(r'(?:B|地下)[1-9一二三四五六七八九]+层([A-Z]+区)',
                 '停车场B2层C区;停车场地下一层B区')
print(ans)

# ['C区', 'B区']

2)(?=...)正向先行断言

这里的正向先行的意思是,右侧必须出现可以匹配括号中...的字符,这种方式在实际匹配过程中只会预先查找,不会实际消耗字符串。

比如从下面的日期中提取月份:

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

match = re.search(r'\d+(?=月)', '今天是2025年3月5日')
if match:
    print(match)

# <re.Match object; span=(8, 9), match='3'>

3)(?!...)负向先行断言

负向先行:右边不能出现匹配括号中...的字符。

提取日期号,不提取年和月份:

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

match = re.search(r'\d+(?![年月0-9])', '今天是2025年3月5日')
if match:
    print(match)

# <re.Match object; span=(10, 11), match='5'>

4)(?<=...)正向后行断言

正向后行:左边必须出现匹配括号中...的字符。

只提取折扣价:

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

match = re.search(r'(?<=折扣价)\d+', '原价100;折扣价80;实付价70')
if match:
    print(match)

# <re.Match object; span=(9, 11), match='80'>

5)(?<=...)负向后行断言

负向后行:左边不能出现匹配括号中...的字符。

只提取原价:

#!/usr/bin/env python3
# -*-coding:utf-8 -*-

import re

match = re.search(r'(?<!(折扣价|实付价))\d+', '原价100;折扣价80;实付价70')
if match:
    print(match)

# <re.Match object; span=(2, 5), match='100'>

ps1.理解 先行/后行 & 正向/负向

​先行断言​:检查匹配位置的 ​右侧​ 是否符合条件。
​后行断言:检查匹配位置的 ​左侧​ 是否符合条件。

个人觉得,先行/后行 可以理解成目标匹配子串相对于限定字符的 左边/右边。

​正向​:匹配 ​存在​ 某个条件。
​负向​:匹配 ​不存在​ 某个条件。

ps2.后行断言时,限定字符的长度必须固定

在这里插入图片描述
内置文档中提示先行断言限定字符长度无特殊限制,后行断言限定字符长度必须固定。

原因是正则引擎的默认匹配方向是从左到右,当遇到先行断言时,引擎会临时向右扫描,检查后续字符是否符合断言条件。由于匹配方向与引擎的默认方向一致,变长模式不会导致回溯问题。

而后行断言时正则引擎需要反向检查左侧的字符,而反向匹配需要明确的起始位置。如果后行断言是变长模式(如.*a+),引擎无法确定从哪个位置开始检查,导致性能下降或无法实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/983856.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

《C++ 构造、拷贝构造与析构函数:对象的诞生、克隆与消逝之旅》

类的6个默认成员函数 构造函数 是对一个对象实例化时的初始化 例如在C语言中写的堆的时候要初始化StackInit&#xff0c;而c祖师爷写的构造函数本质上就是自动调用初始化。 构造函数默认构造函数自己写的&#xff08;符合规定的显示表达式&#xff09; 注&#xff1a;一般情况下…

使用服务器搭建无门槛ChatGPT WEB应用LobeChat

一、服务器实例配置 ‌实例选型‌ ‌推荐配置‌&#xff1a;‌2核4GB内存‌&#xff0c;保障AI推理和并发访问的流畅性‌67。‌操作系统‌&#xff1a;选择 ‌Ubuntu 22.04 LTS‌&#xff0c;适配Docker环境与LobeChat依赖库‌23。‌安全组规则‌&#xff1a;开放以下端口&…

C/S架构与B/S架构

一、定义与核心区别 C/S架构&#xff08;Client/Server&#xff0c;客户端/服务器&#xff09; 客户端需安装专用软件&#xff08;如QQ、企业ERP系统&#xff09;&#xff0c;直接与服务器通信。服务器端通常包括数据库和业务逻辑处理1。特点&#xff1a;客户端承担部分计算任务…

鸿蒙Next-应用检测、安装以及企业内部商店的实现

一、企业内部应用检测和更新升级 A应用检测是否安装B应用 canOpenApp():boolean{ try { let link schB://com.example.test/open; // 替换成你目标应用的link串儿 let canOpen bundleManager.canOpenLink(link); console.log("canOpen:"canOpen…

车载网络测试-DBC文件解读

目录 1 背景2 DBC结构2.1 Networks2.2 ECUs&#xff08;Electronic Control Units&#xff09;2.3 Network Nodes2.4 Message&#xff08;报文&#xff09;2.4.1 Message定义、作用、示例2.4.2 报文Attribute&#xff08;属性&#xff09;2.4.2.1 常见的报文Attributes2.4.2.2 …

《A++ 敏捷开发》- 18 软件需求

需求并不是关于需求 (Requirements are not really about requirements) 大家去公共图书馆寄存物品&#xff0c;以前都是扫二维码开箱&#xff0c;有些图书馆升级了使用指纹识别。 “是否新方法比以前好&#xff1f;”我问年轻的开发人员。 “当然用指纹识别好。新技术&#x…

SQL经典查询

查询不在表里的数据&#xff0c;一张学生表&#xff0c;一张学生的选课表&#xff0c;要求查出没有选课的学生&#xff1f; select students.student_name from students left join course_selection on students.student_idcourse_selection.student_id where course_selecti…

大语言模型进化论:从达尔文到AI的启示与展望

文章大纲 引言大语言模型中的“进化论”思想体现遗传变异过度繁殖和生存斗争大模型“过度繁殖”与“生存竞争”机制解析**一、过度繁殖:技术迭代的指数级爆发****二、生存竞争:计算资源的达尔文战场****三、生存竞争胜出关键要素****四、行业竞争格局演化趋势**核心结论自然选…

SSM架构 +Nginx+FFmpeg实现rtsp流转hls流,在前端html上实现视频播放

序言&#xff1a; 本文介绍通过SSM架构 NginxFFmpeg实现rtsp流转hls流&#xff0c;在前端html上实现视频播放功能。此方法可用于网络摄像头RTSP视频流WEB端实时播放。&#xff08;海康和大华都可以&#xff09;&#xff0c;我使用的是海康 步骤一&#xff1a;安装软件 FFmpeg…

Hadoop管理页看不到任务的问题

这个yarn分配任务了但是为空 在$HADOOP_HOME/conf/mapred-site.xml 原来的配置文件基础之上添加&#xff1a; <property><name>mapreduce.framework.name</name><value>yarn</value></property> 重启之后就好了

腾讯云TBDS获金融信创实验室全项适配认证 打造国产化大数据平台标杆

点击蓝字⬆ 关注我们 本文共计1605字 预计阅读时长5分钟 近日&#xff0c;腾讯云大数据套件软件TBDS V5.3、数据仓库TCHouse V3.0通过金融信创生态实验室&#xff08;以下简称“实验室”&#xff09;的适配验证。 本测试基于典型金融业务场景&#xff0c;在全信创环境下&#x…

人工智能神经网络基本原理

MP 神经元数学模型 MP 模型是神经网络领域的早期模型&#xff0c;它模仿了神经元的基本结构和工作原理。 人工神经元是一个多输入、单输出的信息处理单元&#xff0c;是对生物神经元的建模。建模方式可以有很多种&#xff0c;不同的建模方式就意味着不同的人工神经元结构。 比…

WSL + 4050 部署 Deepseek-7B 蒸馏模型

操作环境&#xff1a;WSL - Oracle Linux RTX 4050 Laptop edition 渣渣笔记本实在是跑不了更大模型了&#x1f602; 整体架构 WSL 配置显卡加速环境 总体流程 安装教程&#xff1a;https://zhuanlan.zhihu.com/p/681092042 总体流程&#xff1a; 优化 WSL 系统配置&#x…

C++入门——输入输出、缺省参数

C入门——输入输出、缺省参数 一、C标准库——命名空间 std C标准库std是一个命名空间&#xff0c;全称为"standard"&#xff0c;其中包括标准模板库&#xff08;STL&#xff09;&#xff0c;输入输出系统&#xff0c;文件系统库&#xff0c;智能指针与内存管理&am…

简单的二元语言模型bigram实现

内容总结归纳自视频&#xff1a;【珍藏】从头开始用代码构建GPT - 大神Andrej Karpathy 的“神经网络从Zero到Hero 系列”之七_哔哩哔哩_bilibili 项目&#xff1a;https://github.com/karpathy/ng-video-lecture Bigram模型是基于当前Token预测下一个Token的模型。例如&#x…

用Deepseek写一个五子棋微信小程序

在当今快节奏的生活中&#xff0c;休闲小游戏成为了许多人放松心情的好选择。五子棋作为一款经典的策略游戏&#xff0c;不仅规则简单&#xff0c;还能锻炼思维。最近&#xff0c;我借助 DeepSeek 的帮助&#xff0c;开发了一款五子棋微信小程序。在这篇文章中&#xff0c;我将…

【Raspberry Pi 5 测评】无显示器上手指南

【Raspberry Pi 5 测评】无显示器上手指南 一、硬件开箱二、系统安装2.1 安装 Raspberry Pi Imager2.2 安装 Rasberry Pi OS 三、系统登录3.1 ping测试3.2 SSH登录 四、远程桌面4.1 启用VNC服务4.2 使用VNC客户端 五、软件安装5.1 替换软件源5.2 安装常用软件 六、参考链接 摘要…

图像标注与OCR工具分析

图像标注和OCR&#xff08;光学字符识别&#xff09;工具的代码进行详细分析。该工具允许用户在图像上进行矩形标注&#xff0c;使用 OCR 对标注区域进行文本识别&#xff0c;并将结果保存为 Excel 文件。同时&#xff0c;用户可以保存和加载标注&#xff0c;清除标注&#xff…

使用Node.js从零搭建DeepSeek本地部署(Express框架、Ollama)

目录 1.安装Node.js和npm2.初始化项目3.安装Ollama4.下载DeepSeek模型5.创建Node.js服务器6.运行服务器7.Web UI对话-Chrome插件-Page Assist 1.安装Node.js和npm 首先确保我们机器上已经安装了Node.js和npm。如果未安装&#xff0c;可以通过以下链接下载并安装适合我们操作系…

基于粒子群算法的配电网重构

一、配电网重构原理 定义&#xff1a; 配电网重构是指在满足运行约束的前提下&#xff0c;通过改变开关状态优化配电网性能&#xff0c;提高系统的经济效益和运行效率。 拓扑约束&#xff1a; 配电网必须保持径向拓扑&#xff0c;避免环网或孤岛。采用算法控制开关状态的选择&…