轻松玩转Python正则表达式

在这里插入图片描述

引言

正则表达式是一种强大的文本匹配和处理工具,广泛应用于各种编程语言中。在Python中,我们可以使用内置的re模块来处理正则表达式。本文将带您从入门到精通,逐步介绍Python中的正则表达式用法,并提供实例演示。

1. 正则表达式基础

1.1 什么是正则表达式

正则表达式是一种用于描述和匹配字符串模式的表达式。它由一系列字符和特殊字符组成,用于在文本中进行搜索和替换操作。

1.2 基本匹配规则

正则表达式中的基本匹配规则包括普通字符的匹配、点号的匹配任意字符、转义字符的使用等。

import re

pattern = r"abc"  # 匹配字符串 "abc"
string = "xyz abc def"

result = re.findall(pattern, string)
print(result)  # Output: ['abc']

1.3 字符类和预定义字符类

字符类用于匹配指定范围内的字符,预定义字符类则表示常见的字符组合,如数字、字母、空白字符等。

import re

pattern = r"[0-9]"  # 匹配任意数字字符
string = "abc 123 def"

result = re.findall(pattern, string)
print(result)  # Output: ['1', '2', '3']

1.4 量词和贪婪匹配

量词用于指定匹配的次数,如匹配0次或多次、匹配1次或多次等。贪婪匹配是指尽可能多地匹配字符,非贪婪匹配则尽可能少地匹配字符。

import re

pattern = r"a+"  # 匹配一个或多个连续的字符 "a"
string = "aaaabbb"

result = re.findall(pattern, string)
print(result)  # Output: ['aaaa']

1.5 边界匹配

边界匹配用于限定匹配的位置,如行的开头、行的结尾、单词的边界等。

import re

pattern = r"\bhello\b"  # 匹配整个单词 "hello"
string = "hello world"

result = re.findall(pattern, string)
print(result)  # Output: ['hello']

2. 使用re模块

2.1 re模块的导入

在使用Python进行正则表达式操作之前,我们需要先导入re模块。

import re

2.2 re.match()方法

re.match()方法用于从字符串的开头开始匹配模式,如果匹配成功,则返回一个匹配对象;否则返回None。

import re

pattern = r"hello"
string = "hello world"

result = re.match(pattern, string)

if result:
    print("Match found!")
else:
    print("No match")

2.3 re.search()方法

re.search()方法用于在字符串中搜索匹配模式,如果找到任意位置的匹配,则返回一个匹配对象;否则返回None。

import re

pattern = r"world"
string = "hello world"

result = re.search(pattern, string)

if result:
    print("Match found!")
else:
    print("No match")

2.4 re.findall()方法

re.findall()方法用于在字符串中搜索所有匹配模式的子串,并将它们作为列表返回。

import re

pattern = r"\d+"
string = "I have 10 apples and 20 oranges."

result = re.findall(pattern, string)

print(result)  # Output: ['10', '20']

2.5 re.sub()方法

re.sub()方法用于在字符串中搜索匹配模式的子串,并将其替换为指定的字符串。

import re

pattern = r"apple"
string = "I have an apple."

result = re.sub(pattern, "banana", string)

print(result)  # Output: "I have an banana."

3. 正则表达式的高级用法

3.1 分组和捕获

正则表达式中的分组和捕获允许我们将匹配的子串提取出来,并在后续操作中使用。

import re

pattern = r"(\d+)-(\d+)-(\d+)"  # 匹配日期格式 "YYYY-MM-DD"
string = "Today is 2023-06-28."

result = re.search(pattern, string)

if result:
    year = result.group(1)
    month = result.group(2)
    day = result.group(3)
    print(f"Year: {year}, Month: {month}, Day: {day}")
else:
    print("No match")

3.2 非贪婪匹配

非贪婪匹配是指尽可能少地匹配字符,可以通过在量词后加上"?"来实现。

import re

pattern = r"a+?"
string = "aaaaa"

result = re.findall(pattern, string)
print(result)  # Output: ['a', 'a', 'a', 'a', 'a']

3.3 向前界定和向后界定

向前界定和向后界定用于限定匹配的前后条件,但不包括在匹配结果中。

import re

pattern = r"(?<=@)\w+"  # 匹配邮箱地址中的用户名
string = "john@example.com"

result = re.findall(pattern, string)
print(result)  # Output: ['example']

3.4 反向引用

反向引用用于在正则表达式中引用前面已经匹配的子串。

import re

pattern = r"(\w+)\s+\1"  # 匹配重复的单词
string = "hello hello world world"

result = re.findall(pattern, string)
print(result)  # Output: ['hello', 'world']

3.5 零宽断言

零宽断言用于匹配某个位置前或后的子串,但不包括在匹配结果中。

import re

pattern = r"\d+(?= dollars)"  # 匹配 "dollars" 前面的数字
string = "I have 100 dollars."

result = re.findall(pattern, string)
print(result)  # Output: ['100']

4. 实例演示

4.1 邮箱验证

使用正则表达式验证输入的字符串是否为有效的邮箱地址。

import re

pattern = r"^\w+@\w+\.\w+$"  # 匹配邮箱地址
email = "test@example.com"

result = re.match(pattern, email)
if result:
    print("Valid email address")
else:
    print("Invalid email address")

4.2 URL提取

从文本中提取所有的URL链接。

import re

pattern = r"http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\\(\\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+"
text = "Visit my website at https://example.com. You can also check out https://example.org."

result = re.findall(pattern, text)
print(result)  # Output: ['https://example.com', 'https://example.org']

4.3 HTML标签提取

从HTML文档中提取所有的标签内容。

import re

pattern = r"<([^>]+)>"  # 匹配HTML标签
html = "<h1>Hello</h1><p>World</p>"

result = re.findall(pattern, html)
print(result)  # Output: ['h1', '/h1', 'p', '/p']

4.4 敏感词过滤

使用正则表达式过滤文本中的敏感词。

import re

sensitive_words = ["bad", "evil", "dangerous"]
text = "This is a bad example."

for word in sensitive_words:
    pattern = fr"\b{re.escape(word)}\b"  # 匹配敏感词并确保单词边界
    text = re.sub(pattern, "***", text)

print(text)  # Output: "This is a *** example."

结论

本文介绍了Python中正则表达式的基础知识和高级用法,包括基本匹配规则、使用re模块进行正则操作的方法以及一些常见的实例演示。掌握正则表达式的技巧和应用,将能够更高效地处理和处理文本数据。希望本文能够对您在Python中使用正则表达式有所帮助。

更多Python的学习资料可以扫描下方二维码无偿领取!!!

1)Python所有方向的学习路线(新版)

总结的Python爬虫和数据分析等各个方向应该学习的技术栈。

在这里插入图片描述

比如说爬虫这一块,很多人以为学了xpath和PyQuery等几个解析库之后就精通的python爬虫,其实路还有很长,比如说移动端爬虫和JS逆向等等。

img

(2)Python学习视频

包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然达不到大佬的程度,但是精通python是没有问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

在这里插入图片描述

(3)100多个练手项目

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/36802.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

JVM理论(二)类加载子系统

类加载流程 类加载流程 类加载器子系统负责从文件系统或者网络中加载class文件,class文件的文件头有特定的文件标识(CAFEBABE是JVM识别class文件是否合法的依据)classLoader只负责文件的加载,而执行引擎决定它是否被执行加载类的信息存放在运行时数据区的方法区中,方法区还包括…

VBA代码如何切换word和excel(3)

【分享成果&#xff0c;随喜正能量】人不能因为一件好事&#xff0c;高兴一整年&#xff0c;却能因为一个创伤&#xff0c;郁郁终生。痛苦给人的刺激&#xff0c;总是远远大于快乐。成年人的烦恼&#xff0c;和谁说都不合适&#xff0c;悲喜自渡&#xff0c;他人难悟。人最强大…

4-软件错误(BUG)

目录 1.什么是bug? 2.如何描述一个bug? ①发现问题的版本 ②问题出现的环境 ③错误重现的步骤 ④预期行为的描述 ⑤错误行为的描述 ⑥其他 ⑦不要把多个bug放到一起 PS&#xff1a;案例1 PS&#xff1a;案例2 3.如何定义bug的级别&#xff1f; ①Blocker&#x…

springboot+mysql财务管理系统

财务管理系统的开发运用java技术、springboot框架&#xff0c;MIS的总体思想&#xff0c;以及Mysql等技术的支持下共同完成了该系统的开发&#xff0c;实现了财务管理的信息化&#xff0c;使员工体验到更优秀的财务管理&#xff0c;管理员管理操作将更加方便&#xff0c;实现目…

10.3.2 【Linux】历史命令:history

[dmtsaistudy ~]$ alias hhistory 在正常的情况下&#xff0c;历史命令的读取与记录是这样的&#xff1a; 当我们以 bash 登陆 Linux 主机之后&#xff0c;系统会主动的由主文件夹的 ~/.bash_history 读取以前曾经下过的指令&#xff0c;那么 ~/.bash_history 会记录几笔数据呢…

网络编程7——IP协议(子网掩码,NAT机制,IPv6协议) + 以太网

文章目录 前言一、IP协议协议头格式认识IP地址格式组成子网掩码 地址管理1.动态分配2.NAT机制3.IPv6协议 路由选择 二、以太网以太网帧格式认识MTU 总结 前言 本人是一个普通程序猿!分享一点自己的见解,如果有错误的地方欢迎各位大佬莅临指导,如果你也对编程感兴趣的话&#x…

MongoDB【MongoDB索引Index (索引概述、索引类型、复合索引、)】(三)-全面详解(学习总结---从入门到深化)

目录 MongoDB索引Index 聚合操作 通过聚合操作可以处理多个文档&#xff0c;并返回计算后的结果。 对多个文档进行分组对分组的文档执行操作并返回单个结果分析数据变化 聚合管道 分别由多个阶段来处理文档&#xff0c;每个阶段的输出是下个阶段的输入&#xff0c; 返回的是…

GitLab名词介绍

GitLab名词介绍 分支&#xff1a;active、stale、default、protected IDEA中git面板&#xff1a;本地、远程、HEAD 合并时的选项&#xff1a;Delete、squash 查看Git常用操作 分支&#xff1a;active、stale、default、protected 在分支页面下&#xff0c;有active、stale…

Acwing 849. Dijkstra求最短路 I

Acwing 849. Dijkstra求最短路 I 链接:849. Dijkstra求最短路 I - AcWing题库 /*题解:dijkstra算法模板对于单源最短路径dijkstra1.每次找到当前距离源最近的节点 作为确定距离的点2.通过这个点看能否让其他的节点来松弛其他点到源的距离重复12操作*/ #include<algorithm&g…

端口映射的作用?如何在路由器上做端口映射

一、端口映射作用 路由器中设置端口映射的主要作用&#xff0c;就是让Internet上的其他用户&#xff0c;可以访问你路由器下面电脑中的数据(软件、文件)。 当家里的电脑使用路由器上网后&#xff0c;在Internet下的其它电脑、手机等网络设备&#xff0c;将无法自接访问你电脑…

linux常用的命令

一.操作目录命令 1.1 ls 命令 语法&#xff1a; ls [选项] [目录或文件] 功能: 对于目录&#xff0c;该命令列出该目录下的所有子目录与文件。对于文件&#xff0c;将列出文件名以及其他信息。 常用选项&#xff1a; a 列出目录下的所有文件&#xff0c;包括以 . 开头的隐含…

仙境传说RO:添加自定义道具

仙境传说RO&#xff1a;添加自定义道具 大家好&#xff0c;我是艾西今天和大家聊一下仙境传说RO怎么添加自定义道具。在我们开服时加入一些道具模组等往往会让我们的服务器更有特色以及消费点&#xff0c;那么让我们直接进入正题开始操作&#xff1a;&#xff08;此处我们讲的…

【C#】Kestrel和IIS服务器下的同步与异步配置

最近在回看自己写的代码时&#xff0c;发现服务配置里最开头写了两段代码&#xff0c;第一感觉&#xff0c;这是啥功能&#xff0c;太久有点生疏了&#xff0c;经过一顿搜索和回顾&#xff0c;简单整理如下 目录 1、Kestrel服务器1.1、跨平台1.2、高性能1.3、可扩展性1.4、安全…

零矩阵

暴力解法&#xff1a;先全部检索&#xff0c;定位0所在的位置&#xff0c; 记录到新的数组 数组的行列分别进行去重 数组中记录的行列赋值为零 如果直接修改&#xff0c;在行被修改之后&#xff0c;修改列时会因为行已经被修改产生影响 import org.junit.Test;import java.uti…

二十三种设计模式第十四篇--策略模式

策略模式&#xff1a;主要围绕一个类的行为或者其算法在运行时更改&#xff0c;也是一种行为型模式。 在软件开发中&#xff0c;我们经常遇到需要根据不同的情况选择不同算法或行为的情况。传统的做法是使用大量的条件语句来实现这种逻辑&#xff0c;但这样的实现方式往往难以…

Python模拟MQTT v3.1.1服务器

示例代码 import logging import asyncio from hbmqtt.broker import Broker# 设置日志级别为DEBUG logging.basicConfig(levellogging.DEBUG)# 创建MQTT服务器 broker Broker()# 启动MQTT服务器 async def start_broker():await broker.start()# 停止MQTT服务器 async def s…

python离线安装ibm_db

下载离线包ibm_db以及clidriver 下载imb_db 在pypi官方网站https://pypi.org/project/ibm-db/#files下载离线安装包ibm_db-3.0.2.tar.gz。下载clidriver 下载地址&#xff1a;https://public.dhe.ibm.com/ibmdl/export/pub/software/data/db2/drivers/odbc_cli/nt32_odbc_cli.…

C语言学生信息管理系统

C语言版学生信息管理系统 一&#xff0c;开发环境 操作系统&#xff1a;windows10, windows11, linux, mac等。开发工具&#xff1a;Qt, vscode, visual studio等开发语言&#xff1a;c语言 二&#xff0c;功能需求 1. 用户界面: 提供一个简洁的文本界面&#xff0c;用户可…

AI 对抗超级细菌:麦克马斯特大学利用深度学习发现新型抗生素 abaucin

内容一览&#xff1a;鲍曼不动杆菌是一种常见的医院获得性革兰氏阴性病原体&#xff0c;通常表现出多重耐药性。利用传统方法&#xff0c;发现抑制此菌的新型抗生素很困难。但利用机器学习可以快速探索化学空间&#xff0c;从而增加发现新型抗菌分子的可能性。近期&#xff0c;…

AI大数据智能视频融合平台EasyCVR新增Ehome黑白名单配置

EasyCVR视频融合平台基于云边端智能协同架构&#xff0c;具有强大的数据接入、处理及分发能力&#xff0c;平台支持海量视频汇聚管理&#xff0c;可支持多协议接入&#xff0c;包括市场主流标准协议与厂家私有协议及SDK&#xff0c;如&#xff1a;国标GB28181、RTMP、RTSP/Onvi…