初始Python篇(7)—— 正则表达式

找往期文章包括但不限于本期文章中不懂的知识点:

个人主页:我要学编程(ಥ_ಥ)-CSDN博客

所属专栏: Python

目录

正则表达式的概念 

正则表达式的组成

元字符

限定符 

其他字符

正则表达式的使用

正则表达式的常见操作方法

match方法的使用:

search方法的使用

findall方法的使用

sub方法的使用 

split方法的使用 

视频代码解读 

章节选择题

章节实战 


正则表达式的概念 

在上一篇文章中,我们学习了字符串这种数据类型,基于字符串而广泛使用的就是正则表达式了。我们先来看它的概念。正则表达式(Regular Expression,简称regex或regexp)是一种文本模式描述的工具,它使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在编程语言和文本编辑器中,正则表达式被广泛用于搜索、替换符合某个模式的文本。简单理解就是给了我们一个模板,然后根据这个模版来操作另外的字符串,进行匹配、替换等操作。

正则表达式的组成

既然我们说正则表达式是提供了一个模版,那这个模板是随便可以使用任意字符组成吗?肯定是不行的,其组成部分肯定也是有特殊的规定。组成模版的字符串除了正常使用的字符之外,还有另外一些特殊的字符。

元字符

元字符是具有特殊意义的专用字符。简单理解就是 有一些字符在正则表达式中被赋予了一些特殊的作用,并起名叫 "元字符"。下面我们来看常见的元字符。

元字符种类描述说明
^表示匹配的开始
$表示匹配的结束
.匹配任意字符 (除\n)
\w匹配字母、数字、下划线
\W匹配非 字母、数字、下划线
\s匹配任意空白字符(\n、\t 等)
\S匹配任意非空白字符
\d匹配任意十进制数(也就是0~9)

注意:可能有小伙伴不是很理解 "匹配" 这个词,这个词和 "寻找" 的意思差不多。匹配成功,就是成功找到了;匹配失败,就是没有找到。对于匹配成功之后,会发生什么,后续在解释。 

限定符 

限定符 是用来限定匹配的次数,也就是当一个字符反复出现时,我们不想全部都匹配只想匹配其中的三个或者四个子类的。

限定符种类描述说明
匹配前面的字符0次或1次
+匹配前面的字符1次或多次
*匹配前面的字符0次或多次
{n}匹配前面的字符n次
{n, }匹配前面的字符最少n次
{n, m}匹配前面的字符最小n次,最多m次

注意:限定符必须有前缀字符,也就是表明其要限制的字符是谁。例如,'\w?' 这个字符串如果作为模版的话,就是在匹配一个字符串时,即使该字符串由很多个 字母、数字、下划线 组成,那最多也就能成功匹配一个。(匹配的结果暂时不管)

其他字符

其他字符描述说明
区间字符:[ ]匹配[ ]中所指定的字符
排除字符:^匹配不在[ ]内的指定字符
选择字符:|匹配 "|" 左右的任意字符
转义字符与Python中的转义字符是一样的
[\u4e00 - \u9fa5]匹配任意一个汉字(日常生活中基本都涵盖)
分组:()改变限定符的作用

详细解释:

1、 区间字符:[ ],匹配过程中,当遇到 [ ] 内的字符时,就会匹配成功。

2、排除字符:^,这其实就是 区间字符 的取反,匹配过程中,遇到 [ ] 内不存在的字符时,就会匹配成功。区间字符与排除字符经常是一起出现的,因为排除字符是基于区间字符的。但排除字符是存在于区间字符之内的。

3、选择字符:|,这个与Python中的 or 操作符类似,只要满足其中一个条件即可。但不存在类似于"短路"的现象。

4、转义字符就是我们在刚开始学习Python时,学习的转义字符。例如,这个字符是元字符的一种,但是加上 \ 之后,这个 "." 就是一个普通字符了。

5、[\u4e00-\u9fa5]:在匹配字符的过程中,如果遇到了 某些字符对应的Unicode码值 在 上述的范围之内,就表明这个是 中文字符,且匹配成功了。

6、分组():这个就类似于 圆括号 对于 操作符的作用,可以实现运算的先后顺序,这里是实现匹配的先后顺序。例如,six l fourth,只能匹配到 six 与 fourth,但是如果加上(),就会变得不一样,( six | four ) th,这里能匹配的就是 sixth 或者 fourth了。相当于是先运算括号内的,在去运算括号外的(这里的就是括号里面的任选一个,括号外边的全部起作用),与操作符是类似的。 

正则表达式的使用

在Python中,如果要使用正则表达式的话,需要导入 re 模块。模块与包的概念是类似的,都是为了实现对某些代码的复用,这是面向对象的重要特征之一:封装。可能有的小伙伴第一门编程语言就是接触的Python,暂时还不了解这些概念,没关系,后面我们会接着学习的。我们只需要知道简单的将模块看成包就行了。

正则表达式的常见操作方法

当我们导入 re 模块之后,就可以进行正则表达式的相关操作了,但具体的操作,还得使用该模块中的方法,接下来详细来学习一下。

方法描述说明
re.match(pattern,string,flags=0)用于从字符串的开始位置进行匹配,如果起始位置匹配成功,结果为Match对象,否则结果为None。
re.search(pattern,string,flags=0)用于在整个字符串中搜索第一个匹配的值,如果匹配成功,结果为Match对象,否则结果为None。
re.findall(pattern,string,flags=0)用于在整个字符串搜索所有符合正则表达式的值,结果是一个列表类型。
re.sub (pattern,repl,string,count,flags=0)用于实现对字符串中指定子串的替换
re.split(pattern,string,maxsplit,flags=0)字符串中的split()方法功能相同,都是分隔字符串的

注意:

1、上述方法的所有pattern、string参数均为字符串类型,pattern 是模块字符串(定义匹配规则的),string 是待匹配的字符串(需要匹配的字符串)。flags=0 是可选参数,用于指定使用正则表达式时的匹配模式,如忽略大小写、多行匹配等。如果不需要特殊匹配模式,可以省略这个参数或者设置为0。我们一般都是直接忽略的。

2、match方法是用来匹配string的起始位置的,一旦起始位置匹配失败的话,即使后面存在可以匹配成功的子串,也会忽略,直接返回None。

3、re.sub() 方法中,repl 是替换字符串或者一个函数 。如果 repl 是一个函数,那么这个函数会被调用,传入每个匹配对象,返回值将用于替换匹配到的文本。count 是一个可选参数,指定了模式匹配后替换的最大次数。如果设置为 0,则所有匹配都会被替换。如果设置为一个正整数,则只替换前 count 次匹配

4、re.split() 方法中,maxsplit 这是一个可选参数,指定了分割的最大次数。

下面就来演示上述方法的使用。

match方法的使用:

import re

# 这里的r是代表当前字符串中的转义字符是不能其作用的
# 例如,普通字符串:'\d' -> 表示是十进制的数字
# r普通字符串:r'\d' -> 表示两个字符 \ 与 d
pattern = r'hello' 
string1 = 'hello world'
string2 = '123 hello world'

# match方法代表是从字符串的开始位置匹配
# string1的开始位置是包含hello的,可以匹配成功,因此match1返回一个Match对象
# string2的开始位置是不包含hello的,匹配失败,因此match2返回None
match1 = re.match(pattern, string1)
match2 = re.match(pattern, string2)

print(match1)
print(match2)

运行结果:

匹配成功会返回一个Match对象,如果我们想要将 Match对象其中的某些部分给单独拿出来的话,就可以使用下面的方法:

print(match1.re) # 输出正则表达式
print(match1.string) # 输出待匹配的字符串
print(match1.group()) # 输出匹配成功的字符串
print(match1.span()) # 输出匹配成功的字符串的索引范围

运行结果: 

search方法的使用

import re

pattern = r'hello'
string1 = 'hello world'
string2 = '123 hello world'

# search方法是在整个字符串中去匹配
# string1 与 string2 都是包含hello的,因此都可以匹配成功
match1 = re.search(pattern, string1)
match2 = re.search(pattern, string2)

print(match1)
print(match2)

运行结果: 

findall方法的使用

import re

pattern = r'hello'
string1 = 'hello world--hello python'
string2 = '123 hello world--hello python'

# findall方法也是在整个字符串中去匹配,但是它会匹配所有的结果,并返回一个列表
# string1 与 string2 都是包含hello的,因此都可以匹配成功
match1 = re.findall(pattern, string1)
match2 = re.findall(pattern, string2)

print(match1)
print(match2)

运行结果: 

sub方法的使用 

import re

pattern = r'hello'
string1 = 'hello world--hello python'
string2 = '123 hello world--hello python'

# sub方法是替换字符串中的匹配项
# 将string1与string2中的pattern部分替换为'I love'
match1 = re.sub(pattern, 'I love',string1)
match2 = re.sub(pattern, 'I love',string2)

print(match1)
print(match2)

运行结果:

split方法的使用 

import re

pattern = r'--'
string1 = 'hello world--hello python'
string2 = '123 hello world--hello python'
string3 = '123 hello world  hello python'

# split方法是按照pattern分割字符串,并返回一个列表
# string1 与 string2 都是包含--的,因此都可以分割成功
match1 = re.split(pattern, string1)
match2 = re.split(pattern, string2)
# string3 没有--,因此无法分割成功,但是最终的结果还是一个列表
match3 = re.split(pattern, string3)

print(match1)
print(match2)
print(match3)

运行结果:

上面代码都是对上述方法的一个简单使用,具体还有一些细节这里也就不再演示,大家可以自己去编写代码实践。 

视频代码解读 

下面是关于 Python子木 up主的视频中一些可能有困惑的地方解释。

章节选择题

章节实战 

1、使用列表存储一些商品数据,使用循环遍历输出商品信息,要求对商品的编号进行格式化为6位,单价保留2位小数,并在前面添加人民币符号输出。

运行效果:

思路:直接将数据存储到列表中,然后我们直接去遍历列表即可。但是这里的难点就是这么样格式化输出这些数据。 

如果将 编号这些数据头也存储在列表中的话,有两点不合适的地方:1、列表是用来存储有效数据的,如果存着编号这些数据有点别扭,并且在后面处理的时候还要额外判断,十分麻烦;2、无法实现对齐输出。因此我们是先将数据头在最开始的地方输出。接着就是要将编号与单价按照要求格式化。最简单也是最暴力的方式,将对应位置的数据全部拿出来,直接进行修改。例如,在编号数据前面加上四个零即可;在单价前面加上 ¥,然后再对数据 .2f 的输出即可。

代码实现:

goods = [
    ['01', '电风扇', '美的', 500],
    ['02', '洗衣机', 'TCL', 1000],
    ['03', '微波炉', '老板', 400]
         ]
print('编号\t\t名称\t\t\t品牌\t\t单价')
# 遍历列表
for item in goods: # item是一个一维列表
    for j in item:
        print(j,end='\t\t')
    print()
# 在上述基础上,进行暴力的格式化操作即可
for item in goods: # item是一个一维列表
    # item[0] 是编号,item[3]是单价
    item[0] = '0000'+item[0]
    # 注意这里操作的单价要是int或float类型,而不能是字符串
    item[3] = '¥{0:.2f}'.format(item[3])

print('编号\t\t\t名称\t\t\t品牌\t\t单价')
for item in goods: # item是一个一维列表
    for j in item:
        print(j,end='\t\t')
    print()

好啦!本期 初始Python篇(7)—— 正则表达式 的学习之旅 就到此结束啦!我们下一期再一起学习吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/922673.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

小程序免备案:快速部署与优化的全攻略

小程序免备案为开发者提供了便捷高效的解决方案,省去繁琐的备案流程,同时通过优化网络性能和数据传输,保障用户体验。本文从部署策略、应用场景到技术实现,全面解析小程序免备案的核心优势。 小程序免备案:快速部署与优…

L14.【LeetCode笔记】返回倒数第k个节点

目录 1.题目 2.分析 思路 代码 提交结果 1.题目 面试题 02.02. 返回倒数第 k 个节点 实现一种算法,找出单向链表中倒数第 k 个节点。返回该节点的值。 注意:本题相对原题稍作改动 示例: 输入: 1->2->3->4->5 和 …

深入解析 EasyExcel 组件原理与应用

✨深入解析 EasyExcel 组件原理与应用✨ 官方:EasyExcel官方文档 - 基于Java的Excel处理工具 | Easy Excel 官网 在日常的 Java 开发工作中,处理 Excel 文件的导入导出是极为常见的需求。 今天,咱们就一起来深入了解一款非常实用的操作 Exce…

基于Java Springboot高校教室资源管理系统

一、作品包含 源码数据库全套环境和工具资源部署教程 二、项目技术 前端技术:Html、Css、Js、Vue、Element-ui 数据库:MySQL 后端技术:Java、Spring Boot、MyBatis 三、运行环境 开发工具:IDEA/eclipse 数据库:…

k8s1.31版本最新版本集群使用容器镜像仓库Harbor

虚拟机 rocky9.4 linux master node01 node02 已部署k8s集群版本 1.31 方法 一 使用容器部署harbor (1) wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repo yum -y install docker-ce systemctl enable docker…

C语言数据结构学习:循环队列

C语言 数据结构学习 汇总入口: C语言数据结构学习:[汇总] 1. 循环队列 队列的博客:C语言数据结构学习:队列 循环队列会预先定义最大队列空间,然后定义一个数组,通过队列头和队列尾指针分别指向开头和结尾&…

Vue——响应式数据,v-on,v-bind,v-if,v-for(内含项目实战)

目录 响应式数据 ref reactive 事件绑定指令 v-on v-on 鼠标监听事件 v-on 键盘监听事件 v-on 简写形式 属性动态化指令 v-bind iuput标签动态属性绑定 img标签动态属性绑定 b标签动态属性绑定 v-bind 简写形式 条件渲染指令 v-if 遍历指令 v-for 遍历对象的值 遍历…

小米note pro一代(leo)线刷、twrp、magisk、TODO: android源码编译

本文主要说android5 整体思路 android 5.1 twrp magisk Zygisk(Riru) Dreamland(xposed) Riru不支持android5.1, 因此只能选择Zygisk : 如果你正在使用 Android 5,你必须使用 Zygisk 因为 Riru 并不支持 Android 5. 基于magisk之上的xposed 其中提到的 作者…

自然语言处理: RAG优化之Embedding模型选型重要依据:mteb/leaderboard榜

本人项目地址大全:Victor94-king/NLP__ManVictor: CSDN of ManVictor git地址:https://github.com/opendatalab/MinerU 写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!! 写在前面: 笔者更新不易,希望走过路…

Redis 常用数据类型插入性能对比:循环插入 vs. 批量插入

Redis 是一款高性能的键值数据库,其支持多种数据类型(String、Hash、List、Set、ZSet、Geo)。在开发中,经常会遇到需要插入大量数据的场景。如果逐条插入,性能会显得较低,而采用 Pipeline 批量插入 能大幅提…

oneplus6线刷、trwp、magisk(apatch)、LSPosed、Shamiko、Hide My Applist

oneplus6线刷android10.0.1 oneplus6线刷包(官方android10.0.1)下载、线刷教程: OnePlus6-brick-enchilada_22_K_52_210716_repack-HOS-10_0_11-zip 启用开发者模式 设置 / 连续点击6次版本号 : 启用开发者模式设置/开发者模式/{打开 usb调试, 打开 网络adb调试,…

node.js中使用express.static()托管静态资源

express.static()定义 express.static(root, [options])是一个中间件函数,负责为Express应用提供静态资源服务。它允许你指定一个或多个目录作为静态资源的根目录,当客户端请求这些资源时,Express会查找并返回对应的文件。 安装express npm i…

【含开题报告+文档+PPT+源码】基于SSM的社区老人服务系统设计与实现

开题报告 在当前人口老龄化趋势明显以及信息化社会发展背景下,基于 SSM 框架构建的社区老人服务系统具有深远的背景意义。首先,它响应了我国老龄化进程加快所带来的多元化、个性化养老服务需求,利用互联网技术为老年人提供便捷高效的在线申请…

Spring AI 框架使用的核心概念

一、模型(Model) AI 模型是旨在处理和生成信息的算法,通常模仿人类的认知功能。通过从大型数据集中学习模式和见解,这些模型可以做出预测、文本、图像或其他输出,从而增强各个行业的各种应用。 AI 模型有很多种&…

学习与理解LabVIEW中多列列表框项名和项首字符串属性

多列列表框控件在如下的位置: 可以对该控件右击,如下位置,即可设置该控件的显示项: 垂直线和水平线指的是上图中组成单元格的竖线和横线(不包括行首列首) 现在介绍该多列列表框的两个属性,分别…

(Keil)MDK-ARM各种优化选项详细说明、实际应用及拓展内容

参考 MDK-ARM各种优化选项详细说明、实际应用及拓展内容 本文围绕MDK-ARM优化选项,以及相关拓展知识(微库、实际应用、调试)进行讲述,希望对你今后开发项目有所帮助。 1 总述 我们所指的优化,主要两方面: 1.代码大小(Size) 2.代码性能(运行时间) 在MDK-ARM中,优…

实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么

今天学Flink的关键技术–容错机制,用一些通俗的比喻来讲这个复杂的过程。参考自《离线和实时大数据开发实战》 需要先回顾昨天发的Flink关键概念 检查点(checkpoint) Flink容错机制的核心是分布式数据流和状态的快照,从而当分布…

[译]Elasticsearch Sequence ID实现思路及用途

原文地址:https://www.elastic.co/blog/elasticsearch-sequence-ids-6-0 如果 几年前,在Elastic,我们问自己一个"如果"问题,我们知道这将带来有趣的见解: "如果我们在Elasticsearch中对索引操作进行全面排序会怎样…

七、SElinux

一、SElinux简介 SELinux是Security-Enhanced Linux的缩写,意思是安全强化的linuxSELinux 主要由美国国家安全局(NSA)开发,当初开发的目的是为了避免资源的误用传统的访问控制在我们开启权限后,系统进程可以直接访问当我们对权限设置不严谨时…

鸿蒙开发-音视频

Media Kit 特点 一般场合的音视频处理,可以直接使用系统集成的Video组件,不过外观和功能自定义程度低Media kit:轻量媒体引擎,系统资源占用低支持音视频播放/录制,pipeline灵活拼装,插件化扩展source/demu…