30分钟学会正则表达式

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

作用
  • 匹配 查看一个字符串是否符合正则表达式的语法

  • 搜索 正则表达式来提取字符串中符合要求的文本

  • 替换 查找字符串中符合正则表达式的文本,并用相应的字符串替换

  • 分割 使用正则表达式对字符串进行分割。

案例

原始内容:
    姓名:lilei
    手机号:13888888888
    邮箱:lilei@qq.com

匹配正则:
    姓名:(\w+)\n手机号:(1[3-9]\d{9})\n邮箱:([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)

无需对正则表达式心怀恐惧,接下来将逐步为您阐释,待阅读完毕,您定会茅塞顿开。

字符类

字符类是匹配一个或多个的字符

在上面的例子中:

姓名:(\w+)\n手机号:(1[3-9]\d{9})\n邮箱:([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)

标记的都是字符类,下面是字符类的一些说明

1. . 匹配除 "\n" 之外的任何单个字符。要匹配	包括 '\n'在内的任何字符,请使用 '[.\n]' 的模式。
2. \d 匹配一个数字字符。等价于 [0-9]。
3. \D 匹配一个非数字字符。等价于 [^0-9]。
4. \s 匹配任何空白字符,包括空格、制表符、	换页符等等。等价于[ \f\n\r\t\v]。
5. \S 匹配任何非空白字符。等价于 	[^\f\n\r\t\v]。
6. \w 匹配包括下划线的任何单词字符。等价于	'[A-Za-z0-9_]'。
7. \W 匹配任何非单词字符。等价于	 '[^A-Za-z0-9_]'。

[]用法
[Pp]ython	匹配 "Python" 或 "python"
ub[ye]		匹配 "ruby" 或 "rube"
[aeiou]		匹配中括号内的任意一个字母
[0-9]	    匹配任何数字。类似于 [0123456789]
[a-z]       匹配任何小写字母
[A-Z]	    匹配任何大写字母
[a-zA-Z0-9]	匹配任何字母及数字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	            匹配除了数字外的字符字符类内部,
除了\之外,其他特殊字符不再具备特殊意义,都表示字面值。
^放在第一个位置表示否定,
放在其他位置表示^本身,
-放在中间表示范围,放在字符类中的第一个字符,则表示-本身。

量词

正则表达式量词是用来修饰字符类的数量

在上面的例子中:

姓名:(\w+)\n手机号:(1[3-9]\d{9})\n邮箱:([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)

这些都是修饰前一个字符类的数量,下面是量词的一些说明

1. ?	匹配前面的字符0次或1次
2. *	匹配前面的字符0次或多次
3. +	匹配前面的字符1次或者多次
4. {m}	匹配前面表达式m次
5. {m,}	匹配前面表达式至少m次
6. {,n}	匹配前面的正则表达式最多n次
7. {m,n}	匹配前面的正则表达式至少m次,最多n次

注意点:
 以上量词都是贪婪模式,会尽可能多的匹配,如果要改为非贪婪模式,通过在量词后面跟随一个?来实现

分组与捕获

分组是用圆括号“()”括起来的正则表达式,匹配出的内容就表示一个分组。

分组和捕获在正则表达式中有着密切的联系,一般情况下,分组即捕获,都用小括号完成: 

  • (exp)    :分组,并捕获该分组匹配到的文本
  • (?:exp) :分组,但不捕获该分组匹配到的文本,可以理解为数学里小括号的作用,可以在后面使用量词或管道符

什么是捕获呢?使用小括号指定一个子表达式后,子表达式匹配的文本(即匹配的内容)可以在其他子表达式中重复使用。

简单来说就是:对需要的内容作一个标记,在搜索或替换时,可以快捷引用

在上面的例子中:

姓名:(\w+)\n手机号:(1[3-9]\d{9})\n邮箱:([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)

有三个分组,分别是分组1,分组2, 分组3, 从1开始

搜索时,可以快捷提取分组的内容

替换时,可以捕获(引用)分组内容进行替换

原始内容:
    姓名:lilei
    手机号:13888888888
    邮箱:lilei@qq.com
匹配正则:
    姓名:(\w+)\n手机号:(1[3-9]\d{9})\n邮箱:([a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)
替换正则:
    $1的邮箱是:$3, 电话是:$2
替换后:
    lilei的邮箱是:lilei@qq.com, 电话是:13888888888
字符功能
(ab)将括号中正则表达式作为⼀个分组
\num 或 $num引⽤分组序号匹配到的字符串,在不同的编程语言中会不所不同
(?P<name>)分组起别名,这个不常用可以忽略
(?P=name)引⽤别名为name分组匹配到的字符串

捕获(引用)内容 

1. 通过组号捕获(引用)

  • 每一个没有使用?:的小括号都会分配一个组合,从1开始,从左到右递增,可以通过\i引用前面()内表达式捕获的内容(\i 的内容是值与前面一致,并不是表达式一致)

2.通过组名捕获(引用)

  • 可以通过在左括号后面跟随?P<name>,尖括号中放入组名来为一个组起一个别名,后面通过(?P=name)来引用 前面捕获的内容。如(?P<word>\w+)\s+(?P=word)来匹配重复的单词。(这里引用前面内容,并不是正则表达式)

    (?P<word>\w+)\s+((?P=word))如果引用的内容也需要分组,则外面再加一个括号

注意点:反向引用不能放在字符类[]中使用。

贪婪模式与非贪婪模式

贪婪模式:总是尝试匹配尽可能多的字符。

非贪婪模式,总是尝试匹配尽可能少的字符。

默认是贪婪模式, 在量词后面加上?,就变成贪婪模式

在上面的案例中,没有体现,这里单独给个案例来说明

原始字符:
    <div>test1</div><div>test2</div>
匹配正则:贪婪模式
    <div>.*</div>
结果:
    匹配数量:1
    匹配结果: <div>test1</div><div>test2</div>

匹配正则:非贪婪模式
    <div>.*?</div>
结果:
    匹配数量:2
    匹配结果: <div>test1</div>
              <div>test2</div>

断言

断言不会匹配任何文本,只是对断言所在的文本施加某些约束

1. \b	匹配单词的边界,放在字符类[]中则表示backspace       

2. \B 匹配非单词边界,受ASCII标记影响       

3. \A  指定匹配必须出现在字符串的开头(忽略Multiline选项)。 
 
4. \Z 指定匹配必须出现在字符串的结尾或字符串结尾的\ n之前(忽略Multiline选项)。   

5. ^	在起始处匹配,如果有MULTILINE标志,则在每个换行符后匹配          

6. $	在结尾处匹配,如果有MULTILINE标志,则在每个换行符前匹配   

零宽断言

7. (?=exp)	也叫零宽度正预测先行断言,它断言自身出现的位置的后面能匹配表达式exp。   

8. (?<=exp)	也叫零宽度正回顾后发断言,它断言自身出现的位置的前面能匹配表达式exp。

负向零宽断言

9. (?!e)	零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。      

10.(?<!e)	零宽度负回顾后发断言来断言此位置的前面不能匹配表达式exp:

这里以^和$来说明,^和$分别代表的是起始位置和结束位置,不会匹配任务字符

验证用户名格式
假设要求用户名只能由字母开头,后面可以跟字母、数字或下划线,且长度在 3 到 16 位之间。
正则表达式:^[a-zA-Z][a-zA-Z0-9_]{2,15}$
解释:
^ 表示匹配字符串的开头,确保用户名是以字母开头。
[a-zA-Z] 匹配单个字母(大写或小写)。
[a-zA-Z0-9_]{2,15} 表示后面可以跟 2 到 15 个字母、数字或下划线。
$ 表示匹配字符串的结尾,确保整个用户名符合规定的长度和字符组成。

(?=exp) 和(?<=exp)的案例
提取文件名中的编号(文件命名有一定规则):
假设文件命名格式为 “文件_编号.txt”,如 “报告_001.txt”,我们想提取编号部分。
可以使用正则表达式(?<=\_)[0-9]{3}(?=\.txt)。
解释:
    (?<=\_)是正向肯定回顾,表示在当前位置之前(但不包括当前位置)必须有一个 “_” 字符。
    [0-9]{3}匹配 3 个数字,
    (?=\.txt)是正向肯定预查,表示在当前位置之后(但不包括当前位置)必须有一个 “.txt”。

修饰符(标记)

标记也称为修饰符,正则表达式的标记用于指定额外的匹配策略。

标记不写在正则表达式里,标记位于表达式之外。

修饰符含义描述
iignore - 不区分大小写将匹配设置为不区分大小写,搜索时不区分大小写: A 和 a 没有区别。
gglobal - 全局匹配查找所有的匹配项。
mmulti line - 多行匹配使边界字符 ^ 和 $ 匹配每一行的开头和结尾,记住是多行,而不是整个字符串的开头和结尾。
s特殊字符圆点 . 中包含换行符 \n默认情况下的圆点 . 是匹配除换行符 \n 之外的任何字符,加上 s 修饰符之后, . 中包含换行符 \n。

在vscode中使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/926282.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

spring-boot-maven-plugin 标红

情况&#xff1a;创建好 Spring Boot 项目后&#xff0c;pom.xml 文件中 spring-boot-maven-plugin 标红。 解决方案&#xff1a;加上 Spring Boot 的版本即可解决。

关于IDE的相关知识之三【插件安装、配置及推荐的意义】

成长路上不孤单&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a;&#x1f60a; 【14后&#x1f60a;///C爱好者&#x1f60a;///持续分享所学&#x1f60a;///如有需要欢迎收藏转发///&#x1f60a;】 今日分享关于ide插件安装、配置及推荐意义的相关内容…

《通俗易懂 · JSqlParser 解析和构造SQL》

&#x1f4e2; 大家好&#xff0c;我是 【战神刘玉栋】&#xff0c;有10多年的研发经验&#xff0c;致力于前后端技术栈的知识沉淀和传播。 &#x1f497; &#x1f33b; 希望大家多多支持&#xff0c;后续会继续提升文章质量&#xff0c;绝不滥竽充数&#xff0c;欢迎多多交流…

MySQL底层概述—7.优化原则及慢查询

大纲 1.Explain概述 2.Explain详解 3.索引优化数据准备 4.索引优化原则详解 5.慢查询设置与测试 6.慢查询SQL优化思路 1.Explain概述 使用Explain关键字可以模拟查询优化器来执行SQL查询语句&#xff0c;从而知道MySQL是如何处理SQL语句的&#xff0c;从而分析出查询语句…

从扩散模型开始的生成模型范式演变--SDE

SDE是在分数生成模型的基础上&#xff0c;将加噪过程扩展时连续、无限状态&#xff0c;使得扩散模型的正向、逆向过程通过SDE表示。在前文讲解DDPM后&#xff0c;本文主要讲解SDE扩散模型原理。本文内容主要来自B站Up主deep_thoughts分享视频Score Diffusion Model分数扩散模型…

NeuIPS 2024 | YOCO的高效解码器-解码器架构

该研究提出了一种新的大模型架构&#xff0c;名为YOCO&#xff08;You Only Cache Once&#xff09;&#xff0c;其目的是解决长序列语言模型推理中的内存瓶颈。YOCO通过解码器-解码器结构的创新设计&#xff0c;显著减少推理时的显存占用并提升了长序列的处理效率。 现有大模…

Android 设备使用 Wireshark 工具进行网络抓包

背景 电脑和手机连接同一网络&#xff0c;想使用wireshark抓包工具抓取Android手机网络日志&#xff0c;有以下两种连接方法&#xff1a; Wi-Fi 网络抓包。USB 网络共享抓包。需要USB 数据线将手机连接到电脑&#xff0c;并在开发者模式中启用 USB 网络共享。 查看设备连接信…

腾讯云 AI 代码助手:单元测试应用实践

引言 在软件开发这一充满创造性的领域中&#xff0c;开发人员不仅要构建功能强大的软件&#xff0c;还要确保这些软件的稳定性和可靠性。然而&#xff0c;开发过程中并非所有任务都能激发创造力&#xff0c;有些甚至是重复且乏味的。其中&#xff0c;编写单元测试无疑是最令人…

修改Docker 默认存储目录( Docker Root Dir: /var/lib/docker)

Docker 默认将所有的数据&#xff08;包括镜像、容器、卷等&#xff09;存储在 /var/lib/docker 目录下。这个目录默认被配置在系统的根分区或者较小的分区上。随着容器化应用的增加&#xff0c;或者 Docker 容器和镜像的数量增加&#xff0c;默认存储位置可能会迅速填满&#…

芯片测试-射频中的单位

射频中的单位 &#x1f4a2;dB&#xff0c;dBc&#x1f4a2;&#x1f4a2;dB&#x1f4a2;&#x1f4a2;dBc&#x1f4a2;&#x1f4a2;3dB和0dB&#x1f4a2; &#x1f4a2;dBm和dBw&#x1f4a2;&#x1f4a2;dBuV&#xff0c;dBmV和dBV&#x1f4a2;&#x1f4a2;dBuV&#…

hls视频流学习

hls格式播放的依赖安装&#xff1a; <!-- 新增hls播放库 -->npm install hls.js 组件封装&#xff1a; <template><div class"hls-player-cls"><video ref" video" controls style"width: 100%; max-width: 800px;">…

SAP Native SQL 的简单说明

Open SQL访问数据字典中声明的数据库表&#xff0c;不区分数据库类型&#xff0c;执行时会自动转换为对应的语句&#xff0c;且可以使用本地缓存。Native SQL使用特定于数据库的SQL语句,但是可以访问比Open SQL 更多的表&#xff0c;更多的操作&#xff0c;缺点也很明显&#x…

Python学习笔记之IP监控及告警

一、需求说明 作为一名运维工程师&#xff0c;监控系统必不可少。不过我们的监控系统往往都是部署在内网的&#xff0c;如果互联网出口故障&#xff0c;监控系统即使发现了问题&#xff0c;也会告警不出来&#xff0c;这个时候我们就需要补充监控措施&#xff0c;增加从外到内的…

QT去除窗口边框(无边框)

ch21_TencentMeetingLogin::ch21_TencentMeetingLogin(QWidget *parent): QDialog(parent) {ui.setupUi(this);this->setWindowFlags(Qt::FramelessWindowHint);//去除窗口边框 } 但此时窗口不能拖动且点击任务栏程序图标不能最小化&#xff01; this->setWindowFlags(Q…

vue实现弹窗输入验证码

实现思路&#xff1a;前端输入完账号和密码&#xff0c;点击登录按钮的时候&#xff0c;弹出一个输入验证码的窗口&#xff0c;后端把验证码图片通过base64的字符传给前端&#xff0c;前端把字符当成图片展示出来。输入完验证码&#xff0c;点击确认进行登录&#xff0c;把验证…

1.Shell变量

1.shell变量介绍 Linux Shell中的变量分为&#xff1a; 系统变量 和 用户自定义变量系统变量&#xff1a;$HOME、$PWD、$SHELL、$USER等等, 比如 echo $HOME显示当前shell所有变量 :set 2.自定义变量 2.1 语法规则 # 基本语法 1. 定义变量: 变量名值 2. 撤销变量: unset变量…

多线程篇-4--重点概念1(volatile,Synchronized,内存屏障,MESI协议)

一、volatile &#xff08;1&#xff09;、简述 volatile是java提供的一个关键字&#xff0c;英文意思为不稳定的。 可以保障被声明对象的可见性和一定程度上的有序性&#xff0c;但不能保证操作的原子性。 当一个变量被声明为volatile时&#xff0c;意味着该变量的值会直接从…

使用Yarn标签能力实现任务资源隔离

我们在工作或自己研究的时候&#xff0c;一般不关注yarn的lable能力&#xff0c;这主要因为业内大部分用的是公有云&#xff0c;即使有私有云或者是独占集群&#xff0c;集群的运维通常也是抛给厂商了&#xff0c;所以这就导致Label的能力被忽视了&#xff0c;并且这个能力默认…

大数据新视界 -- 大数据大厂之 Hive 数据质量监控:实时监测异常数据(下)(18/ 30)

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…

基础(函数、枚举)错题汇总

枚举默认从0开始&#xff0c;指定后会按顺序赋值 而这个枚举变量X&#xff0c;如果在全局&#xff08;函数外部&#xff09;定义&#xff0c;那默认为0&#xff0c;如果在函数内部&#xff08;局部变量&#xff09;&#xff0c;那就是随机值&#xff0c;必须初始化。 枚举变量…