正则表达式的使用

1、正则表达式-教程

  正则表达式:文本模式,包括普通字符(例如,a到z之间的字母)和特殊字符(称为元字符)。

  正则表达式使用单个字符串来描述,匹配一系列匹配某个句法规则的字符串。

2、正则表达式-语法

  正则表达式描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式是由普通字符(例如字符a-z)以及特殊字符(称为“元字符”)组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

2.1普通字符

  普通字符包括没有显示指定为元字符的所有可打印和不可打印字符。这包括所有大写和小写字符、所有数字、所有标点符号和一些其他符号。

 

2.2 非打印字符

  非打印字符也可以是正则表达式的组成部分。下列列出了表示非打印字符的转义序列:

字符

描述

\cx

匹配由x指明的控制字符。比如\cM匹配一个Control-M或回车符。

x的值必须为A-Z或a-z之一。

\f

匹配一个换页符。=\x0c或=\cL

\n

匹配一个换行符。=\x0a或\cJ

\r

匹配一个回车符。=\x0d和\cM

\s

匹配任何空白字符,包括空格、制表符、换页符等待。=[\f\n\r\t\v]

\S

匹配任何非空白字符。=[^ \f\n\r\t\v]

\t

匹配一个制表符。=\x09和\cl

\v

匹配一个垂直制表符。=\x0b和 \cK

2.3 特殊字符

  特殊字符,就是有一些特殊含义字符。

特别字符

描述

$

匹配输入字符串的结尾位置。如果要匹配本身,需要进行转义,使用\$.

()

标记一个子表达式的开始和结束位置。

*

匹配前面的子表达式0或多次。如果要匹配本身,需要进行转义,使用\*

+

匹配前面的子表达式1或多次。如果要匹配本身,需要进行转义,使用\+

.

匹配除换行符\n之外的任何单个字符。匹配.,使用\.

[

标记一个中括号表达式的开始。要匹配[,使用\[

?

匹配前面的子表达式0或1次,或指明一个非贪婪限定符。要匹配?字符,使用\?

^

匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合。要匹配^,使用\^

{

标记限定符表达式的开始。要匹配{,使用\{

|

指明两项之间的一个选择。要匹配|,请使用\|


2.4 限定符

  限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。正则表达式中的几种重复模式。

正则表达式的限定符有:

字符(语法)

描述(说明)

*

匹配前面的子表达式0或多次。

+

匹配前面的子表达式1或多次。

匹配前面的子表达式0或1次。

{n}

n是一个非负整数。匹配确定的n次。

{n,}

n是一个非负整数,至少匹配n次。

{n,m}

m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。

*、+限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有它们的后面加上一个?就可以实现非贪婪或最小匹配。

贪婪:下面的表达式匹配从开始小于符号(<)到关闭大于符号(>)之间的所有内容。

比如:<h1>RUNOOB-菜鸟教程</h1>

/<.*>/ 

非贪婪:如果您只需要匹配开始和结束h1标签,下面的非贪婪表达式只匹配<h1>。

/<.*?>/ 

2.5定位符

定位符能使正则表达式固定到行首或行尾。定位符用来描述字符串或单词的边界,^和$分别指字符串的开始与结束,\b描述单词的前或后边界,\B表示非单词边界。

字符

描述

^

匹配输入字符串开始的位置。

$

匹配输入字符串结尾的位置。

\b

匹配一个单词边界,即字与空格间的位置。

\B

非单词边界匹配。比如chapter和aptitude,apt出现在单词chapter中的非单词边界处,但出现在单词aptitude中的单词边界处。

注意:不能将限定符与定位符一起使用。由于在紧靠换行或单词边界的前面或后面不能有一个以上位置,因为不允许诸如^*之类的表达式。

选择:用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。但用圆括号会有一个副作用,使相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。

其中?:是非捕获元之一,还有两个非捕获元是?=和?!。

?=:正向预查,在任何开始匹配圆括号内的正则表达式的位置来匹配搜索字符串。

?!:负向预查,在任何开始不匹配该正则表达式模式的位置来匹配搜索字符串。

反向引用:对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中,所捕获的每个子匹配都按照在正则表达式中从左到右出现的顺序存储。缓冲区编号从1开始,最多可存储99个捕获的子表达式。

可以使用非捕获元字符?:,?=;?!来重写捕获,忽略对相关匹配的保存。

比如例子1:Is is the cost of of gasoline going up up?

该正则表达式:/\b([a-z]+) \1\b/ig   #[a-z]+ 表示1个或多个字母。\1指定第一个子匹配项。g表示全局变量,i忽略大小写。

例子2:要匹配taobao taobao ,home home这样的情况如何处理?

正则表达式:\b(\w+)\b\s+\1\b

正则表达式给匹配项命名:\b(?<Word>\w+)\b\s+\k<Word>\b

                

 

3、正则表达式-元字符

字符

描述

\

将下一个字符标记为特殊字符、或原义字符、或向后引用、或八进制转义符。例如n 匹配字符n,\n匹配换行符。匹配\,使用\\;匹配(,使用\(

^

匹配输入字符串的开始位置,除非在方括号表达式中使用,当该符号在方括号表达式中使用时,表示不接受该方括号表达式中的字符集合。要匹配^,使用\^

$

匹配输入字符串的结尾位置。如果要匹配本身,需要进行转义,使用\$.

*

匹配前面的子表达式0或多次。

+

匹配前面的子表达式1或多次。如果要匹配本身,需要进行转义,使用\+

匹配前面的子表达式0或1次,或指明一个非贪婪限定符。要匹配?字符,使用\?

{n}

n是一个非负整数。匹配确定的n次。

{n,}

n是一个非负整数,至少匹配n次。

当该字符紧跟在任何一个其他限制符(*、+、?、{n}、{n,}、{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如对于字符串"oooo",'0+?'将匹配单个"o","o+"将匹配所有'o'.

.

匹配除换行符\n之外的任何单个字符。匹配.,使用\.

(pattern)

匹配pattern并获取这一匹配。

(?:pattern)

匹配pattern但不获取这一匹配,即这是一个非获取匹配,不进行存储供以后使用。比如'industr(?:y|ies)就是一个比'industry|industries'更简单的表达式。

(?=pattern)

正向肯定预查(look ahead positive assert),在任何匹配pattern的字符串开始处匹配查找字符串。非获取匹配,该匹配不需要获取供以后使用。比如“windows(?=95|98|NT|2000)”能匹配windows2000中的windows,但不能匹配windows3.1中的windows.预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

(?!pattern)

正向否定预查(negative assert),在任何不匹配pattern的字符串开始处匹配查找字符串。非获取匹配,也就是说,该匹配不需要获取供以后使用。比如“windows(?!95|98|NT|2000)”不能匹配windows2000中的windows,但能匹配windows3.1中的windows.预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

(?<=pattern)

反向(look behind)肯定预查,与正向肯定预查方向相反。比如“(?<=95|98|NT|2000)windows”能匹配2000windows中的windows,但不能匹配3.1windows中的windows.

(?<!parttern)

反向(look behind)否定预查,与正向否定预查方向相反。比如“(?<!95|98|NT|2000)windows”不能匹配2000windows中的windows,但能匹配3.1windows中的windows.

x|y

匹配x或y。比如,'z|food'能匹配'z'或'food'。‘(z|f)ood’则匹配"zood"或"food".

[xyz]

字符集合。匹配所包含的任意一个字符。比如'[abc]'可以匹配'plain'中的'a'.

[^xyz]

负值字符集合。匹配未包含的任意字符,例如'[^abc]'可以匹配’plain'中的‘p’、'l'、'i'、'n'.

[a-z]

字符范围。匹配指定范围内的任意字符。例如'[a-z]'可以匹配'a'到'z'范围内的任意小写字母字符。

[^a-z}

负值字符范围。匹配任何不在指定范围内的任意字符。例如'[^a-z]'可以匹配任何不在'a'到'z'范围内的任意小写字符。

\b

匹配一个单词边界,即字与空格间的位置。例如,'er\b'可以匹配"never"中的"er",但不能匹配"verb"中的"er"

\B

匹配非单词边界。例如,'er\B'不可以匹配"never"中的"er",但能匹配"verb"中的"er"

\cx

匹配由x指明的控制字符。比如\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。

\d

匹配一个数字字符。等价于[0-9]

\D

匹配一个非数字字符。等价于[^0-9]

\f

匹配一个换页符。等价于\x0c和=\cL

\n

匹配一个换行符。等价于\x0a或\cJ

\r

匹配一个回车符。等价于\x0d和\cM

\s

匹配任何空白字符,包括空格、制表符、换页符等待。=[\f\n\r\t\v]

\S

匹配任何非空白字符。=[^ \f\n\r\t\v]

\t

匹配一个制表符。=\x09和\cl

\v

匹配一个垂直制表符。=\x0b和 \cK

\w

匹配字母、数字、下划线。等价于[A-Za-z0-9_]

\W

匹配非字母、数字、下划线。等价于[^A-Za-z0-9_]

\xn

匹配n,其中n为十六进制转义值。例如'\x41'匹配“A”。'\x041'则等价于‘\x04' & '1'.

\num

匹配num.

\n

标识一个八进制转义值或一个向后引用。如果 \n 之前至少 n 个获取的子表达式,则 n 为向后引用。否则,如果 n 为八进制数字 (0-7),则 n 为一个八进制转义值。

\nm

标识一个八进制转义值或一个向后引用。如果 \nm 之前至少有 nm 个获得子表达式,则 nm 为向后引用。如果 \nm 之前至少有 n 个获取,则 n 为一个后跟文字 m 的向后引用。如果前面的条件都不满足,若 n 和 m 均为八进制数字 (0-7),则 \nm 将匹配八进制转义值 nm。

\nml

如果 n 为八进制数字 (0-3),且 m 和 l 均为八进制数字 (0-7),则匹配八进制转义值 nml。

\un

匹配 n,其中 n 是一个用四个十六进制数字表示的 Unicode 字符。例如, \u00A9 匹配版权符号 (?)。

其中零宽断言:

?=exp 零宽度正预测先行断言,自身出现的位置的后面能匹配表达式exp。

比如:I’m singing while you’re dancing.

正则表达式:\b\w+(?=ing\b)

?<=exp 零宽度正向顾后发断言,自身出现的位置的前面能匹配表达式exp.

比如:reading a book

正则表达式:(?<=\bre)\w+\b

负向零宽断言:

查找这样的单词--它里面出现了字母q,但是q后面跟的不是字母u。

正则表达式:\b\w*q[^u]\w*\b,存在一个问题,[^u]占位的问题。

?!=exp 负向零宽断言:\b\w*q(?!u)\w*\b 并不消费任何字符

\d{3}(?!\d)匹配3位数字,而且这3位数字的后面不能是数字。

\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。

?<! 零宽度负回顾后发断言。

(?<![a-z])\d{7} 匹配前面不是小写字母的七位数字。

4、正则表达式-运算符优先级

正则表达式从左到右进行计算,并遵循优先级顺序,与算数表达式类似。

相同优先级的从左到右进行计算,不同优先级的运算先高后低。

运算符

描述

\

转义符

(),(?:),(?=),[]

圆括号和方括号

*,+,?,{n},{n,},{n,m}

限定符

^,$,\任意元字符,任意字符

定点位和序列(即:位置和顺序)

|

替换,“或”操作,字符具有高于替换运算符的优先级,使得"m|food"匹配"m"或"food"。如要匹配"mood"或"food",请使用括号创建子表达式,从而产生"(m|f)ood"

5、正则表达式-匹配规则

5.1 基本模式匹配

模式:正则表达式最基本的元素,它们是一组描述字符串特征的字符。比如:

^once 包含了特殊字符^,表示开头,表示该模式只匹配以once开头的字符串。匹配”once upon a time”,不匹配”There once was a man from NewYork”.

bucket$ ,$符号用来匹配那些以给定模式结尾的字符串。匹配”who kept all of this cash in a bucket”,不匹配buckets.

^bucket$ 同时使用^和$,表示精确匹配.

5.2 字符簇

字符簇:描述我们要的模式的方法。要建立一个表示所有元音字符的字符簇,就把所有的元音字符放在一个方括号里:[AaEeIiOoUu].

[a-z] //匹配所有的小写字母

[A-Z] //匹配所有的大写字母

[a-zA-Z]   //匹配所有的字母

[0-9] ==\d //匹配所有的数字

[a-z0-9A-Z_]==\w  //匹配所有的字母、数字、下划线

[0-9\.\-]   //匹配所有的数字,句号和减号

[ \f\r\t\n]   //匹配所有的白字符

6 正则表达式-示例

6.1 简单表达式

正则表达式最简单形式实在搜索字符串中匹配其本身的单个普通字符。例如,单字符模式,同事也可以将血多单字符组合起来以形成大的表达式。(不需要串联运算符,只需要在一个字符后面键入另一个字符)

/a/

/7/

/M/

/a7M/

6.2 字符匹配

句点(.)匹配字符串中的各种打印或非打印字符,只有一个字符例外(换行符\n)。比如aac、abc、acc、adc、a1c、a2c、a-c、a#c。

/a.c/

6.3 中括号表达式

若要创建匹配字符组的一个列表,请在方括号([和])内放置一个或更多单个字符。当字符括在中括号内时,该列表称为”中括号表达式”。

比如Chapter1、Chapter2、Chapter3、Chapter4、Chapter5。

如上用正则表达式为:/Chapter [12345]/   或者/Chapter [1-5]/

6.4 替换和分组

替换使用|字符来语序在两个或多个替换选项之间进行选择。例如,可以扩展章节标题正则表达式,以返回比章节标题更广的匹配项。

比如:/^Chapter|Section [1-9][0-9]{0,1}$/

该表达式要么匹配行首的Chapter,要么匹配行尾的单词Section及跟在其后的任何数字。

比如:/^(Chapter|Section) [1-9][0-9]{0,1}$/

该表达式周围的括号捕获两个匹配字中的任一个供以后使用。

分组将子表达式进行做成子集,使用()进行分组,方便对match的字符串进行划分。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/67604.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何卸载SOLIDWORKS软件?

本文将为您提供一份简易指南&#xff0c;介绍如何正确卸载SOLIDWORKS软件&#xff0c;并分享一些注意事项&#xff0c;确保您的卸载过程顺利进行。 SOLIDWORKS软件作为一款强大的三维设计和工程分析工具&#xff0c;为许多工程师提供了优良的创作平台。然而&#xff0c;有时候我…

Redis-简单动态字符串(SDS)

文章目录 文章概要SDS数据结构定义SDS和C字符串的区别总结参考 文章概要 本篇文章&#xff0c;我们来学习Redis字符串的编码格式SDS编码&#xff0c;文章将将从以下几个方面介绍SDS&#xff1a; SDS的底层数据结构定义Redis是C写的&#xff0c;那SDS和C中的字符串的区别是什么…

OpenMV 自适应颜色阈值

目录 演示视频 思路讲解 OprnMV代码 演示视频 备战2023电赛~openmv自适应颜色阈值&#xff08;附源代码网盘链接&#xff09; 思路讲解 1. 参考openmv官方例程讲解10-Color-Tracking->image_statistics_info图像统计信息https://book.openmv.cc/example/10-Color-Trackin…

【Linux】gcc编译器的使用和介绍

目录 一&#xff0c;GCC简介 二&#xff0c;GCC的主要组件 三&#xff0c;GCC的工作流程 四&#xff0c;GCC的一些重要特性和功能 五&#xff0c;GCC常用的编译选项 六&#xff0c;GCC的输入输出选项的具体用法 七&#xff0c;GCC的参考文档 一&#xff0c;GCC简介 GCC&…

AI语音工牌在通讯行业营业大厅场景应用

在运营商营业大厅中&#xff0c;每天都有大量的客户来访咨询、办理业务。同时也会经常产生大量的客诉纠纷和服务差评。但因为缺乏有效的管理工具&#xff0c;加上线下沟通场景的数据采集难度高&#xff0c;数字化程度低&#xff0c;管理一直处于盲区。如何有效的管控营业厅人员…

2023最新Windows编译ffmpeg详细教程,附msys2详细安装配置教程

安装MSYS2 msys2是一款跨平台编译套件&#xff0c;它模拟linux编译环境&#xff0c;支持整合mingw32和mingw64&#xff0c;能很方便的在windows上对一些开源的linux工程进行编译运行。 类似的跨平台编译套件有&#xff1a;msys&#xff0c;cygwin&#xff0c;mingw 优势&…

【密码学】六、公钥密码

公钥密码 1、概述1.1设计要求1.2单向函数和单向陷门函数 2、RSA公钥密码体制2.1加解密2.2安全性分析 3、ElGamal公钥密码体制3.1加解密算法3.2安全性分析 4、椭圆曲线4.1椭圆曲线上的运算4.2ECC 5、SM2公钥密码体制5.1参数选取5.2密钥派生函数5.3加解密过程5.3.1初始化5.3.2加密…

Maven引入本地jar包

maven做为一种强大的依赖管理工具&#xff0c;可以帮助我们更方便的管理项目中的依赖&#xff1b;而在使用过程中我们难免会有需要引入本地jar包的需求&#xff0c;这里踩过坑之后我分享俩种引入方式&#xff1b; 1.上传jar到本地maven仓库&#xff0c;再引入 使用此方法后可…

最强自动化测试框架Playwright-操作指南(3)-PO模式

playwright支持PO模式 创建页面对象 class SearchPage:def __init__(self, page):self.page pageself.search_term_input page.get_by_role("searchbox", name"输入搜索词")def navigate(self):self.page.goto("https://bing.com")def searc…

探索远程访问内网群晖NAS 6.X(使用独立域名)【内网穿透】

使用自己的域名远程访问内网群晖NAS 6.X【内网穿透】 文章目录 使用自己的域名远程访问内网群晖NAS 6.X【内网穿透】 在之前的文章中&#xff0c;我们向大家演示了如何使用cpolar&#xff0c;创建一条固定的、能够在公共互联网登录内网群晖NAS的数据隧道。这条隧道已经能够应对…

ASEMI快恢复二极管APT80DQ20BG怎么检查好坏

编辑-Z 二极管APT80DQ20BG是一种高压快恢复二极管&#xff0c;常用于电源和电能质量控制等领域。如果您的二极管出现故障或需要进行维修&#xff0c;以下是一些可能的解决方案。 首先&#xff0c;确保您已经断开了电源&#xff0c;并且具备基本的电子维修知识和技能。如果您不…

Linux:shell脚本:基础使用(3)

for循环语句 语句格式 for for变量 in 取值列表&#xff08;可以是变量或者自己定义&#xff09; do 循环内容 done 工作方式就是通过取值列表去判断循环的次数&#xff0c;每次循环的同时把列表一行的值赋予到for变量。取值方式如果是数字&#xff0c;那就通过数字去…

neo4j查询语言Cypher详解(二)--Pattern和类型

Patterns 图形模式匹配是Cypher的核心。它是一种用于通过应用声明性模式从图中导航、描述和提取数据的机制。在MATCH子句中&#xff0c;可以使用图模式定义要搜索的数据和要返回的数据。图模式匹配也可以在不使用MATCH子句的情况下在EXISTS、COUNT和COLLECT子查询中使用。 图…

【计算机网络笔记】第一章

1、计算机网络定义 计算机网络主要是由一些通用的、可编程的硬件&#xff08;包含CPU、计算机、手机、智能电器…&#xff09;互连而成的&#xff0c;而这些硬件并非专门用来实现某一特定目的&#xff08;例如&#xff0c;传送数据或视频信号&#xff09;。这些可编程的硬件能…

机器学习深度学习——池化层

&#x1f468;‍&#x1f393;作者简介&#xff1a;一位即将上大四&#xff0c;正专攻机器学习的保研er &#x1f30c;上期文章&#xff1a;机器学习&&深度学习——卷积的多输入多输出通道 &#x1f4da;订阅专栏&#xff1a;机器学习&&深度学习 希望文章对你们…

【解决问题】手动执行maven命令安装指定jar包到本地仓库

背景&#xff1a; 有一个三方jar从远程仓库始终没有拉下来&#xff0c;没办法只能自己去下载&#xff0c;但是自己下载下来&#xff0c;不能直接建立个目录放到本地仓库&#xff0c;需要执行命令才行 操作 命令&#xff1a; mvn install:install-file -DgroupIdcom.alipay …

分享讨论学习IT上培训班有用吗?个人感悟

不知不觉一入行2年有余&#xff0c;回顾自己转行的学习历程&#xff0c;历历在目。我对培训机构好感度为0&#xff01; IT分行业发展未来&#xff0c;前景还是很好的&#xff0c;但是入门方向很重要&#xff0c;要选择什么方向去学学完才有钱景&#xff0c;需要自己 &#xff0…

在java集合HashMap中如何替换某一个键值

replace() 方法替换 hashMap 中是指定的 key 对应的 value。 replace() 方法的语法为&#xff1a; hashmap.replace(K key, V newValue) 或 hashmap.replace(K key, V oldValue, V newValue)示例代码如下&#xff08;把hashmap集合中的值为USA 的记录替换 成“US”&#xff0…

数据结构入门:队列

目录 文章目录 前言 1.队列 1.1 队列的概念及结构 1.2 队列的实现 1.2.1 队列的定义 1.2.2队列的初始化 1.2.3 入队 1.2.4 判空 1.2.5 出队 1.2.6 队头队尾数据 1.2.7 队列长度 1.2.8 队列销毁 总结 前言 队列&#xff0c;作为一种重要的数据结构&#xff0c;在计算机科学中扮演…

Metamask登录方式集成

Metamask登录 https://www.toptal.com/ethereum/one-click-login-flows-a-metamask-tutorial#how-the-login-flow-works 参考&#xff1a; https://zh.socialgekon.com/one-click-login-with-blockchain 后端需要在用户表中增加address和nonce字段。兼容其他登录方式&#xff0…