【Linux】正则表达式

正则表达式是一种可供Linux工具过滤文本的自定义模板,Linux工具(如sed、gawk)会在读取数据时使用正则表达式对数据进行模式匹配。

正则表达式使用元字符来描述数据流中的一个或多个字符。它是由正则表达式引擎实现的。正则表达式引擎是一种底层软件,负责解释正则表达式并用这些模式进行文本匹配。

最流行的正则表达式引擎有两种:

POSIX基础正则表达式(basic regular expression,BRE)引擎;

POSIX扩展正则表达式(extended regular expression,ERE)引擎。

一、BRE模式

 最基本的BRE模式是匹配数据流中的文本字符。

1、普通文本

正则表达式匹配的第一条原则:区分大小写

正则表达式中也可以使用空格数字

 2、特殊字符

正则表达式能识别的特殊字符如下:

* [] ^ $ {} \ + ? | ()

 如果要将某个特殊字符视为普通字符,则必须用反斜线(\)将其转义。

# 匹配文本中的美元符号$
sed -n '/\$/p' test1.txt

转义反斜线(\)

正斜线(/) 虽然不属于正则表达式中的特殊字符,但也需要进行转义,否则会报错。

3、锚点字符

 有两个特殊字符可以用来将正则表达式模式锁定在数据流中的行首或者行尾,这两个特殊字符被称为锚点字符。

锚定行首

脱字符(^)可以指定位于数据流中文本行行首的模式,如果模式出现在行首之外的其它地方,则正则表达式无法匹配。

使用脱字符时必须将其置于正则表达式之前

如果将脱字符放在正则表达式开头之外的位置,sed就会将其视为普通字符进行匹配。

如果只是匹配脱字符,则不用进行转义。

如果要匹配脱字符及其它文本,则需要将脱字符进行转义。

锚定行尾

 特殊字符美元符号($)定义了行尾锚点。将其放在正则表达式之后则表示数据行必须以该模式结尾

 组合锚点

查找只含有特定文本模式的数据行。

将两锚点直接组合在一起,之间不加任何文本,可以过滤出数据流中的空行

如下所示,指定的正则表达式会查找行首和行尾之间什么都没有的那些行,由于空行在两个换行符之间没有文本,所以正好被匹配到。

这是一种从文本中删除空行的一种不错的方法。

sed '/^$/d' test1.txt

4、点号字符

 点号字符匹配除换行符以外的任意单个字符,它必须匹配一个字符

5、字符组

 可以在正则表达式中定义用来匹配某个位置的一组字符。如果字符组中的某个字符出现在了数据流中,那就匹配成功。

方括号用于定义字符组,在方括号中加入希望出现在该字符组中的所有字符,就可以在正则表达式中像其它字符一样使用字符组了。

不确定某个字符的大小写时:

 在单个正则表达式中可以使用多个字符组

字符组中也可以使用数字

6、排除型字符组

 可以反转字符组的作用,即匹配字符组中没有的字符。只需在字符组的开头添加脱字符即可。

如下所示,匹配除c或h之外的任何字符以及文本模式。其中空格也能被匹配到。

7、区间

 可以使用单连字符在字符组中表示字符区间。

还可以在字符组内指定多个不连续的区间。

如下所示,指定的范围是1到4个7到9。

 8、特殊字符组

BRE有一些特殊的字符组。

BRE特殊字符组
[[:alpha:]]匹配任意字母字符,无论是大写还是小写
[[:alnum:]]匹配任意字母数字字符,0~9,A~Z或a~z
[[:blank:]]匹配空格或制表符
[[:digit:]]匹配0~9中的数字
[[:lower:]]匹配小写字母a~z
[[:upper:]]匹配大写字母A~Z
[[:print:]]匹配任意可打印字符
[[:punct:]]匹配标点符号
[[:space:]]匹配任意空白字符:空格、制表符、换行符、分页符、回车符、垂直制表符

这些特殊字符组的用法和普通字符组的用法一样

9、星号*

 匹配次数大于等于0次。

这个特殊符号常用于处理有常见拼写错误或在不同语言中有拼写变化的单词。

 点号字符星号字符组合起来,能够匹配任意数量的任意字符,一般用在数据流中两个可能相邻或不相邻的字符串之间。

星号还能用于字符组,指定可能在文本中出现0次或多次的字符组或字符区间。

不能出现字符组以外的其它字符,否则就无法匹配到。

 二、ERE模式

gawk支持ERE模式,但sed不支持。前者可以使用大多数扩展的正则表达式符号,并能提供一些sed所不具备的额外过滤功能,但正因为如此,也使得gawk在处理数据时较慢。

1、问号?

匹配0次1次,不能匹配超过1次的多次。

问号也可以和字符组一起使用:如果字符组中的字符出现了0次或1次,就能匹配上;如果两个字符都出现或者其中一个出现了两次及以上,就不能匹配上。

2、加号+

 匹配1次或多次,必须至少1次。

它也可以用于字符组上,用法和星号、问号一样。

3、花括号{}

 可为正则表达式指定字符或字符组出现的可重复次数,称之为区间,有以下两种方式:

  • m:正则表达式恰好出现m次;
  • m,n:正则表达式至少出现m次,至多出现n次。

默认情况下,gawk不识别正则表达式区间,必须指定gawk的命令行选项--re-interval才行。

如下所示,只匹配一次e:

可以同时指定区间的下限上限

也可以用在字符组上:

字母a或e在文本模式中只出现了1~2次,则正则表达式匹配成功,否则,不成功。

字母a和e出现的次数加起来最多只能是2次。

 4、竖线符号|

竖线符号允许在检查数据流时,以逻辑OR方式指定正则表达式引擎要使用的两个或多个模式。如果其中任何一个模式成功匹配,就视为匹配成功,否则,则匹配失败。

格式:expr1|expr2|...

正则表达式和竖线符号之间不能有空格,否则竖线符号会被认为是正则表达式模式的一部分, 

 竖线符号两侧的子表达式可以采用正则表达式可用的任何模式符号,包括字符组。

如下所示,该正则表达式可以匹配cat、hat和dog。

5、正则表达式分组

 可以用圆括号对正则表达式进行分组。分组之后,每一组都会被视为一个整体,可以像对普通字符一样对该组应用特殊字符。

如下所示,该正则表达式可以让正则表达式能够匹配Sunday或者Sun。

 最常见的用法是将分组竖线符号结合起来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/954123.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

计算机视觉算法实战——步态识别(主页有源码)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​ ​​​​​​​​​​​​​​​​​​ 1. 步态识别简介✨✨ 步态识别(Gait Recognition)是计算机视觉领域中的一个…

【RTSP】使用webrtc播放rtsp视频流

一、简介 rtsp流一般是监控、摄像机的实时视频流,现在的主流浏览器是不支持播放rtsp流文件的,所以需要借助其他方案来播放实时视频,下面介绍下我采用的webrtc方案,实测可行。 二、webrtc-streamer是什么? webrtc-streamer是一个使用简单机制通过 WebRTC 流式传输视频捕获…

从0开始学习搭网站第二天

前言:今天比较惭愧,中午打铲吃了一把,看着也到钻二了,干脆顺手把这个赛季的大师上了,于是乎一直到网上才开始工作,同样,今天的学习内容大多来自mdn社区mdn 目录 怎么把文件上传到web服务器采用S…

【Pico串流预览】使用“PICO Unity Live Preview Plugin”和PDC工具进行实时预览

使用“PICO Unity Live Preview Plugin”和PDC工具进行实时预览 支持内容 支持预览的内容 虚拟场景手势追踪 支持操作系统 仅支持Windows 下载插件 PICO Unity Live Preview Plugin 当前版本:v1.0.4 更新时间: 2024-12-05 大小: 3.27MB …

poi处理多选框进行勾选操作下载word以及多word文件压缩

一、场景 将数据导出word后且实现动态勾选复选框操作 eg: word模板 导出后效果&#xff08;根据数据动态勾选复选框&#xff09; 二、解决方案及涉及技术 ① 使用poi提供的库进行处理&#xff08;poi官方文档&#xff09; ② 涉及依赖 <!-- excel工具 --><depen…

深入浅出负载均衡:理解其原理并选择最适合你的实现方式

负载均衡是一种在多个计算资源&#xff08;如服务器、CPU核心、网络链接等&#xff09;之间分配工作负载的技术&#xff0c;旨在优化资源利用率、提高系统吞吐量和降低响应时间。负载均衡的实现方式多种多样&#xff0c;以下是几种常见的实现方式&#xff1a; 1. 硬件负载均衡&…

基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用-以ENSO预测为例讲解

1. 背景与目标 ENSO&#xff08;El Nio-Southern Oscillation&#xff09;是全球气候系统中最显著的年际变率现象之一&#xff0c;对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来&#xff0c;深度学习技术在气象领域…

MySQL表格练习(单表查询,多表查询)

一,单表查询 素材&#xff1a; 素材&#xff1a; 表名&#xff1a;worker-- 表中字段均为中文&#xff0c;比如 部门号 工资 职工号 参加工作 等 CREATE TABLE worker ( 部门号 int(11) NOT NULL, 职工号 int(11) NOT NULL, 工作时间 date NOT NULL, 工资 float(8,2) NOT NUL…

postgresql分区表相关问题处理

1.使用pg_cron按日创建分区表&#xff0c;会出现所在数据库对应用户权限不足的问题。 原因是pg_cron运行在postgres数据库中&#xff0c;是用superuser进行执行的&#xff0c;对应的分区表的owner为postgres&#xff0c;所以需要单独授权对表的所有操作权限。不知道直接改变ow…

【数据结构】基础知识

目录 1.1 什么是数据结构 1.2数据 1.3 逻辑结构 1.4 存储结构 1.4.1 顺序存储 1.4.2 链式存储 1.4.3 索引存储 1.4.4 散列存储 1.5 操作 1.1 什么是数据结构 数据的逻辑结构以及存储操作 数据结构没有那么复杂&#xff0c;它就教会你一件事&#xff1a;如何更有效的…

空指针:HttpSession异常,SpringBoot集成WebSocket

异常可能性&#xff1a; 404 &#xff1a; 请检查拦截器是否将请求拦截WebSocket握手期间HttpSession为空 HttpSession为空 方法一 &#xff1a; 网上参考大量的文档&#xff0c;有说跟前端请求域名有关系的。 反正对我来说&#xff0c;没啥用无法连接。 需使用 localhost&a…

相机SD卡照片数据不小心全部删除了怎么办?有什么方法恢复吗?

前几天&#xff0c;小编在后台友收到网友反馈说他在整理相机里的SD卡&#xff0c;原本是想把那些记录着美好瞬间的照片导出来慢慢欣赏。结果手一抖&#xff0c;不小心点了“删除所有照片”&#xff0c;等他反应过来&#xff0c;屏幕上已经显示“删除成功”。那一刻&#xff0c;…

Observability:利用 GCP Vertex AI 集成提升 LLM 可观察性

作者&#xff1a;来自 Elastic Ishleen Kaur•Muthukumar Paramasivam 随着组织越来越多地将 LLM 用于内容创建、检索增强生成 (Retrieval-Augmented Generation - RAG) 和数据分析等 AI 应用&#xff0c;SRE 和开发人员面临着新的挑战。监控工作流、分析输入和输出、管理查询延…

WEB攻防-通用漏洞_XSS跨站_权限维持_捆绑钓鱼_浏览器漏洞

目录 XSS的分类 XSS跨站-后台植入Cookie&表单劫持 【例1】&#xff1a;利用beef或xss平台实时监控Cookie等凭据实现权限维持 【例2】&#xff1a;XSS-Flash钓鱼配合MSF捆绑上线 【例3】&#xff1a;XSS-浏览器网马配合MSF访问上线 XSS的分类 反射型&#xff08;非持久…

21、Transformer Masked loss原理精讲及其PyTorch逐行实现

1. Transformer结构图 2. python import torch import torch.nn as nn import torch.nn.functional as Ftorch.set_printoptions(precision3, sci_modeFalse)if __name__ "__main__":run_code 0batch_size 2seq_length 3vocab_size 4logits torch.randn(batch…

上传自己的镜像到docker hub详细教程

上传自己的镜像到docker hub详细教程 本博客通B站视频一致&#xff1a; 上传自己的镜像到docker hub详细教程 1. 登录自己的hub.docker.com的账号 docker hub仓库 2. 点击Repositories&#xff0c;跳转到创建仓库页面 3. 点击Create a repository 创建repository&#xff0c…

高级软件工程-复习

高级软件工程复习 坐标国科大&#xff0c;下面是老师说的考试重点。 Ruby编程语言的一些特征需要了解要能读得懂Ruby程序Git的基本命令操作知道Rails的MVC工作机理需要清楚&#xff0c;Model, Controller, View各司什么职责明白BDD的User Story需要会写&#xff0c;SMART要求能…

初学stm32 --- SPI驱动25Q128 NOR Flash

目录 SPI介绍 SPI结构框图介绍 SPI外设对应的引脚 SPI数据发送与接收 SPI工作原理 SPI 全双工模式的通信机制 从机返回主机之前保存的数据 SPI工作模式介绍 SPI相关寄存器介绍&#xff08;F1 / F4 / F7&#xff09; SPI控制寄存器1&#xff08;SPI_CR1&#xff09; SPI状…

yum系统报错:SyntaxError: multiple exception types must be parenthesized

执行yum相关步骤报错如下&#xff1a; File "/usr/bin/yum", line 30except KeyboardInterrupt, e:^^^^^^^^^^^^^^^^^^^^ SyntaxError: multiple exception types must be parenthesized原因&#xff1a;python解释器版本错误&#xff0c;yum运行版本为python 2.7&am…

STM32第5章、IWDG

一、简介 IWDG&#xff1a;全称是Independent watchdog&#xff0c;即独立看门狗。本质上是一个能产生系统复位信号的计数器。 特性&#xff1a; 是一个递减计数器。 时钟信号由独立的RC振荡器提供&#xff0c;可在待机和停止模式下运行。 看门狗被激活后&#xff0c;当递减计…