Python基础10-使用正则表达式进行文本处理

在编程过程中,我们经常需要对文本进行处理,以提取、替换或分割特定的字符串。正则表达式(Regular Expression)是一种强大的文本处理工具,它可以帮助我们实现这些任务。以下是使用正则表达式进行文本处理的一些基本方法:
在这里插入图片描述

  1. 基本模式匹配

要在字符串中查找与模式匹配的项:

import re
text = "在这个字符串中搜索模式。"
match = re.search(r"模式", text)
if match:
    print("找到模式!")
  1. 编译正则表达式

要重复使用正则表达式,可以将其编译为模式对象:

pattern = re.compile(r"模式")
match = pattern.search(text)
  1. 匹配开头或结尾

要检查字符串是否以特定模式开头或结尾:

if re.match(r"^搜索", text):
    print("以 '搜索' 开头")
if re.search(r"模式。$", text):
    print("以 '模式。' 结尾")
  1. 查找所有匹配项

要在字符串中查找模式的所有出现:

all_matches = re.findall(r"t\w+", text)  # 查找以 't' 开头的单词
print(all_matches)
  1. 搜索和替换(替换)

要在字符串中替换模式的出现:

replaced_text = re.sub(r"句子", "语句", text)
print(replaced_text)
  1. 分割字符串

要根据模式在字符串中的出现进行分割:

words = re.split(r"\s+", text)  # 在一个或多个空格处拆分
print(words)
  1. 转义特殊字符

要匹配特殊字符,请对其进行转义:

escaped = re.search(r"\b搜索\b", text)  # \b 是单词边界
  1. 分组和捕获

要对模式的一部分进行分组并提取其值:

match = re.search(r"(\w+) (\w+)", text)
if match:
    print(match.group())  # 整个匹配
    print(match.group(1)) # 第一个组
  1. 非捕获组

要定义不捕获的组:

match = re.search(r"(?:\w+) (\w+)", text)
if match:
    print(match.group(1))  # 第一个(也是唯一的)组
  1. 前瞻和后顾断言

要根据模式前后的内容匹配模式,而不包括结果中的内容:

lookahead = re.search(r"\b\w+(?= 字符串)", text)  # 在 ' 字符串' 前的单词
lookbehind = re.search(r"(?<=搜索 )\w+", text)  # 在 '搜索 ' 后的单词
if lookahead:
    print(lookahead.group())
if lookbehind:
    print(lookbehind.group())
  1. 修改模式匹配行为的标志

要使用诸如 re.IGNORECASE 之类的标志更改模式匹配方式:

case_insensitive = re.findall(r"搜索", text, re.IGNORECASE)
print(case_insensitive)
  1. 使用命名组

要为组分配名称并按名称引用它们:

match = re.search(r"(?P<first>\w+) (?P<second>\w+)", text)
if match:
    print(match.group('first'))
    print(match.group('second'))
  1. 跨多行匹配

要使用 re.MULTILINE 标志在多行中匹配模式:

multi_line_text = "开始\n中间 结束"
matches = re.findall(r"^m\w+", multi_line_text, re.MULTILINE)
print(matches)
  1. 懒惰量词

要使用懒惰量词(*?、+?、??)尽可能少地匹配字符:

html = "<body><h1>标题</h1></body>"
match = re.search(r"<.*?>", html)
if match:
    print(match.group())  # 匹配 '<body>'
  1. 详细正则表达式

要使用 re.VERBOSE 获得更易读的正则表达式:

pattern = re.compile(r"""
    \b      # 单词边界
    \w+     # 一个或多个单词字符
    \s      # 空格
    """, re.VERBOSE)
match = pattern.search(text)

通过以上方法,我们可以在 Python 中使用正则表达式轻松地处理文本。在实际应用中,可以根据需要选择合适的方法来实现各种文本处理任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/578192.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

react-lib 读取本地模板创建PDF

读取本地文件和读取远程的一样&#xff0c;都使用fetch去获取 async function modifyPdf() {let url ./template.pdflet existingPdfBytes await fetch(url).then(res > res.arrayBuffer()) // 这里也有问题要转一下const d new Uint8Array(existingPdfBytes)const pdfDo…

Mysql索引规范及原理分析

1 Mysql存储引擎 MySQL中的数据用各种不同的技术存储在文件中&#xff0c;每一种技术都使用不同的存储机制、索引技巧、锁定水平并最终提供不同的功能和能力&#xff0c;这些不同的技术以及配套的功能在MySQL中称为存储引擎。 存储引擎是MySQL将数据存储在文件系统中的存储方…

235 基于matlab的时频盲源分离(TFBSS)算法

基于matlab的时频盲源分离&#xff08;TFBSS&#xff09;算法&#xff0c;TFBSS用空间频率分布来分离非平稳信号&#xff0c;可以分离具有不同时频分布的源信号&#xff0c;也能够分离具有相同谱密度但时频分布不同的高斯源。同时&#xff0c;该算法在时频域上局域化源信号能量…

39岁TVB靓仔小生自曝恋情,曾沦为洗车工如今半年赚足7位数

39岁高钧贤自从2005年参加香港先生选举夺冠后&#xff0c;之后加入TVB拍摄过多套电视剧集&#xff0c;最近更有份参与《逆天奇案2》&#xff0c;日前他回到TVB电视城一厂与冯盈盈宣传剧集&#xff0c;更随即拍摄短片纪录放在网上分享&#xff0c;意外曝光TVB餐厅餐单&#xff0…

如何使用IDEA直接连接MySQL数据库

如何使用IDEA直接连接MySQL数据库 新建一个空项目打开DataBase窗口连接数据库第一次连接 需要先下载驱动上一步驱动下载太慢怎么办&#xff1f;下载好驱动后 测试连接 新建一个空项目 打开DataBase窗口 连接数据库 第一次连接 需要先下载驱动 如果这里下载的很慢 看下一步解决…

DaVinci Fusion Studio 19 for Mac/win:影视后期特效合成的巅峰之作

在影视后期制作的广袤天地里&#xff0c;一款强大的特效合成软件如同一位技艺高超的魔法师&#xff0c;能够化腐朽为神奇&#xff0c;将普通的影像素材转变为震撼人心的视觉盛宴。而DaVinci Fusion Studio 19&#xff0c;正是这样一款备受影视从业者推崇的巅峰之作。 无论是Ma…

矩阵按列相乘运算的并行化实现方法

这两天一直在琢磨如下矩阵计算问题。 已知dm矩阵X和hq矩阵Y&#xff0c;求如下矩阵&#xff1a; 其中X(:,i), Y(:,j)分别表示矩阵X, Y的第i列和第j列&#xff0c;易知Z为dh矩阵。 如果直接串行计算矩阵Z&#xff0c;两个循环共有mq&#xff0c;则会很慢&#xff0c;能不能并行化…

【b站李同学的Lee】Part 3 服务器开发 NodeJS+Gulp基础入门+实战

课程地址&#xff1a;【NodeJSGulp基础入门实战】 https://www.bilibili.com/video/BV1aE411n737/?share_sourcecopy_web&vd_sourceb1cb921b73fe3808550eaf2224d1c155 目录 9 服务器端基础概念 9.1 网站的组成 9.2 Node网站服务器 9.3 IP地址 9.4 域名 9.5 端口 9…

SCSS全局配置 vue项目(二)

目录 1、先要查看node版本 2、安装对应的node-sass、sass-loader版本 2.1根据项目使用的node版本安装对应的node-sass版本 2.2根据node-sass版本选择兼容的sass-loader版本&#xff0c;不然项目无法正常运行 3、在 vue.config.js 中配置&#xff1a; 4、在组件中…

刷题训练之前缀和

> 作者&#xff1a;დ旧言~ > 座右铭&#xff1a;松树千年终是朽&#xff0c;槿花一日自为荣。 > 目标&#xff1a;熟练掌握前缀和算法。 > 毒鸡汤&#xff1a;学习&#xff0c;学习&#xff0c;再学习 ! 学&#xff0c;然后知不足。 > 专栏选自&#xff1a;刷题…

物联网的基本功能及五大核心技术——青创智通

工业物联网解决方案-工业IOT-青创智通 物联网基本功能 物联网的最基本功能特征是提供“无处不在的连接和在线服务”&#xff0c;其具备十大基本功能。 &#xff08;1&#xff09;在线监测&#xff1a;这是物联网最基本的功能&#xff0c;物联网业务一般以集中监测为主、控制为…

Vitis HLS 学习笔记--C/C++ static 关键字的作用

目录 1. 简介 2. c/c共有性质 3. c独有性质 4. 示例说明 5. static 对于 HLS 工具的影响 6. 总结 1. 简介 在Vitis HLS中&#xff0c;偶尔会用到 static 关键字。考虑到Vitis HLS同时兼容C和C语言&#xff0c;有必要理解这两种语言中static关键字细微差异。本文旨在梳理…

Centos7.9系统MySQL5.7.32升级为5.7.44(生成环境操作)

1.背景 由于客户进行等保漏扫和渗透&#xff0c;生成环境mysql数据库被扫描出了 高危漏洞。 如图&#xff1a;部分漏洞 查看漏洞详细信息&#xff0c;建议升级到指定版本解决&#xff1a; 说明&#xff1a; 本文仅适合使用当前数据库为 RPM 安装方式 2.升级前准备 查看环…

串口服务器可以直接连接工业路由器吗

串口服务器可以直接连接工业路由器吗 在工业物联网的架构中&#xff0c;串口服务器和工业路由器都是不可或缺的重要组件。串口服务器的主要功能是将串口通信转换为网络通信&#xff0c;实现数据的远程传输和管理&#xff1b;而工业路由器则负责在工业环境中提供稳定、可靠的网…

QT入门:计算圆面积的QT开始以及日历相关

QT入门&#xff1a;计算圆面积的QT开始以及日历相关 使用的工具为Qt creator 如图所示的为Qt的一个基本目录&#xff0c;首先打开mainwindow.ui进行设计&#xff0c;首先是讲解日历的&#xff0c;可以完全不用写代码&#xff0c;只在mainwindow.ui即可实现。 这是最后的一个成…

YES-2000B数显压力试验机技术方案书

一、简介 本机采用主机与液压系统集于一体的结构形式&#xff0c;结构紧凑&#xff0c;小巧玲珑。采用液压加荷、电子测力&#xff0c;具有加荷数率显示&#xff0c;峰值保持等功能&#xff0c;并配有微型打印机。 外观示意图 二、 液压系统 油箱内的液压油通过电机带动高压…

带宽内存服务器爆满,阿里云木马排查过程

服务器的连接数和带宽都暴增&#xff0c;导致项目直接宕机&#xff0c;无法使用的解决方案。 查看服务器实时流量 服务器内执行命令&#xff1a; yum install iftop -y iftop -Pn查看日志&#xff0c;发现服务器在对外访问 .148.232.186 的443端口。 于是设置安全组出方…

前端HTML5学习1(新增布局,状态,列表,文本,表单控件标签)

前端HTML5学习1&#xff08;新增布局&#xff0c;状态&#xff0c;列表&#xff0c;文本&#xff0c;表单控件标签&#xff09; 新增布局标签新增状态标签新增列表标签新增文本标签新增表单控件属性input新增属性值 新增布局标签 HTML5 引入了许多新的语义化标签&#xff0c;用…

各省铁路里程、公路里程、交通网密度面板数据(2000-2022年)

01、数据简介 铁路里程是指铁路线从起点到终点的公里数&#xff0c;通常用于表示铁路线路的长度。 公路里程是指一定时期内实际达到《公路工程技术标准》规定的等级公路&#xff0c;并经公路主管部门正式验收交付使用的公路里程数。 交通网密度是指某一区域内交通线路的密集…

直播任我行,智享AI自动直播手机塑造直播新风潮,引领行业“风口”

直播任我行&#xff01;智享AI自动直播手机塑造直播新风潮&#xff0c;引领行业“风口”&#xff01; 直播作为一种受欢迎的互联网传播方式&#xff0c;如今在帮助商家推广产品并获得更多收益方面发挥着重要作用。 在直播电商领域&#xff0c;主播是连接品牌和用户之间的关键纽…