正则表达式
正则表达式是一个特殊的字符序列,计算机科学的一个概念。通常被用来检索、替换那些符合某个模式(规则)的文本。
许多程序设计语言都支持利用正则表达式进行字符串操作。在Python中需要通过正则表达式对字符串进行匹配的时候,可以使用re模块。re 模块使 Python 语言拥有全部的正则表达式功能。
特点:
-
灵活性、逻辑性和功能性非常强;
-
可以迅速地用极简单的方式达到字符串的复杂控制。
-
对于刚接触的人来说,比较晦涩难懂。
Python中的正则表达式
与大多数编程语言相同,正则表达式里也使用\
作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符\
,那么使用编程语言表示的正则表达式里将需要4个反斜杠\
:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。
print(re.match('\\\\', '\hello')) # 需要使用四个反斜杠来匹配一个 \
Python里的原生字符串很好地解决了这个问题,有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。在Python 字符串前面添加r
即可将字符串转换成为原生字符串。
print(re.match(r'\\', '\hello')) # 使用两个反斜杠即可匹配一个 \
正则查找
查找方法的使用
在Python中的查找匹配方法,常见的有下面四种,他们的用法大致相同,但是匹配出的结果却不同。
- match方法(只匹配字符串开头)
- search方法(扫描整个字符串,找到第一个匹配)
- findall方法(扫描整个字符串,找到所有的匹配)
- finditer方法(扫描整个字符串,找到所有的匹配,并返回一个可迭代对象)
match方法的使用
re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。
函数语法:
re.match(pattern,string,flags=0)
参数 | 描述 |
---|---|
pattern | 匹配的正则表达式 |
string | 要匹配的字符串。 |
flags | 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。 |
我们可以使用group(num)函数来获取匹配表达式。
import re
result1 = re.match(r'H','Hello')
result2 = re.match(r'e','Hello')
print(result1.group(0)) # 'H' 匹配到的元素
print(result1.span()) # (0,1) 匹配到的元素所在位置
print(result2) # None
search方法的使用
re.search 扫描整个字符串并返回第一个成功的匹配。
函数语法:
re.search(pattern, string, flags=0)
示例:
import re
result1 = re.search(r'He','Hello')
result2 = re.search(r'lo','Hello')
print(result1.group(0)) # He
print(result1.span()) # (0,2)
print(result2.group(0)) # lo
print(result2.span()) # (3,5)
re.match与re.search的区别
re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。
示例:
result1 = re.search(r'天气','今天天气不错哟')
result2 = re.match(r'天气','今天天气不错哟')
print(result1) # <re.Match object; span=(2, 4), match='天气'>
print(result2) # None
findall 方法的使用
在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有。
语法格式:
re.findall(pattern,string,flags=0)
示例代码:
ret = re.findall(r'\d+','he23ll34')
print(ret) # ['23', '34']
ret = re.match(r'\d+','he23ll34')
pri