正则表达式
REGEXP: Regular Expressions,由一类特殊字符及文本字符所编写的模式, 其中有些字符(元字符)不表示字符字面意义,而表示控制或通配的功能, 类似于增强版的通配符功能,但与通配符不同,通配符功能是用来处理文件名,而正则表达式是处理文本内容中字符。
正则表达式被很多程序和开发语言所广泛支持:vim, less,grep,sed,awk, nginx,mysql等
元字符
基础正则表达式常见的元字符
(支持的工具:grep、egrep、sed、awk)
元字符 | 含义 |
\ | *转义字符,用于取消特殊符号的含义,例:\!、\n、\s等 |
匹配字符串开始的位置,例:^ a、^ the、^ #、^ [a-z] | |
$ | 匹配字符串结束的位置,例:word、^ 匹配空行 |
. | 匹配除\n之外的任意的一个字符,有且仅有一个。例:go.d、g…d |
* | 匹配前面子表达式0次或者多次,例:goo*d 、go.*d |
[list] | 匹配list列表中的一个字符,例:go[ola]d,[abc]、[a-z]、[a-z0-9] |
[^list] | 匹配任意非list列表中的一个字符,例:[ ^A-Z0-9],[ ^a-z]匹配任意一位非小写字母 |
[[:alpha:]] | 代表任意一个大小写英文字母,相当于[A-Za-z] |
[:[:digit:]] | 代表任意一个十进制数字,相当于[0-9] |
[[:alnum:]] | 代表任意一个大小写英文字母及数字,相当于[A-Za-z0-9] |
\ {n\ } | 匹配前面的子表达式n次,例:go{2}d 、 '[0-9]{2}' 匹配两位数字 |
\ {n,\ } | 匹配前面的子表达式不少于n次,例:go{2,}d 、'[0-9]{2,}' 匹配两位及两位以上数字 |
\ {n,m\ } | 匹配前面的子表达式n到m次,例:go{2,3}d 、'[0-9]{2,3}' 匹配两位到三位数字 |
注: egrep、 awk使用{n}、{n,}、{n, m}匹配时 "{ }" 前不用加" \ "
^ 表示匹配字符串开始的位置,匹配行首
$ 表示匹配字符串末尾的位置,匹配行尾
* 匹配前面子表达式0次或者多次, .:匹配除\n之外的任意的一个字符,有且只有一个
[list]
[list] 匹配括号内的任意一个字符,只能匹配单个字符
[ ^list] ,^在括号内表示取反。即匹配括号内字符以外的任意一个字符,只能匹配单个字符
复合使用
^与$复合使用
^与 [^list]
复合使用
{n}
{n}
匹配前面的子表达式n次
{n,}
{n,}
匹配前面的子表达式不少于n次
{n,m}
{n,m}
匹配前面的子表达式n到m次
egrep,awk在使用{n}、{n,}、{n,m}时,括号{}前不需要加反斜杠\。如果加了\,反而失去效果
grep -E 可以实现 egrep 的效果
扩展正则表达式元字符
支持的工具:egrep、 awk、 grep-E、 sed -r)
字符 | 作用 |
---|---|
+ | 表示匹配前面的子表达式1次以上 |
? | 表示匹配前面的子表达式0或者1次 |
( ) | 将括号里的内容看成一个整体 |
| | 以或的方式匹配字符串 |
+ 表示匹配前面的子表达式1次以上
匹配电话号码
要求:
匹配 025 开头的区号。
电话号码要5 或者 8开头的八位数。
格式如下:
匹配电子邮箱
电子邮箱:
用户名@子域名.[二级域名].顶级域
要求:
- 用户名:长度要求在6-18位,任意大小写英文,任意数字,除了@符号和空格以外的其它任意符号字符,开头只能是 _ 或者字母。
- 子域名.[二级域名]:长度任意,符号只能包含 - _ .
- .顶级域名:长度在2-5,任意大小写英文。
- 完整匹配。
需求分解:
用户名长度要求在6-18位 {6,18}
除了@符号和空格以外的其它任意符号字符 [^@ ]
开头只能是 _ 或者字母 ^[a-zA-Z_]
长度任意,符号只能包含-_. [a-zA-Z0-9-_.]+
长度在2-5,任意大小写英文 .[a-zA-Z]{2,5}