python-网络爬虫.regular

regular

正则表达式 (regular expression)

正则表达式(regular expression)描述了一种字符串匹配的模式 (pattern),

可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串 中取出符合某个条件的子串等。

正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为"元字 符") 组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正 则 表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。

网上有的网上找

网上无的自己写

电话号码匹配

邮箱地址匹配

身份证号匹配

指定字符匹配

\d 匹配数字    \D 匹配非数字

\w 匹配字符    \W 匹配非字符

\s 匹配空白    \S 匹配非空白

\b 匹配边界

百度搜索: 史上最全正则表达式

 

 

(一) 常用正则

1、字符组 在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示

 2、字符

 

3、量词

 

(二)正则表达式的使用

 

 

 

 

 

 

.+ 是贪婪的 - 它匹配,直到它不再匹配,只返回所需的数量.

.+? 不是贪婪的,它在第一次机会匹配即停止.

例子:

 

(二)常用方法

re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是 基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配, 提取自己需要的字符串部分,他对所有的语言都通用。注意:

• re模块是python独有的

• 正则表达式所有编程语言都可以使用

• re模块、正则表达式是对字符串进行操作

因为,re模块中的方法大都借助于正则表达式,故先学习正则表达式。

 

 

第一步: import re

第二步: pat= re.compile(r'◎片名:(.*)\n') #r内的字符串就是正则表达 式的规则字符串

第三步: ret =re.findall(pat,html) #开始在目标html字符串中按照正则表 达式来依次匹配

第四步: print(ret) #将匹配成功的信息打印输出

1、re.compile(pattern,flags = 0 ) 将正则表达式模式编译为正则表达式对象,可使用match(),search()以及 下面所述的其他方法将其用于匹配

>>> prog = re.compile('\d{2}') # 正则对象

>>> prog.search('12abc')

  >>> prog.search('12abc').group()

# 通过调用group()方法得到匹配的字符 串,如果字符串没有匹配,则返回None。

'12'

>>> prog.match('123abc')

 >>> prog.match('123abc').group() '12'

>>>

2、re.search(pattern,string,flags = 0 )

扫描字符串以查找正则表达式模式产生匹配项的第一个位置 , 然后返回相应的match对象。None如果字符串中没有位置与模式匹配,则 返回;

否则返回false。请注意,这与在字符串中的某个点找到零长度匹配不同。

#在这个字符串进行匹配,只会匹配一个对象

>>> re.search('\w+','abcde').group()

'abcde'

>>> re.search('a','abcde').group()

'a'

>>>

3、re.match(pattern,string,flags = 0 )

如果字符串开头的零个或多个字符与正则表达式模式匹配,则返回相应的 匹配对象。

None如果字符串与模式不匹配,则返回;否则返回false。

请注 意,这与零长度匹配不同。

# 同search,不过在字符串开始处进行匹配,只会匹配一个对象

>>> re.match('a','abcade').group()

'a'

>>> re.match('\w+','abc123de').group()

'abc123de'

>>> re.match('\D+','abc123de').group()         #非数字

'abc'

>>>

4、re.fullmatch(pattern,string,flags = 0 )

如果整个字符串与正则表达式模式匹配,则返回相应的match对象。None

如果字符串与模式不匹配,则返回;否则返回false。请注意,这与零长度 匹配不同。

>>> re.fullmatch('\w+','abcade').group()

'abcade'

>>> re.fullmatch('abcade','abcade').group()

'abcade'

>>>

5、re.split(pattern,string,maxsplit = 0,flags = 0 )

  通过出现模式来拆分字符串。如果在pattern中使用了捕获括号,那么 模式中所有组的文本也将作为结果列表的一部分返回。如果maxsplit不为 零,则最多会发生maxsplit分割,并将字符串的其余部分作为列表的最后一 个元素返回。

>>> re.split('[ab]', 'abcd')         # 先按'a'分割得到''和'bcd',在对''和'bcd'分别 按'b'分割

['', '', 'cd']

>>> re.split(r'\W+', 'Words, words, words.')

['Words', 'words', 'words', ''] >>> re.split(r'(\W+)', 'Words, words, words.') ['Words', ', ', 'words', ', ', 'words', '.', '']

>>> re.split(r'\W+', 'Words, words, words.', 1)

['Words', 'words, words.']

>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)

['0', '3', '9']

如果分隔符中有捕获组,并且该匹配组在字符串的开头匹配,则结果将从 空字符串开始。字符串的末尾也是如此:

>>> re.split(r'(\W+)', '...words, words...')

['', '...', 'words', ', ', 'words', '...', '']

6、re.findall(pattern,string,flags = 0 )

  以string列表形式返回string中pattern的所有非重叠匹配项。从左到右 扫描该字符串,并以找到的顺序返回匹配项。如果该模式中存在一个或多 个组,则返回一个组列表;否则,返回一个列表。如果模式包含多个组, 则这将是一个元组列表。空匹配项包含在结果中。

>>> re.findall('a', 'This is a beautiful place!')

['a', 'a', 'a']

>>>

7、re.finditer(pattern,string,flags = 0 )

返回一个迭代器,该迭代器在string类型的RE 模式的所有非重叠匹配中产 生匹配对象。 从左到右扫描该字符串,并以找到的顺序返回匹配项。空匹 配项包含在结果中。

>>> re.finditer('[ab]', 'This is a beautiful place!')

 >>> ret=re.finditer('[ab]', 'This is a beautiful place!')

>>> next(ret).group() #查看下一个匹配值

'a'

>>> [i.group() for i in ret]         #查看剩下所有匹配的值

['b', 'a', 'a']

>>>

8、re.sub(pattern,repl,string,count = 0,flags = 0 )   

        返回通过用替换repl替换字符串中最左边的不重叠模式所获得的字符 串。如果找不到该模式, 则返回的字符串不变。 repl可以是字符串或函 数;如果是字符串,则处理其中的任何反斜杠转义。即,将其转换为单个 换行符,将其转换为回车,依此类推。count参数表示将匹配到的内容进行 替换的次数

>>> re.sub('\d', 'S', 'abc12jh45li78', 2)         #将匹配到的数字替换成S,替换2个

'abcSSjh45li78'

>>> re.sub('\d', 'S', 'abc12jh45li78')         #将匹配到所有的数字替换成S

'abcSSjhSSliSS'

>>>

9、re.subn(pattern,repl,string,count = 0,flags = 0 )

执行与相同的操作sub(),但返回一个元组。(new_string, number_of_subs_made)

>>> re.subn('\d', 'S', 'abc12jh45li78', 3)

('abcSSjhS5li78', 3)

>>>

10、re.escape(pattern)

escape中的所有字符图案,除了ASCII字母,数字和'_'。如果要匹配可能包含正则表达式元字符的任意文字字符串,这将很有用。

>>> re.escape('python.exe\n')

'python\\.exe\\\n'

>>>

11、search()与match()方法

Python提供了两种基于正则表达式的原始操作: re.match()仅在字符串的 开头匹配,re.search()检查匹配项,在字符串中的任何位置检查匹配项(这 是Perl的默认设置)。

>>> re.match("c", "abcdef")         #Not match

>>> re.search("c", "abcdef")         #match

 >>>

以开头的正则表达式'^'可用于search()限制字符串开头的匹配项:

>>> re.match("c", "abcdef") #Not match

>>> re.search("^c", "abcdef") #Not match

>>> re.search("^a", "abcdef") #match

 

>>>

参考:

https://docs.python.org/3.6/library/re.html

https://www.cnblogs.com/Eva-J/articles/7228075.html#_label7

https://www.cnblogs.com/shenjianping/p/11647473.html

\xa0 是不间断空白符

str.replace(u’\xa0’, u’ ‘)

\u3000 是全角的空白符

str.replace(u’\u3000’,u’ ‘)

title.strip(‘\r\n’).replace(u’\u3000’, u’ ‘).replace(u’\xa0’, u’ ‘) content.strip(“”).strip(‘\r\n’).replace(u’\u3000’, u’ ‘).replace(u’\xa0’, u’ ‘)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/54429.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

学C的第三十一天【通讯录的实现】

相关代码gitee自取:C语言学习日记: 加油努力 (gitee.com) 接上期: 学C的第三十天【自定义类型:结构体、枚举、联合】_高高的胖子的博客-CSDN博客 通讯录需求: 实现一个通讯录, 通讯录中存放保存人的信息&#xff1…

SpringBoot中MongoDB的使用

SpringBoot中MongoDB的使用 MongoDB 是最早热门非关系数据库的之一,使用也比较普遍,一般会用做离线数据分析来使用,放到内网的居 多。由于很多公司使用了云服务,服务器默认都开放了外网地址,导致前一阵子大批 MongoD…

P1535 [USACO08MAR] Cow Travelling S(dfs+剪枝 or 记忆化搜索)

1:本题暴力做法简单,重点在于我们如何剪枝: :《曼哈顿距离》我们每走一个点就判断,当前点到终点的最短步数是不是小于当前剩余的步数, 如果大于就肯定不符合直接return,或者当步数为0时,当还没到达终点,那…

springSecurity自定义过滤器不生效问题排查

在使用springSecurity过滤器的过程中,由于需要自定义一个过滤器处理数据问题。代码如下: 过滤器定义: public class AuthRequestParamFiler extends GenericFilterBean {private static final CoreLogger LOGGER CoreLoggerFactory.getLog…

Flink - souce算子

水善利万物而不争,处众人之所恶,故几于道💦 目录 1. 从Java的集合中读取数据 2. 从本地文件中读取数据 3. 从HDFS中读取数据 4. 从Socket中读取数据 5. 从Kafka中读取数据 6. 自定义Source 官方文档 - Flink1.13 1. 从Java的集合中读取数据 …

【python】使用Selenium和Chrome WebDriver来获取 【腾讯云 Cloud Studio 实战训练营】中的文章信息

文章目录 前言导入依赖库设置ChromeDriver的路径创建Chrome WebDriver对象打开网页找到结果元素创建一个空列表用于存储数据遍历结果元素并提取数据提取标题、作者、发布时间等信息判断是否为目标文章提取目标文章的描述、阅读数量、点赞数量、评论数量等信息将提取的数据存储为…

【外卖系统】菜品信息分页查询

需求分析 当菜品数据很多时,用分页的形式来展示列表数据 代码开发 页面发送ajax请求,将分页查询参数提交到服务端,获取分页数据页面发送请求,请求服务端进行图片下载,用于页面图片展示 构造分页 注意:…

Java入门指南:Java语言优势及其特点

目录 1. Java语言简介及发展概述 2. Java语言的优势 2.1 可移植性 2.2 面向对象 2.3 安全性 2.4 大量类库 3. Java语言与C/C的区别 4. 初识Java程序入口之main方法 5. 注释、标识符、关键字 5.1 注释 5.2 标识符 5.3 关键字 1. Java语言简介及发展概述 Java是一种面…

iphone备份用什么软件?好用的苹果数据备份工具推荐!

众所周知,如果要将iPhone的数据跟电脑进行传输备份的话,我们需要用到iTunes这个pc工具。但是对于iTunes,不少人都反映这个软件比较难用,用不习惯。于是,顺应时代命运的iPhone备份同步工具就出现了。那iphone备份用什么…

[css]margin-top不起作用问题(外边距合并)

在初学css时&#xff0c;会遇到突然间margin-top不起作用的情况。如下面&#xff1a; 情况一&#xff1a; 代码&#xff1a; <html> <head><style type"text/css"> * {margin:0;padding:0;border:0; }#outer {width:300px;height:300px;backgroun…

数据库—数据库备份(三十四)

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 一、概述 二、数据备份的重要性 三、造成数据丢失的原因 四、备份类型 4.1物理与逻辑角度 4.2数据库备份策略角度 五、常见的备份方法 5.1 物理备份 5.2 使用专用备…

短视频平台视频怎么去掉水印?

短视频怎么去水印&#xff0c;困扰很多人&#xff0c;例如&#xff0c;有些logo水印&#xff0c;动态水印等等&#xff0c;分享操作经验&#xff1a; 抖音作为中国最受欢迎的社交娱乐应用程序之一&#xff0c;已成为许多人日常生活中不可或缺的一部分。在使用抖音过程中&#x…

融合大数据、物联网和人工智能的智慧校园云平台源码 智慧学校源码

电子班牌系统用以展示各个班级的考勤信息、授课信息、精品课程、德育宣传、班级荣誉、校园电视台、考场信息、校园通知、班级风采&#xff0c;是智慧校园和智慧教室的对外呈现窗口&#xff0c;也是学校校园文化宣传和各种信息展示的重要载体。将大数据、物联网和人工智能等新兴…

tinkerCAD案例:24. Ruler - Measuring Lengths 标尺 -量勺

tinkerCAD案例&#xff1a;24. Ruler - Measuring Lengths 标尺 - 测量长度 Project Overview: 项目概况&#xff1a; A machine shop, where any idea can become a reality, can cost millions and million of dollars. Still, the most important tool in the shop is the…

ELK高级搜索(一)

文章目录 ELK搜索1&#xff0e;简介1.1 内容1.2 面向 2&#xff0e;Elastic Stack2.1 简介2.2 特色2.3 组件介绍 3&#xff0e;Elasticsearch3.1 搜索是什么3.2 数据库搜索3.3 全文检索3.4 倒排索引3.5 Lucene3.6 Elasticsearch3.6.1 Elasticsearch的功能3.6.2 Elasticsearch使…

Patchwork 黑客组织瞄准我国大学和研究机构

据知道创宇404高级威胁情报团队近期发现&#xff0c;名为“Patchwork”的黑客组织正以中国的大学和研究机构为目标进行活动&#xff0c;部署名为EyeShell的后门。 Patchwork也被称为“Operation Hangover”和“Zinc Emerson”&#xff0c;被怀疑是来自印度的APT组织。该组织发起…

职业发展规划指南:如何成为成功的产品经理

导语&#xff1a;产品经理是当今互联网时代最炙手可热的职位之一。作为连接技术、商业和用户需求的桥梁&#xff0c;产品经理在公司中扮演着至关重要的角色。本文将为你提供一些关于产品经理职业发展的规划指南&#xff0c;帮助你在这个领域取得成功。 掌握核心技能&#xff1…

Coremail中睿天下|2023年第二季度企业邮箱安全态势观察

7月24日&#xff0c;Coremail邮件安全联合中睿天下发布《2023第二季度企业邮箱安全性研究报告》&#xff0c;对2023第二季度和2023上半年的企业邮箱的安全风险进行了分析。 一、垃圾邮件同比下降16.38% 根据Coremail邮件安全人工智能实验室&#xff08;以下简称AI实验室&#…

pgsql 查看某个表建立了那些索引sql

执行以下sql&#xff1a; SELECTns.nspname as schema_name,tab.relname as table_name,cls.relname as index_name,am.amname as index_type,idx.indisprimary as is_primary,idx.indisunique as is_unique FROMpg_index idx INNER JOIN pg_class cls ON cls.oididx.indexrel…

AI技术快讯:清华开源ChatGLM2双语对话语言模型

ChatGLM2-6B是一个开源项目&#xff0c;提供了ChatGLM2-6B模型的代码和资源。根据提供的搜索结果&#xff0c;以下是对该项目的介绍&#xff1a; 论文&#xff1a;https://arxiv.org/pdf/2103.10360.pdf ChatGLM2-6B是一个开源的双语对话语言模型&#xff0c;是ChatGLM-6B模…