1、requests库:第三方库,主要用于Python发送HTTP请求
response1 = requests.get('https://www.qq.com/') # 发送get请求
# requestdata = {'User-Agen': 'KWHJJKLK', 'Accept': 'text/html', 'Cookie': 'sjdshkwje213'} # 请求数据
# response2 = requests.post('https://www.baidu.com', requestdata=requestdata) # 发送post请求
print(response1.text) # 输出响应正文信息
print(response1.headers) # 输出响应头信息
print(response1.status_code) # 输出响应状态码
# response3 = requests.session().get('https://www.qq.com/') # 发送get请求并保持会话状态
2、re库:在Python中提供了正则表达式的常用方法
hhh = re.compile(r'\d+') # 生成正则表达式对象hhh(提取所有数字),可以用这个对象多次调用匹配方法。
print(hhh.search('str123ing123').group()) # 扫描整个字符串并返回第一个成功的匹配 输出:123
print(re.findall(r'\d+', 'string123')) # 提取'string123'中所有数字 输出:['123']
print(re.split(r'\d+', 'str1ing123')) # 按数字分割字符串生成列表 输出:['str', 'ing', '']
print(re.search(r'\d+', 'str123ing123').group()) # 扫描整个字符串并返回第一个成功的匹配 输出:123
print(re.match(r'123', '123string123').group()) # 在起始位置匹配一个字符 输出:123
print(re.sub(r'\d+', '数字', '123hello456world')) # 将字符串数字部分用"数字"替换 输出:数字hello数字world
正则表达式常见提取:
提取数字:r'\d+'或r'[0-9]'
提取中文:r'\u4e00-\u9fff'
提取字母:r'[a-zA-Z]'
提取数字+字母:r'[a-zA-Z0-9]'
提取两个a之间的元素:r'a(.*?)a'
正则表达式常见元字符:
3、文件读写:对文件进行读取,写入,追加,创建等操作
files = open(file=r'D:\hot.txt', mode='a+', encoding='utf-8')
# file:创建文件的路径 mode:文件属性权限 encoding:编码格式
# mode内容:
# r:只读不能写,文件不存在时报错 r+:可读可写,文件不存在时报错 rb:读取非文本文件,如图片
# w: 文件不存在时创建新文件,不能读,写前会清空原来的文件内容 w+:可读可写,文件不存在时创建新文件,写前清空文件内容 wb:写入非文本文件,如图片
# a:不会清空原来的内容 追加末尾写,但是不能读 a+:可读可追加写,文件不存在时创建新文件, ab:以二进制格式打开文件进行追加
# 读写常见函数:
files.read() # 读取文件中全部数据
files.readlines() # 读取所有行,以列表的形式返回读取内容,列表的每一个元素对应文件的一行
files.readline() # 读取文件的第一行
files.read(5) # 读取文件的第一行的前5个字符
files.write("哈哈哈") # 在文件中写入'哈哈哈',并清除原来数据
files.read() # 读取文件中全部数据
files.close() # 关闭文件
# 一般使用files = open(file=r'D:\1.txt', mode='a+', encoding='utf-8')最后都要使用files.close()来关闭文件
# 如果open()和close()之间有代码错误就无法正常关闭文件造成资源浪费,解决办法为使用:
# with open(file=r'D:\1.txt', mode='a+', encoding='utf-8') as file: 不管中间的代码是否有错,最后都会关闭文件