python爬虫-----深入了解 requests 库下篇(第二十五天)

🎈🎈作者主页: 喔的嘛呀🎈🎈
🎈🎈所属专栏:python爬虫学习🎈🎈
✨✨谢谢大家捧场,祝屏幕前的小伙伴们每天都有好运相伴左右,一定要天天开心哦!✨✨ 

hello,兄弟姐妹们!我是喔的嘛呀。今天我们来学习 requests 后七个知识点。

目录

八、超时设置

九、SSL 验证

十、文件上传和下载

十一、连接池和线程安全

十三、HTTP 方法

十四、其他方法


 

八、超时设置

在网络通信中,超时设置非常重要,它可以确保在一定时间内收到服务器的响应,避免因等待过久而导致程序长时间阻塞。在使用 requests 库发送请求时,可以通过 timeout 参数来设置超时时间,该参数接受一个元组,分别指定连接超时时间和读取超时时间,单位为秒。以下是如何设置超时的示例:

import requests

url = '<http://example.com/api>'
# 设置超时时间为连接超时10秒,读取超时20秒
response = requests.get(url, timeout=(10, 20))

# 处理响应
print(response.text)

在这个示例中,我们将连接超时时间设置为 10 秒,读取超时时间设置为 20 秒。如果在规定时间内未收到响应,requests 库会抛出一个 Timeout 异常。这样可以确保及时处理网络请求中的超时情况,提高程序的稳定性和可靠性。

九、SSL 验证

在使用 requests 库发送 HTTPS 请求时,默认会验证服务器的 SSL 证书。SSL 证书用于验证服务器身份,并确保通信过程中的数据安全性。如果需要禁用 SSL 验证,可以将 verify 参数设置为 False。但是在实际应用中,为了保证通信的安全性,建议保持默认设置,即默认开启 SSL 验证。以下是如何设置 SSL 验证的示例:

import requests

url = '<https://example.com/api>'
# 禁用 SSL 验证
response = requests.get(url, verify=False)

# 处理响应
print(response.text)

在这个示例中,我们通过将 verify 参数设置为 False,来禁用 SSL 验证。这样虽然可以忽略证书验证过程,但也会降低通信的安全性。在实际生产环境中,建议仔细考虑是否禁用 SSL 验证,确保通信的安全性。

十、文件上传和下载

在网络爬虫中,有时需要上传文件到服务器或从服务器下载文件。requests 库提供了方便的方法来处理文件上传和下载。

  1. 文件上传:使用 files 参数可以上传文件。files 参数是一个字典,键是字段名,值是文件对象。以下是一个示例:
import requests

url = '<http://example.com/upload>'
files = {'file': open('example.txt', 'rb')}
response = requests.post(url, files=files)

print(response.text)
  1. 文件下载:使用 response.iter_content(chunk_size=1024) 可以以流的方式下载文件。chunk_size 参数指定每次读取的字节数,可以根据需要调整。以下是一个示例:
import requests

url = '<http://example.com/file.txt>'
response = requests.get(url, stream=True)

with open('file.txt', 'wb') as file:
    for chunk in response.iter_content(chunk_size=1024):
        file.write(chunk)

print('File downloaded successfully')

在这个示例中,我们通过 response.iter_content(chunk_size=1024) 以流的方式下载文件,并将文件写入本地。这样可以有效地处理大文件的下载。

十一、连接池和线程安全

在网络爬虫中,使用连接池可以提高性能,因为它可以减少重复创建和销毁连接的开销。另外,线程安全性也很重要,特别是在多线程环境下使用网络请求时,需要确保请求的线程安全性。requests 库提供了一些方式来管理连接池和确保线程安全性。

  1. 连接池管理:可以使用 requests.Session() 创建会话对象,并通过 requests.adapters.HTTPAdapter 设置连接池的大小、最大连接数等参数。
import requests

# 创建会话对象
session = requests.Session()

# 创建适配器,设置连接池的大小和最大连接数
adapter = requests.adapters.HTTPAdapter(pool_connections=10, pool_maxsize=10)
session.mount('http://', adapter)
session.mount('https://', adapter)

# 使用会话对象发送请求
response = session.get('<http://example.com>')
  1. 线程安全性requests 库本身是线程安全的,但在多线程环境中使用时,应该确保每个线程都使用独立的会话对象。这样可以避免多个线程共享同一个会话对象的连接池,从而保证线程安全性。
import requests
from concurrent.futures import ThreadPoolExecutor

# 创建线程池
executor = ThreadPoolExecutor(max_workers=10)

def fetch_url(url):
    # 每个线程使用独立的会话对象
    session = requests.Session()
    response = session.get(url)
    print(response.text)

urls = ['<http://example.com>'] * 10
executor.map(fetch_url, urls)

在这个示例中,我们使用了 concurrent.futures.ThreadPoolExecutor 创建了一个包含10个线程的线程池,并通过 map 方法并发地发送请求。每个线程内部都创建了独立的会话对象,确保了线程安全性。

十二、定制请求

定制请求是指根据需求对请求进行个性化设置,如设置请求头、请求参数、请求体等。requests 库提供了丰富的参数和方法来定制请求。

  1. 设置请求头(headers 参数)

import requests

url = '<http://example.com>'
headers = {'User-Agent': 'Mozilla/5.0'}
response = requests.get(url, headers=headers)
  1. 设置查询参数(params 参数)
import requests

url = '<http://example.com>'
params = {'key1': 'value1', 'key2': 'value2'}
response = requests.get(url, params=params)
  1. 设置请求体(data 参数)
import requests

url = '<http://example.com>'
data = {'key1': 'value1', 'key2': 'value2'}
response = requests.post(url, data=data)
  1. 设置超时时间(timeout 参数)
import requests

url = '<http://example.com>'
response = requests.get(url, timeout=5)  # 设置超时时间为5秒

  1. 设置代理服务器(proxies 参数)
import requests

url = '<http://example.com>'
proxies = {'http': '<http://127.0.0.1:8888>', 'https': '<https://127.0.0.1:8888>'}
response = requests.get(url, proxies=proxies)

通过这些方法,你可以根据需要定制请求,以满足不同的需求。

十三、HTTP 方法

HTTP 定义了多种请求方法,用于指定对资源的不同操作。在 requests 库中,可以使用 requests.request() 方法来发送任意类型的 HTTP 请求,其中 method 参数用于指定请求方法。以下是一些常用的 HTTP 方法及其用法:

1.GET:用于请求指定的资源。GET 请求的参数会附加在 URL 的后面。


import requests

response = requests.request('GET', '<http://example.com/api>')
  1. POST:用于向指定的资源提交数据,常用于表单提交或上传文件。
import requests

data = {'key1': 'value1', 'key2': 'value2'}
response = requests.request('POST', '<http://example.com/api>', data=data)
  1. PUT:用于更新指定的资源,通常用于更新整个资源。
import requests

data = {'key1': 'value1', 'key2': 'value2'}
response = requests.request('PUT', '<http://example.com/api>', data=data)
  1. DELETE:用于删除指定的资源。

import requests

response = requests.request('DELETE', '<http://example.com/api>')

5. HEAD:类似于 GET 请求,但只返回头部信息,不返回实际内容。

import requests

response = requests.request('HEAD', '<http://example.com/api>')

6. OPTIONS:用于获取目标资源所支持的通信选项。

import requests

response = requests.request('OPTIONS', '<http://example.com/api>')

通过使用这些方法,你可以灵活地发送各种类型的 HTTP 请求,以满足不同的需求。

十四、其他方法

除了上述提到的方法和属性外,requests 库还提供了一些其他有用的功能和属性:

  1. 响应时间(response.elapsed):可以获取请求的响应时间,以 datetime.timedelta 对象的形式返回。

import requests

response = requests.get('<http://example.com>')
print(response.elapsed.total_seconds())  # 获取响应时间,单位为秒
  1. 重定向历史(response.history):如果请求发生了重定向,可以通过该属性获取重定向的历史。

import requests

response = requests.get('<http://example.com>')
for redirect in response.history:
    print(redirect.url)
  1. 请求信息(response.request):可以获取请求的相关信息,如请求方法、URL、请求头等。
import requests

response = requests.get('<http://example.com>')
request = response.request
print(request.method)
print(request.url)
print(request.headers)

通过这些功能和属性,你可以更全面地了解请求和响应的相关信息,方便进行进一步的处理和分析。

好了,兄弟姐妹们,今天的学习就到这里了。老规矩第二十七天的学习,还是几个案列把知识点实操一下。拜拜喽!

祝屏幕前的兄弟姐妹们,天天开心,好运连连!

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/561136.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[阅读笔记15][Orca]Progressive Learning from Complex Explanation Traces of GPT-4

接下来是微软的Orca这篇论文&#xff0c;23年6月挂到了arxiv上。 目前利用大模型输出来训练小模型的研究都是在模仿&#xff0c;它们倾向于学习大模型的风格而不是它们的推理过程&#xff0c;这导致这些小模型的质量不高。Orca是一个有13B参数的小模型&#xff0c;它可以学习到…

从零自制docker-11-【pivotRoot切换实现文件系统隔离】

文章目录 busyboxdocker run -d busybox topcontainerId(docker ps --filter "ancestorbusybox:latest"|grep -v IMAGE|awk {print $1})docker export -o busybox.tar $containerId or sudo docker export 09bbf421d93f > ./busybox.tar tar -xvf busybox.tar -C …

修复vite中使用react提示Fast refresh only works when a file only exports components.

前言 我通过 vite 构建了一个 react 应用并使用 react.lazy 来懒加载组件&#xff0c;但是在使用过程中 一直提示 Fast refresh only works when a file only exports components. Move your component(s) to a separate file.eslint(react-refresh/only-export-components)。…

编译OpenWRT固件

前言 编译环境&#xff0c;我是使用Ubuntu16.04.07 LTS 64位版 1.安装Ubuntu16.04.07 LTS 64 作者写这篇文章的时候lede源码使用debian11编译&#xff0c;对于的就是Ubuntu 20&#xff0c;至于为什么要安装ub16是因为最开始我不清楚要使用ub20安装&#xff0c;用ub16安装的时…

CCF-CSP真题《202312-2 因子化简》思路+python,c++满分题解

想查看其他题的真题及题解的同学可以前往查看&#xff1a;CCF-CSP真题附题解大全 试题编号&#xff1a;202312-2试题名称&#xff1a;因子化简时间限制&#xff1a;2.0s内存限制&#xff1a;512.0MB问题描述&#xff1a; 题目背景 质数&#xff08;又称“素数”&#xff09;是指…

RAG部署 | 使用TensorRT-LLM在Windows上部署检索增强生成聊天机器人RAG

项目应用场景 面向 Windows 平台部署 RAG 检索增强生成聊天机器人场景&#xff0c;项目采用 TensorRT-LLM 进行 GPU 加速推理&#xff0c;注意项目需要 RT4090 及以上的英伟达显卡支持。 项目效果 项目细节 > 具体参见项目 README.md (1) 下载构建好的 Llama2 TensorRT 模型…

Web开发:ASP.NET CORE的前端demo(纯前端)

目录 一、建立项目 二、删除无用文件 三、样式添加 四、写一个登录页面 五、登录主界面 一、建立项目 二、删除无用文件 三、样式添加 将你的图片资源添加在wwwroot下方&#xff0c;例如pics/logo.png 四、写一个登录页面 将Privacy.cshtml改为 Forget.cshtml &#xff0…

AJAX——图书管理案例

1.渲染列表 自己的图书数据&#xff1a;给自己起个外号&#xff0c;并告诉服务器&#xff0c;默认会有三本书&#xff0c;基于这三本书做数据的增删改查。 // 目标1&#xff1a;渲染图书列表 // 1.1 获取数据 // 1.2 渲染数据const creator 哈哈 // 封装-获取并渲染图书列表函…

设计模式学习笔记 - 开源实战三(中):剖析Google Guava中用到的设计模式

概述 上篇文章&#xff0c;我通过 Google Guava 这样一个优秀的开源类库&#xff0c;讲解了如何在业务开发中&#xff0c;发现跟业务无关、可以复用的通用功能模块&#xff0c;并将它们抽离出来&#xff0c;设计成独立的类库、框架或功能组件。 本章再来学习下&#xff0c;Go…

[Linux][进程信号][二][信号如何被保存][信号处理][可重入函数]详细解读

目录 1.信号如何被保存&#xff1f;1.信号其他相关常见概念2.信号在内核中的表示3.sigset_t -- 本质是个位图4.信号集操作函数sigset_t&#xff1a;sigprocmask()sigpending() 5.思考6.使用 2.信号处理0.内核态和用户态1.内核空间和用户空间2.信号何时被处理&#xff1f;3.信号…

PSA Group EDI 需求分析

PSA集团&#xff08;以下简称PSA&#xff09;中文名为标致雪铁龙集团&#xff0c;是一家法国私营汽车制造公司&#xff0c;致力于为全球消费者提供独具特色的汽车体验和自由愉悦的出行方案&#xff0c;旗下拥有标致、雪铁龙、DS、欧宝、沃克斯豪尔五大汽车品牌。 汽车制造企业对…

JavaWeb--前端--02JavaScript

JavaScript 1 JavaScript介绍2 引入方式3 基础语法3.1 书写语法3.2 变量3.3 数据类型和运算符 4 JS的函数4.1函数的第一种定义4.2 函数的第二中定义 5 JavaScript对象5.1 基本对象5.1.1 Array对象5.1.2 String对象5.1.3 Json对象 5.2 BOM5.2.1 BOM对象5.2.1 Windows对象5.2.2 L…

c++补充

构造函数、析构函数 #include <iostream> using namespace std;// 构造函数、析构函数 // --- "构造函数"类比生活中的"出厂设置" --- // --- "析构函数"类比生活中的"销毁设置" --- // 如果我们不写这两种函数&#xff0c;编译…

定制k8s域名解析------CoreDns配置实验

定制k8s域名解析------CoreDns配置实验 1. 需求 k8s集群内通过CoreDns互相解析service名. 同时pana.cn域为外部dns解析,需要通过指定dns服务器进行解析 再有3个服务器,需要使用A记录进行解析 2. K8s外DNS服务器 查看解析文件 tail -3 /var/named/pana.cn.zone 解析内容 ww…

STM32G431RBT6之时钟树配置与生成工程

默认大家都下载了蓝桥杯嵌入式资源包了哈. 首先,打开cubumx,修改RCC与SYS. 打开并观察原理图,发现晶振是24Mhz. 第一步,打开Clock Configuration. 第二步,修改晶振为原理图相对应的24Mhz. 第三步,切换到HSE. 第四步,切换到PLLCLK. 第五步,设置HCLK为80Mhz(15届真题要求为8…

【信号处理】基于EEG脑电信号的自闭症预测典型方法实现

理论 自闭者主要受到遗传和环境因素的共同影响。由于自闭症是一种谱系障碍&#xff0c;因此每个自闭症患者都有独特的优势和挑战。自闭症患者学习、思考和解决问题的方式可以是高技能的&#xff0c;也可以是严峻的挑战。研究表明&#xff0c;高质量的早期干预可以改善学习、沟…

Java web应用性能分析之【MySQL安装注意事项】

本文主要是针对以前LAMP&#xff0c;以及默认用apt安装的mysql。数据文件、日志文件都在一起&#xff1b;innodb_buffer_pool默认用128M。如果你排查问题&#xff0c;最后发现是因为mysql的安装配置不对&#xff0c;是否一口老血要喷出来。同时给MySQL数据库安装做参考。 关于M…

ZYNQ NVME高速存储之EXT4文件系统

前面文章分析了高速存储的各种方案&#xff0c;目前主流的三种存储方案是&#xff0c;pcie switch高速存储方案&#xff0c;zynq高速存储方案&#xff0c;fpga高速存储方案。虽然三种高速存储方案都可以实现高速存储&#xff0c;但是fpga高速存储方案是最烂的&#xff0c;fpga…

23.组件注册方式

组件注册方式 一个 Vue 组件在使用前需要先被“注册”&#xff0c;这样 Vue 才能在渲染模板时找到其对应的实现。组件注册有两种方式&#xff1a;全局注册和局部注册 全局注册 import { createApp } from vue import App from ./App.vue import GlobalComponent from ".…

C++三大特性之一:继承

文章目录 前言一、继承方式二、继承类型继承中构造和析构的顺序继承中的内存分配多继承语法(非重点)继承中同名静态成员的处理继承一般在哪里用到进阶&#xff1a;菱形继承和虚拟继承 总结 前言 C三大特性&#xff1a;继承、多态和封装。继承是面向对象编程的一个核心概念&…