Python的http模块requests

模块简介:

requests 库是一个 python中比较有名的 http请求的库,能处理 get,post,put,delete 等 restful请求,能设置 header,cookie,session 等操作,也是作为爬虫的基础库,它目前还不能异步请求,如果要支持异步,官网文档上也说,用 httpx 等代替。官方文档网址:https://requests.readthedocs.io/en/latest/

requests模块的作用
  • 发送 http 请求,获取响应数据
安装
pip install requests

响应对象

  • text str
  • content bytes

使用requests.get()发送请求

发送带请求头的请求
  requests.get(url,headers={User-Agent:xxxx})
发送带参数的请求
  • url中直接带参数
  • 用字典的方式传参数
requests.get(url,params={param1: xxxx, param2:xxx2})
在 headers参数中携带 Cookie

网站经常利用请求头中的 Cookie 字段来做用户访问状态的保持,那么我们可以在 headers 参数中添加 Cookie,模拟普通用户的请求。我们以 github 登录为例:

  • github登录抓包分析
    • 无痕窗口打开chrom浏览器,右键–>检查,点击 Network
    • 访问 github登录的 url 地址 https://github.com/用户名
    • 输入账号密码点击登录后,访问一个需要登录后才能获取正确内容的 url,比如点击右上角的 Your profile 访问 https://github.com/USER_ANME
    • 确定 url之后,再确定发送请求所需要的请求头信息中的User-Agent 和 Cookie
  • cookies 参数的使用
    • cookies参数的形式:字典
      • cookies = {“cookie的名字”:“cookie的值”}
      • 该字典对应请求头中 Cookie 字符串,以分号、空格分割每一对字典键值对
      • 等号左边的一个 cookie 的 name,对应 cookies 字典的 key
      • 等号右边对应 cookies 字典的 value
    • cookies 参数的使用方法
  response = requests.get(url,cookies)
  • 注意:cookie 一般是又过期时间的,一旦过期需要重新获取
  • cookieJar 对象转换成 cookies 字典的方法

使用 requests获取的 response 对象,具有 cookie 属性。该属性是一个 cookieJar 类型,包含了对方服务器设置在本地的 cookie。可以将其转换成 cookies 字典

response.txt 和 response.content 的区别:

  • response.text
    • 类型:str
    • 解码类型:requests模块自动根据 http 头部对响应码作出有根据的推测,推测的文本编码。
  • response.content
    • 类型:bytes
    • 解码类型:默认是 utf-8

response 响应对象的其他常用属性或方法

response = requests.get(url)中 response是发送请求获取的响应对象;response 响应对象中除了 text、content获取响应内容意外还有其他常用的属性或方法:

  • response.url:响应的 url;有时候响应的 url 和请求的 url 并不一致
  • response.status_code:响应状态码
  • response.request.headers:响应对应的请求头
  • response.headers:响应头
  • response.request_cookies:响应对应请求的 cookie;返回 cookieJar 类型
  • response.cookies:响应的 cookie(经过了 set-cookie 动作;)返回 cookieJar 类型
  • response.json();自动将 json字符串类型的响应内容转换成 python 对象(dict or list)

代理的使用

  • 理解代理的过程
    • 代理 ip是一个 ip,指向的是一个代理服务器
    • 代理服务器能够帮助我们向目标服务器转发请求

image.png

  • 正向代理和反向代理的区别

前边提到 proxy 参数指定的代理 ip指向的是正向的代理服务器,那么响应的就有反向服务器;现在来了解正向和反向这两者的区别

  1. 从发送请求方的角度,来区分正向和反向代理
  2. 为浏览器或客户端(发送请求的一方)转发请求的,叫做正向代理
    1. 浏览器知道最终处理请求的服务器的真实 ip地址,例如VPN等翻墙软件
  3. 不为浏览器或客户端(转发请求),而是为最终处理请求的服务器转发请求的,叫反向代理
    1. 浏览器不知道服务器的真实地址,而都是去访问 nginx,nginx 通过负载均衡再分发到不同的 web 服务器(tomcat,php-fpm等)。
  • 代理ip(代理服务器)的分类
    1. 根据代理ip 的内名成都,代理 IP 分为下面三类:
      1. 透明代理(Transparent Proxy):透明代理虽然可以直接"隐藏"你的IP 地址,但是还是可以查到你是谁,目标服务器接受到的请求头如下:
REMOTE_ADDR = 代理IP
HTTP_VIA = 代理IP
HTTP_X_FORWARDED_FOR = 你的真实IP
  2. 匿名代理(Anonymous Proxy):使用匿名代理,别人只能直到你用了代理,无法直到你是谁。目标服务器接收到的请求头付下
REMOTE_ADDR = 代理IP
HTTP_VIA = 代理IP
HTTP_X_FORWARDED_FOR = 代理IP
  3. 高匿代理(Elite proxy 或 High Anonymity Proxy):高匿代理让别人无法发现你在用代理,所以是最好的选择。毫无疑问使用高匿代理效果最好,费用也昂贵,目标服务器接收到的请求头如下:
REMOTE_ADDR = 代理IP
HTTP_VIA = not datermined
HTTP_X_FORWARDED_FOR = not determined
  • 根据网站使用的协议不同,需要使用相应协议的代理服务器。从代理服务请求使用的协议有如下3个:
    • http代理:目标 url 为 http 协议
    • https 代理:目标 url为 https 协议
    • socks 隧道代理(如 socks5代理)等(用的比较少):
      • socks 代理是 socket 层,只简单地传递数据包,不关心是何种应用协议(FTP、HTTP 和 HTTPS)
      • socks 代理比 http、https 代理耗时少。
      • scoks代理可以转发 http 和 https 的请求
  • proxies 代理参数的使用

为了让服务器以为不是同一个客户端在请求;为了防止频繁像一个域名发送请求被封 ip,所以我们需要使用代理 ip;

  • 用法
resp = requests.get(url,proxies=proxies_dict)
  • proxies 的形式:字典
  • 例如:
proxies_dict = {
    "http:": "http://xxx.xxx.xx.xx:33502",
    "https": "https://xx.xx.xx.xxx1:33220"
}
  • 注意:
    • 如果目标地址只支持 http 的,那么我们这个代理 ip 就不能使用 https,如果目标地址支持https,那么同时也能用 http
    • 如果proxies 字典包含多个键值对,发送请求时将按照 url 地址的协议来选择使用响应的代理 ip
    • 当代理ip失效时,要么就是一直卡着,要么就是报错

request.post模拟表单提交

request.session进行登录状态保持

requests 模块中的 Session类能够自动处理发送请求获取响应过程中产生的 cookie,进而达到状态保持的目的。接下来我们来学习它

requests.session 的作用以及引用场景
  • requests.session 的作用
    • 自动处理 cookie,即下一次请求会带上前一次的 cookie
  • requests.session 的应用场景
    • 自动处理连续的多次请求过程中产生的 cookie
requests.session 使用方法

session 实例在请求了一个网站后,对方服务器设置在本地 cookie 会保存在 session 中,下一次再使用 session请求对方服务器的时候,会带上前一次的 cookie

# 实例化 session 对象
session = requests.session()
response = session.get(url,headers, ...)
response = session.post(url,data,headers, ...)
  • session 对象发送 get或 post 请求的参数,与 requests模块发送的参数完全一致

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/430360.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C语言 BMP图片的旋转与缩放

目录 一、bmp文件头、文件信息头、位图实际数据的数据结构定义 二、源BMP文件信息的读取 三、实际位图数据的旋转、缩放操作 四、生成转换过后的新位图文件 #include <stdlib.h> #ifndef PHOTODEAL_H #define PHOTODEAL_H #pragma pack(1) typedef struct tagBm…

力扣经典题目解析--删除链表的倒数第 N 个结点

原题地址:. - 力扣&#xff08;LeetCode&#xff09; 给你一个链表&#xff0c;删除链表的倒数第 n 个结点&#xff0c;并且返回链表的头结点。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5], n 2 输出&#xff1a;[1,2,3,5]示例 2&#xff1a; 输入&#xff1a;h…

【韩顺平零基础学java】第12章课后题

练习题1 如果用户输入的不是一个整数&#xff0c;就提示他反复输入&#xff0c;直到输入的是一个整数为止 import java.util.Scanner;/*如果用户输入的不是一个整数&#xff0c;就反复输入&#xff0c;直到输入的是一个整数为止*/ public class TryCatchExercise04 {public s…

代码随想录算法训练营Day37 | LeetCode738.单调递增的数字、LeetCode968.监控二叉树、贪心算法总结

LeetCode738.单调递增的数字 思路&#xff1a;与分糖果的题目同理&#xff0c;因为需要与前一位数比较&#xff0c;并且修改这两个数&#xff0c;因此需要从后往前遍历&#xff0c;当前一位数比当前数大时&#xff0c;则前一个数-1&#xff0c;后一个数变为9。 代码细节&…

金三银四,程序员如何备战面试季

金三银四&#xff0c;程序员如何备战面试季 一个人简介二前言三面试技巧分享3.1 自我介绍 四技术问题回答4.1 团队协作经验展示 五职业规划建议5.1 短期目标5.2 中长期目标 六后记 一个人简介 &#x1f3d8;️&#x1f3d8;️个人主页&#xff1a;以山河作礼。 &#x1f396;️…

【数据存储】大端存储||小端存储(超详细解析,小白一看就懂!!!)

目录 一、前言 二、什么是低地址、高地址 &#xff1f; 三、什么是数据的高位和低位 &#xff1f; 四、什么是大小端存储&#xff1f; &#x1f349; 小端存储详解 &#x1f352; 大端存储详解 五、为什么会有大小端存储&#xff1f; &#x1f34d;大端存储的优点 &#…

跨境电商趋势解析:社交电商携手私域流量运营,精准触达与转化

随着全球化的深入发展&#xff0c;跨境电商逐渐成为全球贸易的重要组成部分。在这一背景下&#xff0c;社交电商作为一种新兴的商业模式&#xff0c;正逐渐在跨境电商领域崭露头角&#xff0c;并对私域流量的运营产生了深远的影响。本文Nox聚星将和大家分析社交电商在跨境电商中…

数据结构(一)综述

一、常见的数据结构 数据结构优点缺点数组查找快增删慢链表增删快查找慢哈希表增删、查找都快数据散列&#xff0c;对存储空间有浪费栈顶部元素插入和取出快除顶部元素外&#xff0c;存取其他元素都很慢队列顶部元素取出和尾部元素插入快存取其他元素都很慢二叉树增删、查找都快…

交叉编译qt5.14.2

qt源码下载地址&#xff1a;qt-everywhere-src-5.14.2.tar.xz 1.修改qt-everywhere-src-5.14.2/qtbase/mkspecs/linux-arm-gnueabi-g/qmake.conf文件&#xff1a; # # qmake configuration for building with arm-linux-gnueabi-g #MAKEFILE_GENERATOR UNIX CONFIG …

Guitar Pro 8.1中文版永久许可证激活2024最新24位注册激活码生成器

Guitar Pro是一款非常受欢迎的音乐制作软件&#xff0c;它可以帮助用户创建和编辑各种音乐曲谱。从其诞生以来就送专门为了编写吉他谱而研发迭代的。 尽管这款产品可能已经成为全球最受欢迎的吉他打谱软件&#xff0c;在编写吉他六线谱和乐队总谱中始终处于行业领先地位&#…

返回静态数据

在Java项目中&#xff0c;往往不会一直返回某某数据&#xff0c;而是会返回一个静态页面&#xff0c;那么&#xff0c;如何正确返回一个静态页面呢&#xff1f;&#xff1f; 要想成功的返回一个静态页面前提是必须要有一个静态页面&#xff1a; <!DOCTYPE html> <ht…

GEE 数据集 ——利用leafmap python软件包实现NASA数据的接入(colab示例)

我们如何获取我们想要的数据,这里我们通过 leafmap python软件包实现NASA数据种全球超过9000+的数据集产品的接入和使用。这里我们使用在线的colab来实现处理,因为这里我们可以很好的应用已经在线配置好的colab环境来实现,省去了安装过程的繁琐。 要下载和访问数据,您需要…

rust学习(tokio协程分析一)

代码&#xff1a; async fn doAsyncPrint(v:u32) {println!("start doAsyncPrint,v is {},tid is {:?}",v,system::myTid());//thread::sleep(Duration::from_secs(1));time::sleep(Duration::from_secs(10)).await;println!("end,v is {},tid is {:?}"…

MacOS开发环境搭建

MacOS开发环境搭建 一、MacOS二、Python三、MacOS搭建Python开发环境1.Python下载地址1.1 Python官网地址1.2 Python下载地址 2.安装Python3.安装Python4.安装PyCharm5.创建一个Python项目6.配置PyCharm7.安装Python包8.运行Python代码9.总结 一、MacOS macOS是一套由苹果开发的…

云原生数据库 GaiaDB 支持新的管理工具啦

GaiaDB 是百度智能云自研的新一代企业级关系型数据库&#xff0c;最大容量可扩展 500TB 以上&#xff0c;吞吐达到 150 万以上 QPS。 作为一款 100% 兼容 MySQL 的云原生数据库产品&#xff0c;用户可以通过多种客户端工具连接 GaiaDB 实例&#xff0c;例如 MySQL Workbench、N…

【产品经理方法论——产品的基本概念】

1. 产品学三元素 产品学有三个元素&#xff1a;用户、需求、产品 产品学的内容&#xff1a;根据用户的需求设计产品&#xff0c;使用产品服务用户 仅仅通过三个元素无法说明每个元素的概念&#xff0c;因为三个元素互为说明关系。 通过引入人/群体来说明三个元素的关系。 需…

全局渐变滚动条样式

效果如下&#xff1a; APP.vue<style> /* 整个滚动条 */ ::-webkit-scrollbar {width: 5px;height: 10px; } /* 滚动条上的滚动滑块 */ ::-webkit-scrollbar-thumb {background-color: #49b1f5;/* 关键代码 */background-image: -webkit-linear-gradient(45deg,rgba(255,…

Svg Flow Editor 原生svg流程图编辑器(一)

效果展示 项目概述 svg flow editor 是一款流程图编辑器&#xff0c;提供了一系列流程图交互、编辑所必需的功能&#xff0c;支持前端研发自定义开发各种逻辑编排场景&#xff0c;如流程图、ER 图、BPMN 流程等。 目前也有比较好的流程图设计框架&#xff0c;但是还是难满足项目…

鸿蒙Harmony应用开发—ArkTS声明式开发(通用属性:隐私遮罩)

用于对组件内容进行隐私遮罩处理。 说明&#xff1a; 从API Version 10开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 obscured obscured(reasons: Array<ObscuredReasons>) 设置组件内容的遮罩类型。 系统能力&#xff1a; Sys…

拓尔微代理商 TMI3252T 600kHz 18V 2A同步COT降压转换器

TMI3252/S/T是高效率600kHz&#xff0c;恒定导通时间 &#xff08;COT&#xff09; 控制同步模式降压型DC-DC转换器&#xff0c;能够提供高达2A电流。TMI3252/S/T集成主要具有极低 RDS&#xff08;ON&#xff09; 的开关和同步开关以尽量减少传导损耗。低输出电压纹波和小尺寸的…