【Python|接口自动化测试】使用requests发送http请求时添加headers

文章目录

  • 1.前言
  • 2.HTTP请求头的作用
  • 3.在不添加headers时
  • 4.反爬虫是什么?
  • 5.在请求时添加headers

1.前言

本篇文章主要讲解如何使用requests请求时添加headers,为什么要加headers呢?是因为有些接口不添加headers时,请求会失败。

2.HTTP请求头的作用

HTTP请求头(Request Headers)是HTTP请求中的一部分,它们携带了客户端发送到服务器的信息。这些信息可以帮助服务器更好地处理客户端的请求。请求头位于HTTP请求的方法行之后,消息体之前。它们提供了关于客户端环境和请求的具体配置的信息,比如用户代理信息、语言偏好设置、认证凭据等。
headers的内容如下(headers里面的键值对可以自定义):
在这里插入图片描述

3.在不添加headers时

接口URL:https://movie.douban.com/j/search_subjects
请求方法:GET
请求参数:
在这里插入图片描述
接口返回数据:
在这里插入图片描述
使用requests发送请求:

import requests

url = "https://movie.douban.com/j/search_subjects"
params = {
    "type":"movie",
    "tag": "热门",
    "page_limit": 50,
    "page_start":0
}
r = requests.get(url=url, params=params)
print(r.status_code)
print(r.json())

运行结果如下:
在这里插入图片描述
这里的得到了HTTP的状态码是418,是因为网站拥有反爬虫机制,先来认识一下什么是反爬虫。

4.反爬虫是什么?

反爬虫(Anti-Web Scraping)是指网站采取的一系列措施和技术手段,旨在阻止或限制自动化程序(如网络爬虫或机器人)对网站内容的抓取。这是因为有些网站不希望自己的内容被未经授权的方式大量复制或使用,以保护自己的版权、数据安全或者用户体验。下面是一些常见的反爬虫策略:

  1. User-Agent检测

    • 网站会检查请求中的User-Agent字段,以识别出那些明显属于自动化工具的请求,并拒绝这些请求。
  2. IP地址封禁

    • 如果某个IP地址在短时间内发送了大量请求,可能会被认定为爬虫并被封禁一段时间。
  3. 验证码(CAPTCHA)

    • 当检测到可疑活动时,网站可能会要求用户通过验证码来证明自己不是机器人。
  4. JavaScript渲染

    • 一些网站使用JavaScript动态加载内容,使得简单的HTTP请求无法获取完整的页面内容。
  5. 请求频率限制(Rate Limiting)

    • 对于API接口,网站可能设置每分钟或每天的最大请求数,超过这个数量就会拒绝服务。
  6. Cookies和Session ID

    • 使用Cookies和Session ID来跟踪用户行为,如果发现异常行为,则可能阻止该用户继续访问。
  7. 伪装内容

    • 向爬虫显示不同的内容或错误信息,以迷惑爬虫。
  8. 加密和混淆

    • 使用加密技术或混淆JavaScript代码,使爬虫难以解析数据。

5.在请求时添加headers

解决上述问题,我们可以模拟浏览器来发送请求
在刚才的headers中有一个User- Agent字段,用来描述客户端软件的身份信息。这个字符串通常包含了客户端浏览器的名称、版本号、支持的操作系统以及其他相关信息。
在这里插入图片描述
定义一个变量来存放User-Agent的值,然后在请求中传参即可
代码如下:

import requests

url = "https://movie.douban.com/j/search_subjects"
params = {
    "type":"movie",
    "tag": "热门",
    "page_limit": 50,
    "page_start":0
}
headers = {
    "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36"
}
r = requests.get(url=url, params=params, headers=headers)
print(r.status_code)
print(r.json())

requests中有一个**kwargs
在这里插入图片描述
这里底层是调用的request方法
在request方法中可以看到headers这个参数
在这里插入图片描述
运行结果:
在headers中添加user-agent之后,请求就能正常返回了
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/888362.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++ Primer Plus】4

2 字符串 字符串是存储在内存的连续字节中的一系列字符;C处理字符串的方式有两种, c-风格字符串(C-Style string)string 类 2.1 c-风格字符串(C-Style string) 2.1.1 char数组存储字符串(c-…

Python编码规范与常见问题纠正

Python编码规范与常见问题纠正 Python 是一种以简洁和易读性著称的编程语言,因此,遵循良好的编码规范不仅能使代码易于维护,还能提升代码的可读性和可扩展性。编写规范的 Python 代码也是开发者职业素养的一部分,本文将从 Python…

Linux聊天集群开发之环境准备

一.windows下远程操作Linux 第一步:在Linux终端下配置openssh,输入netstate -tanp,查看ssh服务是否启动,默认端口22.。 注:如果openssh服务,则需下载。输入命令ps -e|grep ssh, 查看如否配有, ssh-agent …

tensorflow快速入门--如何定义张量、定义网络结构、超参数设置、模型训练???

前言 由于最近学习的东西涉及到tensorflow的使用,故先简单的学习了一下tensorflow中如何定义张量、定义网络结构、超参数设置、模型训练的API调用过程;欢迎大家,收藏关注,本人将持续更新。 文章目录 1、基本操作1、张量基础操作创…

[Python] 编程入门:理解变量类型

文章目录 [toc] 整数常见操作 浮点数字符串字符串中混用引号问题字符串长度计算字符串拼接 布尔类型动态类型特性类型转换结语 收录专栏:[Python] 在编程中,变量是用于存储数据的容器,而不同的变量类型则用来存储不同种类的数据。Python 与 C…

爬虫——爬虫理论+request模块

一、爬虫理论 爬虫——请求网站并提取数据的自动化程序 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动的抓取互联网信息的程序。 原则上&…

SQL第12课——联结表

三点:什么是联结?为什么使用联结?如何编写使用联结的select语句 12.1 联结 SQL最强大的功能之一就是能在数据查询的执行中联结(join)表。联结是利用SQL的select能执行的最重要的操作。 在使用联结前,需要了解关系表…

【数据结构 | PTA】栈

文章目录 7-1 汉诺塔的非递归实现7-2 出栈序列的合法性**7-3 简单计算器**7-4 盲盒包装流水线 7-1 汉诺塔的非递归实现 借助堆栈以非递归(循环)方式求解汉诺塔的问题(n, a, b, c),即将N个盘子从起始柱(标记…

Golang | Leetcode Golang题解之第447题回旋镖的数量

题目: 题解: func numberOfBoomerangs(points [][]int) (ans int) {for _, p : range points {cnt : map[int]int{}for _, q : range points {dis : (p[0]-q[0])*(p[0]-q[0]) (p[1]-q[1])*(p[1]-q[1])cnt[dis]}for _, m : range cnt {ans m * (m - 1)…

多功能快捷回复软件

各位亲爱的客服宝宝们,每天面对大量的客户咨询,您是否还在手动一个一个地打字回复呢?别担心,我们为您带来了一款多功能快捷回复软件——客服宝。有了它,您的工作将变得无比轻松! 客服宝是一款集成了内容存储…

window下‘jps‘ 不是内部或外部命令,也不是可运行的程序或批处理文件,特别是使用idea开发工具的环境

1、在系统环境变量里面查看是否有JAVA_HOME环境变量,如果是用idea来管理环境变量的,需要如图设置指向jbr,如果是单独安装的jdk环境指向自己的安装目录即可 2、设置系统环境Path,需要把jre和bin添加进去

手写mybatis之把反射用到出神入化

前言 但在实操上,很多码农根本没法阅读框架源码。首先一个非常大的问题是,面对如此庞大的框架源码,不知道从哪下手。与平常的业务需求开发相比,框架源码中运用了大量的设计原则和设计模式对系统功能进行解耦和实现,也使…

深度学习----------------------序列到序列学习(seq2seq)

目录 机器翻译Seq2seq编码器-解码器细节训练衡量生成序列的好坏的BLEU总结序列到序列学习实现循环神经网络编码器解码器通过零值化屏蔽不相关的项该部分总代码 通过扩展softmax交叉熵损失函数来遮蔽不相关的预测训练预测BLEU的代码实现该部分总代码 机器翻译 给定一个源语言的…

IDEA几大常用AI插件

文章目录 前言列表GPT中文版TalkXBito AIIDEA自带的AI 前言 最近AI、GPT特别火,IDEA里面又有一堆插件支持GPT,所以做个专题比较一下各个GPT插件 列表 先看idea的plugins里支持哪些,搜索“GPT”之后得到的,我用下来感觉第一第二和…

使用微服务Spring Cloud集成Kafka实现异步通信(消费者)

1、本文架构 本文目标是使用微服务Spring Cloud集成Kafka实现异步通信。其中Kafka Server部署在Ubuntu虚拟机上,微服务部署在Windows 11系统上,Kafka Producer微服务和Kafka Consumer微服务分别注册到Eureka注册中心。Kafka Producer和Kafka Consumer之…

无法编辑PDF文件?试试这3个解决方法!

PDF文件格式广泛应用于工作中,但有时候我们可能遇到无法编辑PDF文件的情况。这可能导致工作效率降低,特别是在需要修改文件内容时显得尤为棘手。遇到PDF不能编辑时,可以看看是否以下3个原因导致的。 原因一:PDF文件设置了编辑权限…

dockertop提示Failed to fetch extensions

解决办法:重装dockertop 第一步:卸载当前的dockertop 如果卸载过程中存在AlibabaProtect的相关软件关不掉,那么参考这篇文章:卸载AlibabaProtect 第二步:删除C:\Program Files路径下的Docker文件夹 第三步&#xff1…

YOLOv5复现(论文复现)

YOLOv5复现(论文复现) 本文所涉及所有资源均在传知代码平台可获取 文章目录 YOLOv5复现(论文复现)概述模型结构正负样本匹配策略损失计算数据增强使用方式训练测试验证Demo 概述 YOLOv5是由Ultralytics公司于2020年6月开源的目标检…

【架构】prometheus+grafana系统监控

文章目录 一、Prometheus简介二、Grafana简介三、PrometheusGrafana系统监控的实现四、优势与应用场景 参考 PrometheusGrafana系统监控是一个强大的组合,用于实时监控和分析系统的性能与状态。以下是对这一组合在系统监控中的详细解析: 一、Prometheus…

【牛顿迭代法求极小值】

牛顿迭代法求极小值 仅供参考 作业内容与要求 作业内容 作业要求 递交报告 代码 编程实现 计算偏导数 故上述非线性方程组的根可能为 f ( x , y ) f(x, y) f(x,y)的极值点,至于是极小值点还是极大值点或鞍点,就需要使用微积分中的黑塞矩阵来判断了。…