网络爬虫设置代理服务器

      

目录

1.获取代理 IP

2.设置代理 IP

3. 检测代理 IP 的有效性

4. 处理异常


         如果希望在网络爬虫程序中使用代理服务器,就需要为网络爬虫程序设置代理服务器。
设置代理服务器一般分为获取代理 IP 、设置代理 IP 两步。接下来,分别对获取代理 IP 和设
置代理 IP 进行详细介绍。

1.获取代理 IP

        代理 IP 主要有 3 种获取方式,它们分别是获取免费代理 IP 、获取付费代理 IP ADSL
拨号,关于它们的介绍如下。
        (1 )获取免费代理 IP 。免费代理 IP 基本没有成本,可以从免费代理网站(如快代理、全
网代理 IP 等)上找一些免费代理 IP ,测试可用后便可以收集起来备用,但使用这种方式获取
的可用代理 IP 相对较少。
        (2 )获取付费代理 IP 。互联网上存在许多代理商,用户付费后便可以获得一些高质量的
代理 IP
        (3 ADSL 拨号。 ADSL Asymmetric Digital Subscriber Line ,非对称数字用户线路)通
过拨号的方式上网,需要输入 ADSL 账号和密码。每次拨号都会更换一个新的 IP 地址,不过
ADSL 拨号操作起来比较麻烦。每切换一次 IP 地址,都要重新拨号。重拨期间还会处于短暂
断网的状态。
        综上所述,免费代理 IP 是比较容易获取的,不过这类代理 IP 的质量不高,高度匿名代理
IP 比较少,有的代理 IP 很快会失效。如果大家对代理 IP 的质量要求比较高,或者需要大量
稳定的代理 IP ,那么建议选择一些正规的代理商进行购买。

2.设置代理 IP

        在 Requests 中,设置代理 IP 的方式非常简单:只需要在调用请求函数时为 proxies 参数
传入一个字典。该字典包含了所需要的代理 IP ,其中字典的键为代理类型(如 http https ),
字典的值为“代理类型 ://IP 地址 : 端口号”格式的字符串。例如,定义一个包含两个代理 IP
字典,代码如下。
proxies = { 
 'http': 'http://127.0.0.1:8070', 
 'https': 'https://10.10.1.10:1080', 
}
        接下来,通过一个例子演示如何从 IP 地址列表中随机选择一个 IP 地址,将该 IP 地址设
置为代理 IP ,之后基于该代理 IP 请求小兔鲜儿网首页,具体代码如下。
import requests 
import random 
# 代理 IP 地址的列表
proxy_list = [ 
 {"http" : "http://101.200.127.149:3129"}, 
 {"http" : "http://59.55.162.4:3256"}, 
 {"http" : "http://180.122.147.76:3000"}, 
 {"http" : "http://114.230.107.102:3256"}, 
 {"http" : "http://121.230.211.163:3256"} 
] 
base_url = 'http://erabbit.itheima.net/#/' 
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64' 
 'AppleWebKit/537.36 (KHTML, like Gecko)' 
 'Chrome/90.0.4430.212 Safari/537.36'} 
# 发送 GET 请求,将 proxy_list 中任意一个 IP 地址设为代理
response = requests.get(base_url, headers=header, 
 proxies= random.choice(proxy_list)) 
print(response.status_code)

        header请求头字段可以在网页按F12键,上方找到网络标识,然后点击下方有一个名称点进去,右边窗口下面就有User-Agent字段。

 

 

        上述代码中,首先创建了包含 5 IP 地址的列表 proxy_list ,定义了代表小兔鲜儿网首页
URL 的变量 base_url ,定义了表示请求头的变量 header ;然后调用 get() 函数根据 base_url 请求
小兔鲜儿网首页,同时指定该请求的请求头为 header 且代理 IP proxy_list 中的任意一个 IP
地址,以防止服务器识别出网络爬虫的身份而被禁止访问,并将服务器返回的响应赋值给变
response ;最后访问 response status_code 属性获取响应状态码。
运行代码,输出如下结果。
 200
        从输出结果可以看出,程序成功访问了小兔鲜儿网首页。
需要说明的是,上述程序中使用的代理 IP 是免费的。由于使用时间不固定,这些代理 IP
一旦超出使用时间范围就会失效,此时再运行上述程序则会出现 ProxyError 异常,所以我们
在这里建议大家换用自己查找的代理 IP

3. 检测代理 IP 的有效性

        互联网上有很多免费的代理 IP ,但这些 IP 地址并不都是有效的。因此需要对获取的免费
IP 地址进行检测,确定 IP 地址是否有效。检测代理 IP 有效性的过程比较简单,需要先遍历
收集的所有代理 IP ,将获取的每个代理 IP 依次设为代理,再通过该 IP 地址向网站发送请求。
如果请求成功,则说明该 IP 地址是有效的;如果请求失败,则说明该 IP 地址是无效的,需要
被剔除。
        下面以 3.4.2 节的代理 IP 为例,为大家演示如何检测代理 IP 的有效性,具体代码如下

 

import requests 
proxy_list = [ 
 {"http" : "http://101.200.127.149:3129"}, 
 {"http" : "http://59.55.162.4:3256"}, 
 {"http" : "http://180.122.147.76:3000"}, 
 {"http" : "http://114.230.107.102:3256"}, 
 {"http" : "http://121.230.211.163:3256"} 
] 
base_url = 'http://erabbit.itheima.net/#/' 
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64' 
 'AppleWebKit/537.36 (KHTML, like Gecko)' 
 'Chrome/90.0.4430.212 Safari/537.36'} 
# 遍历代理 IP 
for per_ip in proxy_list.copy(): 
 try: 
 # 发送 GET 请求,将获取的每个 IP 地址设置为代理
 response = requests.get(base_url, headers=header, 
 proxies=per_ip, timeout=3) 
 except: 
 # 失败则输出 IP 地址无效,并将该 IP 地址从 proxy_list 列表中移除
 print(f'IP 地址:{per_ip.get("http")}无效') 
 proxy_list.remove(per_ip) 
 else: 
 # 成功则输出 IP 地址有效
 print(f'IP 地址:{per_ip.get("http")}有效')
        上述加粗部分的代码中,首先从 proxy_list 列表的副本遍历了每个 IP 地址 per_ip ;然后在 try
子句中调用 get() 函数发送了一个 GET 请求,并在发送该请求时将 per_ip 依次设置为代理,由代
理服务器代替程序向服务器转发请求;接着在 except 子句中处理了请求失败的情况,输出“ IP
地址: ××× 无效”,并将该 IP 地址从 proxy_list 列表中移除,确保 proxy_list 列表中只保留有效
IP 地址;最后在 else 子句中处理了请求成功的情况,输出“ IP 地址: ××× 有效”。
运行代码,输出如下结果。
IP 地址:http://101.200.127.149:3129 有效
IP 地址:http://59.55.162.4:3256 无效
IP 地址:http://180.122.147.76:3000 无效
IP 地址:http://114.230.107.102:3256 无效
IP 地址:http://121.230.211.163:3256 有效
        从输出结果可以看出,这 5 个代理 IP 中有两个是有效的,其余 3 个都是无效的。

4. 处理异常

        每个程序在运行过程中可能会遇到各种各样的问题,网络爬虫自然也不例外。
        访问网站离不开网络的支撑。由于网络环境十分复杂,具有一定的不可控性,所以网络爬虫
每次访问网站后不一定能够成功地获得从服务器返回的数据。网络爬虫一旦在访问过程中遇
到一些网络问题(如 DNS 故障、拒绝连接等),就会导致程序引发异常并停止运行。
requests.exceptions 模块中定义了很多异常类型,常见的异常类型如表 3-2 所示。

         表 3-2 中罗列了一些常见的异常类型。其中,Timeout 继承自 RequestExceptionConnect Timeout 和 ReadTimeout 继承自 Timeout。 为保证程序能够正常终止,我们可以使用 try-except 语句捕获相应的异常,并对异常进行 相应的处理。 由于谷歌网站服务器的原因,访问该网站必定会出现连接超时的问题。下面以访问谷歌 网站为例,为大家演示如何使用 try-except 语句捕获 RequestException 异常,具体代码如下。

1 import time 
2 import requests 
3 # 记录请求的发起时间
4 print(time.strftime('开始时间:%Y-%m-%d %H:%M:%S')) 
5 # 捕获 RequestException 异常
6 try: 
7 html_str = requests.get('http://www.google.com').text 
8 print('访问成功') 
9 except requests.exceptions.RequestException as error: 
10 print(error) 
11 # 记录请求的终止时间
12 print(time.strftime('结束时间:%Y-%m-%d %H:%M:%S'))
        上述代码中,第 4 行代码记录了发送请求之后的时间。第 6 10 行代码使用 try-except
句尝试捕获与处理 RequestException 异常。其中,第 6 8 行代码在 try 子句中调用 get() 函数
访问谷歌网站,并在访问成功后输出“访问成功”。第 9 10 行代码在 except 子句中指定了捕
获的异常类型为 RequestException 。程序监测到 try 子句中的代码抛出 RequestException 异常
时,会捕获 RequestException 和所有继承自 RequestException 的异常,并在捕获异常后输出详
细的异常信息。第 12 行代码记录了终止请求之后的时间。
运行代码,输出如下结果。
开始时间:2021-06-16 13:50:53 
HTTPConnectionPool(host='www.google.com', port=80): Max retries exceeded with url: 
/ (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 
0x00000000034D6790>: Failed to establish a new connection: [WinError 10060] 由于连接方
在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。')) 
结束时间:2021-06-16 13:51:14
        通过对比结束时间与开始时间可知,我们等待了约 20 秒,这个时间相对来说有些长,这
种长时间的等待是没有任何意义的。
        为了减少无意义的等待,我们在发送 HTTP 请求时可以设置超时时长,即调用 get() 函数
时传入 timeout 参数,并给该参数指定代表超时时长的值。如果超过该时长,服务器仍然没有
返回任何响应内容,就让程序立即引发一个超时异常。在以上示例中,为请求设置超时时长
5 秒,具体代码如下。
# 发送 GET 请求,设置超时时长
html_str = requests.get('http://www.google.com', timeout=5).text

        再次运行代码,输出如下结果。 

开始时间:2021-06-16 14:30:01 
HTTPConnectionPool(host='www.google.com', port=80): Max retries exceeded with url: 
/ (Caused by ConnectTimeoutError(<urllib3.connection.HTTPConnection object at 
0x00000000033E23D0>, 'Connection to www.google.com timed out. (connect timeout=5)')) 
结束时间:2021-06-16 14:30:06
        通过对比结果中的结束时间和开始时间可知,程序执行了 5 秒后便直接结束,并抛出
ConnectTimeoutError 异常及提示信息“ Connection to www.google.com timed out ”。这说明连接
谷歌网站时超过了预设的等待时长而导致访问失败。

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/731827.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【STM32--Cortex-M3】

STM32-Cortex-M3 ■ Cortex-M3 处理器内核到基于Cortex-M3的MCU■ ARM的各种架构版本■ 指令集■ Cortex-M3简介■ Cortex-M3寄存器组■ Cortex-M3■ Cortex-M3■ Cortex-M3 ■ Cortex-M3 处理器内核到基于Cortex-M3的MCU Cortex-M3处理器内核是单片机的中央处理单元&#xff…

JDK18特性

JDK18特性 一、JAVA18概述 Java 18 在 2022 年 3 月 22 日正式发布,Java 18 不是一个长期支持版本,这次更新共带来 9 个新功能。 https://openjdk.org/projects/jdk/18/ 二、具体新特性 1. 默认UTF-8字符编码 JDK 一直都是支持 UTF-8 字符编码,这次是把 UTF-8 设置为了默…

RPM 打包入门(基于openEuler)

主要参考内容&#xff08;均为官方文档&#xff09;&#xff1a; https://rpm-packaging-guide.github.io/#building-rpms https://docs.redhat.com/zh_hans/documentation/red_hat_enterprise_linux/8/html/packaging_and_distributing_software/introduction-to-rpm_packagin…

Opencv学习项目5——pyzbar,numpy

上一次我们使用pyzbar进行解码二维码并将其内容显示在图像上&#xff0c;使用的是rect barcode.rect来获取图像的坐标&#xff0c;这次我们使用另一种方法来获取坐标进行画框。 Numpy介绍 NumPy 是一个用于科学计算的开源 Python 库&#xff0c;提供了对大量数值数据进行高效操…

Java学习笔记(一)Java内容介绍、程序举例、DOS命令、Java跨平台特性的本质

Hi i,m JinXiang ⭐ 前言 ⭐ 本篇文章主要介绍Java内容介绍、程序举例、DOS命令、Java跨平台特性的本质详细介绍以及部分理论知识 🍉欢迎点赞 👍 收藏 ⭐留言评论 📝私信必回哟😁 🍉博主收将持续更新学习记录获,友友们有任何问题可以在评论区留言 目录 1、内容介绍…

STM32项目分享:家庭环境监测系统

目录 一、前言 二、项目简介 1.功能详解 2.主要器件 三、原理图设计 四、PCB硬件设计 1.PCB图 2.PCB板打样焊接图 五、程序设计 六、实验效果 七、资料内容 项目分享 一、前言 项目成品图片&#xff1a; 哔哩哔哩视频链接&#xff1a; https://www.bilibili.…

数据可视化实验四:Pyecharts数据可视化

目录 一、使用PyEcharts绘制全国肺炎确诊人数分布图 1.1 柱状图 1.1.2 代码实现 1.1.2 绘制结果 1.2 饼状图 1.2.1 代码实现 1.2.2 绘制结果 1.3 使用over lap实现图形叠加 1.3.1 代码实现 1.3.2 绘制结果 1.4 地图绘制-Map 1.4.1 代码实现 1.4.2 绘制结果 1.5 地…

ECharts 词云图案例二:创意蒙版应用

ECharts 词云图案例二&#xff1a;创意蒙版应用 引言 在数据可视化领域&#xff0c;ECharts 以其强大的功能性和灵活性&#xff0c;成为开发者和设计师的首选工具之一。继上一篇关于 ECharts 词云图的详细介绍后&#xff0c;本文将探索词云图的进阶应用——使用蒙版来创造更具…

谷歌手机刷机教学

注意&#xff1a;手机已经解开了oem锁和bl 1、adb基础命令 连接设备adb devices&#xff1a;列出当前连接的所有设备。 adb connect <设备IP>&#xff1a;通过IP地址连接设备&#xff08;用于无线连接&#xff09;。 设备信息adb shell getprop&#xff1a;获取设备的所…

MySQL的DDL语句

文章目录 ☃️概述☃️DDL&#xff08;数据定义语言&#xff09;☃️数据库操作☃️表操作☃️DDL的重要性 ☃️概述 MySQL 通用语法分类 ● DDL: 数据定义语言&#xff0c;用来 定义数据库对象&#xff08;数据库、表、字段&#xff09; ● DML: 数据操作语言&#xff0c;用…

C#修改 EXE 文件图标和 winForm 窗口图标

修改 EXE 文件图标 1.准备好图片&#xff0c;转换为 Icon 图片&#xff1b; 2.右键工程&#xff0c;选择属性&#xff1b; 3.选择 Icon 图标即可&#xff1b; 4.重新生成可执行文件&#xff0c;查看。 修改 winForm 窗口图标 1.选中 winForm &#xff0c;查看属性&#x…

Android提供的LruCache类简介(1)

* If your cached values hold resources that need to be explicitly released, * override {link #entryRemoved}. * 如果你cache的某个值需要明确释放&#xff0c;重写entryRemoved() * If a cache miss should be computed on demand for the corresponding keys, * ov…

CVPR最佳论文:谷歌基于Spectral Volume从单图生成视频

一、摘要&#xff1a; 论文&#xff1a;Generative Image Dynamics&#xff0c;https://arxiv.org/pdf/2309.07906 项目主页&#xff1a;https://generative-dynamics.github.io/ 本文提出了一种新颖的方法来模拟场景运动的图像空间先验。通过从真实视频序列中提取的自然振荡…

调试实战 | 记一次有教益的 vs2022 内存分配失败崩溃分析(续)

前言 前一阵子遇到了 vs2022 卡死的问题&#xff0c;在上一篇文章中重点分析了崩溃的原因 —— 当 vs2022 尝试分配 923MB 的内存时&#xff0c;物理内存页文件大小不足以满足这次分配请求&#xff0c;于是抛出异常。 本篇文章将重点挖掘一下 vs2022 在崩溃之前已经分配的内容…

昇思25天学习打卡营第4天|网络构建|函数式自动微分

学AI还能赢奖品&#xff1f;每天30分钟&#xff0c;25天打通AI任督二脉 (qq.com) 网络构建 神经网络模型是由神经网络层和Tensor操作构成的&#xff0c;mindspore.nn提供了常见神经网络层的实现&#xff0c;在MindSpore中&#xff0c;Cell类是构建所有网络的基类&#xff0c;也…

借助AI营销类API,实现自动化的营销流程

借助AI营销类API&#xff0c;企业可以实现自动化的营销流程&#xff0c;提高效率和效果&#xff0c;并节省大量的时间和资源。这些API利用人工智能和机器学习的技术&#xff0c;能够自动化地执行各种营销任务和流程。首先&#xff0c;AI营销类API可以帮助企业实现自动化的市场调…

【鸿蒙】创建第⼀个鸿蒙项⽬

点击 Create Project 配置项目 开发工具界面 工程介绍

探索AI前沿:本地部署GPT-4o,打造专属智能助手!

目录 1、获取API_key 2、开始调用 3、openai连接异常 4、解决方法&#xff1a; 5、调用GPT-4o 1、获取API_key 这里就不多赘述了&#xff0c;大家可以参考下面这篇博客 怎么获取OpenAI的api-key【人工智能】https://blog.csdn.net/qq_51625007/article/details/13763274…

大数据与java哪个好找工作?这篇文章帮你做选择!

大数据与java哪个好找工作&#xff1f;这篇文章帮你做选择&#xff01; 还在为选择Java开发还是Java大数据而头疼吗&#xff1f;别担心&#xff0c;本文将从就业前景、学习方向、学习内容以及薪资待遇四个方面&#xff0c;为你揭开Java和Java大数据的神秘面纱&#xff0c;帮你做…

ZW3D二次开发_删除草图中的实体

1.目前草图中的实体不能直接通过id删除&#xff0c;而是通过entityPath实体路径&#xff0c;所以需要将id转化为实体路径。 2.以下示例代码的主要功能为获取草图中的所有实体并删除&#xff1a; int Count;int *idEnts;ZF_CALL(cvxSkInqGeom(&Count, &idEnts));//获取…