【Python】爬虫代理IP的使用+建立代理IP池

目录

前言

一、代理IP

1. 代理IP的获取

2. 代理IP的验证

3. 代理IP的使用

二、建立代理IP池

1. 代理IP池的建立

2. 动态维护代理IP池

三、完整代码

总结


前言

在进行网络爬虫开发时,我们很容易遭遇反爬虫机制的阻碍。为了规避反爬虫机制,我们可以使用代理IP。代理IP是指通过代理服务器获取的可用于访问目标网站的IP地址,通过使用代理IP,我们可以隐藏自己的真实IP地址,避免被目标网站封禁。

但是,在使用代理IP时,我们需要注意一些问题:

  1. 代理IP的质量。有些代理IP可能无法正常使用,需要对代理IP进行筛选和测试,确保代理IP的可用性。
  2. 代理IP的多样性。不同位置、不同类型的代理IP都可以使用。我们需要建立起代理IP池,方便灵活地切换代理IP,提高抓取效率。

本文将介绍如何使用python爬虫实现代理IP的使用以及代理IP池的建立。


一、代理IP

1. 代理IP的获取

我们可以从代理IP供应商处购买或免费获取代理IP,也可以自己搭建代理服务器获取代理IP。

这里以免费获取代理IP为例。我们可以从以下网站获取免费代理IP:

https://www.zdaye.com/
https://www.kxdaili.com/
https://www.ip3366.net/
2. 代理IP的验证

通过免费获取的代理IP,我们不能保证其全部可用。因此,我们需要对代理IP进行验证。

验证代理IP的代码如下:

import requests

def check_proxy(proxy):
    try:
        res = requests.get('http://www.baidu.com', proxies=proxy, timeout=5)
        if res.status_code == 200:
            return True
        else:
            return False
    except:
        return False

我们通过访问百度网站来验证代理IP的可用性。如果可以成功访问,则返回True,否则返回False。如果代理IP的可用性值为True,则可以将其添加到代理IP池中,供后续使用。

3. 代理IP的使用

使用代理IP的代码如下:

import requests

def get_html(url, proxy):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    try:
        res = requests.get(url, headers=headers, proxies=proxy, timeout=5)
        if res.status_code == 200:
            return res.text
        else:
            return None
    except:
        return None

我们通过为requests库的get方法传递一个proxies参数来使用代理IP。如果请求成功,则返回响应内容;否则返回None,表示请求失败。


二、建立代理IP池

1. 代理IP池的建立

我们可以从多个代理IP供应商处获取代理IP。在使用代理IP时,我们随机从代理IP池中选择一个代理IP,保证请求的随机性,提高反爬虫机制的规避效果。

代理IP池的建立代码如下:

import random
import requests

class ProxyPool(object):
    def __init__(self):
        self.pool = []

    def add_proxy(self, proxy):
        if self.check_proxy(proxy):
            self.pool.append(proxy)

    def check_proxy(self, proxy):
        try:
            res = requests.get('http://www.baidu.com', proxies=proxy, timeout=5)
            if res.status_code == 200:
                return True
            else:
                return False
        except:
            return False

    def get_proxy(self):
        if not self.pool:
            return None
        return random.choice(self.pool)

我们可以通过add_proxy方法往代理IP池中添加代理IP,通过get_proxy方法来随机获取一个可用的代理IP。

2. 动态维护代理IP池

在使用代理IP时,我们需要不断地维护代理IP池,剔除失效的代理IP,添加新的代理IP。

动态维护代理IP池的代码示例:

import time
from threading import Thread

class ProxyPool(object):
    def __init__(self):
        self.pool = []
        self.check_interval = 600  # 代理IP检查周期,单位为秒
        Thread(target=self.check_proxy_loop).start()

    def add_proxy(self, proxy):
        if self.check_proxy(proxy):
            self.pool.append(proxy)

    def check_proxy(self, proxy):
        try:
            res = requests.get('http://www.baidu.com', proxies=proxy, timeout=5)
            if res.status_code == 200:
                return True
            else:
                return False
        except:
            return False

    def get_proxy(self):
        if not self.pool:
            return None
        return random.choice(self.pool)

    def check_proxy_loop(self):
        while True:
            for proxy in self.pool:
                if not self.check_proxy(proxy):
                    self.pool.remove(proxy)
                    print('{} removed from proxy pool'.format(proxy))
            time.sleep(self.check_interval)

在代理IP池的构造函数中,我们创建了一个线程来循环检查代理IP池中的代理IP。如果检查到某个代理IP失效,则将其从代理IP池中移除,并在控制台输出信息提示。

三、完整代码

import random
import requests
from threading import Thread
import time

class ProxyPool(object):
    def __init__(self):
        self.pool = []
        self.check_interval = 600  # 代理IP检查周期,单位为秒
        Thread(target=self.check_proxy_loop).start()

    def add_proxy(self, proxy):
        if self.check_proxy(proxy):
            self.pool.append(proxy)

    def check_proxy(self, proxy):
        try:
            res = requests.get('http://www.baidu.com', proxies=proxy, timeout=5)
            if res.status_code == 200:
                return True
            else:
                return False
        except:
            return False

    def get_proxy(self):
        if not self.pool:
            return None
        return random.choice(self.pool)

    def check_proxy_loop(self):
        while True:
            for proxy in self.pool:
                if not self.check_proxy(proxy):
                    self.pool.remove(proxy)
                    print('{} removed from proxy pool'.format(proxy))
            time.sleep(self.check_interval)

def main():
    proxy_pool = ProxyPool()
    url = 'https://www.baidu.com'
    proxy = {'http': 'http://127.0.0.1:8080', 'https': 'http://127.0.0.1:8080'}
    html = get_html(url, proxy)
    print(html)

if __name__ == '__main__':
    main()

总结

本文介绍了如何使用python爬虫实现代理IP的使用以及代理IP池的建立。在使用代理IP时,我们需要注意代理IP的质量和多样性。在使用代理IP池时,我们需要不断地维护代理IP池,剔除失效的代理IP,添加新的代理IP,以免影响爬虫的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/146547.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

DNA甲基化的相关知识

目录 1. DNA甲基化简介 2. 原理 3. 酶分类 4. DNA甲基化类型 5.机制 6. 十大DNA甲基化研究核心问题 6.1 植物中的甲基化 6.2 植物中DNA甲基化的主要功能 6.3 DNA甲基化作为生物标志物的潜力 6.4 DNA甲基化检测方法 1. DNA甲基化简介 DNA甲基化(DNA methy…

【NI-DAQmx入门】触发相关

触发概述 触发采集为用户提供了两个主要好处:它对输入信号相对于触发事件进行计时,因此用户仅捕获感兴趣区域中的信号,从而节省硬件带宽和内存。 模拟触发和数字触发 模拟触发和数字触发的区别在于触发源的不同。数字触发是一种 TTL 信号&am…

C语言之深入指针(四)

C语言之深入指针 1 函数指针变量 1.1 函数指针变量的创建 整型指针是存放整型数据的指针 数组指针是存放数组地址的指针 那么函数指针变量就是存放函数地址的指针,可以通过函数的地址来调用函数 那么函数是否有自己的地址呢?我们可以写一段代码来看一下 #incl…

世界互联网大会|云轴科技ZStack受邀分享云原生超融合

11月8日至10日“世界互联网大会乌镇峰会”在浙江嘉兴的乌镇开幕,大会的主题为“建设包容、普惠、有韧性的数字世界——携手构建网络空间命运共同体”,全球各界代表就热点焦点问题展开讨论,反映产业各界对互联网发展的前瞻思考,引领…

UE4 / UE5 内存与性能优化

性能优化 资源压缩粒子优化NavMeshGenerate Overlap EventGCMarkTime光照优化Shader优化卡的时间长LOD官方CPU、GPU Insights、stat cpu、 ue4 memory report、inter GPA 、RenderDOC、减少模型面数等 资源压缩 在图片资源上右键选择Size Map可以看到资源所占大小,…

可以通过电脑远程控制安卓设备的软件

有些时候,我们需要用电脑远程控制安卓设备,比如远程维护门店设备、安卓系统的户外广告牌等等。我们来探索和比较几款允许用户通过电脑远程控制安卓设备的软件。 1、Splashtop Business Splashtop 是一种多功能远程访问解决方案,以其高性能流…

【大语言模型】Docker部署清华大学ChatGLM3教程

官方地址:https://github.com/THUDM/ChatGLM3 1 将代码保存至本地 方法1: git clone https://github.com/THUDM/ChatGLM3 方法2: https://github.com/THUDM/ChatGLM3/archive/refs/heads/main.zip 2 创建Docker文件 注:请先…

verdi merge fsdb出现信号冲突的解决办法

前段时间介绍了verdi用 Edit Virtual File的方式把几个fsdb文件merge起来的方法 由于当时实验的时候只用了两个小的fsdb文件,每个fsdb文件中包含的信号量也比较少,所以并没有发现问题 我是用 Edit Virtual FIle把dump不同hier的fsdb文件merge到一起&am…

2023年03月 Python(五级)真题解析#中国电子学会#全国青少年软件编程等级考试

Python等级考试(1~6级)全部真题・点这里 一、单选题(共25题,每题2分,共50分) 第1题 已知一个列表lst = [2,3,4,5,6],lst.append(20),print(lst)的结果是?( )(2分) A.[10,2,3,4,5,6,20] B.[20,2,10,3,4,5,6] C.[2,3,4,5,6,20] D.[2,3,4,5,6,10,20] 答案:C 第2…

uni-app报错“本应用使用HBuilderX x.x.x 或对应的cli版本编译,而手机端SDK版本是x.x.x不匹配的版本可能造成应用异常”

uniapp开发的一个跨平台软件,在安卓模拟器上启动的时候报警告: 官方给的解释:uni-app运行环境版本和编译器版本不一致的问题 - DCloud问答 解决办法有两个 方法一:添加忽略警告的配置 项目根目录下找到 manifest.json&#xf…

LeetCode 1334. 阈值距离内邻居最少的城市:多次运用单源最短路的迪杰斯特拉算法

【LetMeFly】1334.阈值距离内邻居最少的城市:多次运用单源最短路的迪杰斯特拉算法 力扣题目链接:https://leetcode.cn/problems/find-the-city-with-the-smallest-number-of-neighbors-at-a-threshold-distance/ 有 n 个城市,按从 0 到 n-1…

【kafka】 查看节点的消息

对于初学者来说,可能想去节点看看有没有消息产生和消费,可以去kafka的bin目录下执行这个命令: kafka-console-consumer.bat --bootstrap-server localhost:9092 --topic myTopic --from-beginning 这个命令可以理解为:生产过的消…

Python 爬虫之scrapy 库

文章目录 总的介绍相关模块 总的介绍 Scrapy是一个用于爬取网站数据的开源Python框架。它提供了一套强大而灵活的工具,用于从网站上提取所需的数据。Scrapy是基于Twisted异步网络库构建的,因此可以高效地处理大量的并发请求。以下是Scrapy的一些主要特点…

oracle-buffer cache

段,区,块。 每当新建一个表,数据库会相应创建一个段。然后给这个段分配一个区。 一个区包含多个块。 区是oracle给段分配空间的最小单位。 块是oracle i\o的最小单位。 原则上,一个块包含多行数据。 dbf文件会被划分成一个一个…

Clickhouse学习笔记(15)—— Clickhouse备份

手动备份 参考官网:Backup and Restore | ClickHouse Docs 简单来说,就是我们可以通过ALTER TABLE ... FREEZE PARTITION ...命令为表分区创建一个本地副本,然后这个副本硬链接到/var/lib/clickhouse/shadow/文件夹,因此其不会耗…

防爆五参数气象仪的科技力量

WX-FBQ2 随着科技的不断进步,气象监测设备也在不断升级和完善。 防爆五参数气象仪是一种可以同时监测温度、湿度、压力、风速和风向五个基本气象参数的仪器。它采用了气象监测技术,不仅可以实时监测气象数据,还可以对数据进行分析和处理。 …

【Java笔试强训】Day11(CM24 最近公共祖先、HJ86 求最大连续bit数)

CM24 最近公共祖先 链接:最近公共祖先 题目: 将一棵无穷大满二叉树的结点按根结点一层一层地从左往右编号,根结点编号为1。现给定a,b为两个结点。设计一个算法,返回a、b最近的公共祖先的编号。注意其祖先也可能是结…

上机实验四 图的最小生成树算法设计 西安石油大学数据结构

实验名称:图的最小生成树算法设计 (1)实验目的: 掌握最小生成树算法,利用kruskal算法求解最小生成树。 (2)主要内容: 利用kruskal算法求一个图的最小生成树,设计Krus…

U-Mail海外邮件中继帮您解决企业邮件退信难题

过去一年,国内外形势严峻复杂,但中国外贸顶住压力、爬坡过坎,进出口规模冲破40万亿元大关,高达42万亿元人民币,中国连续6年位居货物贸易第一大国。随着我国疫情防控措进入新阶段,“拼经济”正在成为各地的一…

量化交易:使用 python 进行股票交易回测

执行环境: Google Colab 1. 下载数据 import yfinance as yfticker ZM df yf.download(ticker) df2. 数据预处理 df df.loc[2020-01-01:].copy()使用了 .loc 方法来选择索引为 ‘2020-01-01’ 以后的所有行数据。通过 .copy() 方法创建了一个这些数据的副本,确…