Python构造代理IP池提高访问量

目录

前言

一、代理IP是什么

二、代理IP池是什么

三、如何构建代理 IP 池

1. 从网上获取代理 IP 地址

2. 对 IP 地址进行筛选

3. 使用筛选出来的 IP 地址进行数据的爬取

四、总结


前言

爬虫程序是批量获取互联网上的信息的重要工具,在访问目标网站时需要频繁发送请求,为了避免被目标网站封禁 IP 地址,我们需要使用代理 IP 来代替自己的 IP 地址进行访问。本文将介绍如何使用 Python 构建代理 IP 池,让爬虫程序更加稳定和高效地运行。

一、代理IP是什么

代理IP是指由第三方提供的,可用于代替用户本机IP地址的IP地址。在网络爬虫或其他数据爬取场景中,使用代理IP可以实现以下几个目的:

  1. 防止 IP 被封禁:有些网站为了防止被爬虫攻击,会设置 IP 访问频率限制和封禁机制,使用代理 IP 可以规避这种封禁。
  2. 隐藏本机 IP:使用代理 IP 可以隐藏用户本机 IP,从而保护用户真实身份在互联网上的安全性。
  3. 改变访问区域:使用代理 IP 可以模拟其他地区或国家的 IP 地址,从而达到一定的访问效果。

二、代理IP池是什么

代理 IP 池是指一个程序管理的,由多个代理 IP 组成的 IP 地址池。通常,代理 IP 池由两部分组成:一个是获取代理 IP 的部分,另一个是维护代理 IP 的部分。

获取代理 IP 的部分主要实现从各种渠道或代理商购买、租用、抓取到代理 IP,并将其存储在一个地址池中。

维护代理 IP 的部分主要实现对代理 IP 的筛选、检测、评分和淘汰等等。通过对代理 IP 进行维护,可以保证代理 IP 池中的 IP 地址有效可靠,避免无效的 IP 地址被使用。

三、如何构建代理 IP 池

Python 中实现代理 IP 池主要有以下几个步骤:

  1. 从网上获取代理 IP 地址,构建 IP 地址池。
  2. 对 IP 地址进行筛选,保留可用的 IP 地址。
  3. 使用筛选出来的 IP 地址进行数据的爬取。
  4. 对爬取过程中返回结果进行处理,过滤掉无用的数据。
  5. 在爬取过程中检测代理 IP 的可用性,将不可用的 IP 地址从 IP 地址池中删除。

为了方便数据的爬取和处理,在此处我们主要介绍 Python 中如何构建代理 IP 池的方法和代码实现。

1. 从网上获取代理 IP 地址

爬取代理 IP 的方法有多种,其中比较常用的有爬取代理网站、从代理商处购买或租用代理 IP、从代理池中抓取代理 IP 等等。

在此处,我们通过从代理网站上爬取代理 IP,并将其存储在代理 IP 池中的方法实现代理 IP 池的构建。

代码实现:

import requests
from lxml import etree
import random

class ProxyPool:
    # 初始化代理池
    def __init__(self):
        # 从代理网站上获取代理 IP
        self.proxy_urls = [
            'http://www.zdaye.com/free/',
            'http://www.zdaye.com/free/2',
            'http://www.zdaye.com/free/3',
            'http://www.zdaye.com/free/4',
            'http://www.zdaye.com/free/5',
        ]
        self.proxies = self.get_proxies()

    # 获取代理 IP
    def get_proxies(self):
        proxies = []
        for url in self.proxy_urls:
            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
            response = requests.get(url, headers=headers)
            html = etree.HTML(response.text)
            ips = html.xpath('//table[@id="ip_list"]/tr/td[2]/text()')
            ports = html.xpath('//table[@id="ip_list"]/tr/td[3]/text()')
            for i in range(len(ips)):
                proxies.append('http://' + ips[i] + ':' + ports[i])
        return self.check_proxies(proxies)

    # 检查代理 IP 的可用性
    def check_proxies(self, proxies):
        valid_proxies = []
        for proxy in proxies:
            try:
                requests.get('https://www.baidu.com', proxies={'http': proxy, 'https': proxy}, timeout=3)
                valid_proxies.append(proxy)
            except:
                continue
        return valid_proxies

    # 随机获取代理 IP
    def get_proxy(self):
        proxy = random.choice(self.proxies)
        return proxy
2. 对 IP 地址进行筛选

为了保证代理 IP 稳定可用,我们需要定期对代理 IP 进行筛选和检测,将不可用的 IP 地址从 IP 地址池中删除。

代码实现:

import time

class ProxyPool:
    ...
    # 定时检查代理 IP 的可用性
    def check_valid_proxies(self):
        while True:
            valid_proxies = self.check_proxies(self.proxies)
            self.proxies = valid_proxies
            time.sleep(60 * 60)

if __name__ == '__main__':
    proxy_pool = ProxyPool()
    proxy_pool.check_valid_proxies()
3. 使用筛选出来的 IP 地址进行数据的爬取

使用筛选出来的 IP 地址进行数据爬取时,需要注意以下几点:

  1. 每个 IP 地址的使用时间不宜过长,建议使用后及时更换。
  2. 使用 IP 地址时不要过于频繁,否则容易被封禁。
  3. 针对不同的网站需根据情况设置不同的请求头部和请求参数。
  4. 在爬取过程中检测代理 IP 的可用性,将不可用的 IP 地址从 IP 地址池中删除。

代码实现:

class Spider:
    # 爬取目标网页
    def get_html(self):
        try:
            proxy = proxy_pool.get_proxy()
            headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'}
            response = requests.get(url, headers=headers, proxies={'http': proxy, 'https': proxy}, timeout=5)
            response.encoding = 'utf-8'
            html = response.text
            return html
        except:
            return None

if __name__ == '__main__':
    proxy_pool = ProxyPool()
    spider = Spider()
    while True:
        html = spider.get_html()
        if html is not None:
            # 对返回结果进行处理,过滤掉无用的数据
            ...
        else:
            print('IP地址失效,更换中...')

四、总结

代理 IP 池对于爬虫程序的稳定运行非常重要,可以有效地提高爬虫程序的访问量和爬取效率,同时也可以避免被目标网站封禁 IP 地址的情况。本文介绍了 Python 中构建代理 IP 池的方法和代码实现,包括从网上获取代理 IP 地址,对 IP 地址进行筛选,使用筛选出来的 IP 地址进行数据的爬取等等。通过学习本文,读者可以了解到代理 IP 的作用和构建代理 IP 池的基本流程,为 Python 爬虫程序的开发提供了帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/111290.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

启动Vue项目报错Error: error:0308010C:digital envelope routines::unsupported

问题描述 启动Vue项目报错Error: error:0308010C:digital envelope routines::unsupported 出现这个一般就是node版本的问题,通过命令查看node -v查看node版本; 百度查了好多,都让我降低node版本,属实太麻烦了 在不改node版本的…

[论文笔记]BGE

引言 今天介绍论文BGE,是智源开源的语义向量模型,BAAI General Embedding。 作者发布了C-Pack,一套显著推进中文嵌入领域的资源包。包括三个重要资源: 1) C-MTEB是一个全面的中文文本嵌入基准,涵盖了6个任务和35个数据集。 2) C-MTP是一个从标记和未标记的中文语料库中选…

均值、方差、标准差

1 中间值和均值 表现"中间值"的统计名词: a.均值:   mean,数列的算术平均值,反应了数列的集中趋势,等于有效数值的合除以有效数值的个数.b.中位值:  median,等于排序后中间位置的值&#x…

c++11新特性

文章目录 1. C11简介2. 统一的列表初始化2.1 {}初始化2.2 std::initializer_list 3. 声明3.1 auto3.2 decltype3.3 nullptr 4 范围for循环5. STL中一些变化 1. C11简介 2003年,C标准委员会提交了技术勘误表(TC1)&…

Python的错误和异常处理

一、错误和异常 编程中出现的错误大致可以分为两类:错误和异常。 (一)错误 错误又可以分为两类:语法错误和逻辑错误。 1. 语法错误 语法错误又称解析错误,它是指在编写程序时,程序的语法不符合Python语言的规范,导致…

BI零售数据分析,告别拖延症,及时掌握一线信息

在日常的零售数据分析中,经常会因为数据量太大,分析指标太多且计算组合多变而导致数据分析报表难产,零售运营决策被迫拖延症。随着BI数据可视化分析技术的发展,智能化、可视化、自助分析的BI数据分析逐渐成熟,形成一套…

如何使用navicat图形化工具远程连接MariaDB数据库【cpolar内网穿透】

公网远程连接MariaDB数据库【cpolar内网穿透】 文章目录 公网远程连接MariaDB数据库【cpolar内网穿透】1. 配置MariaDB数据库1.1 安装MariaDB数据库1.2 测试局域网内远程连接 2. 内网穿透2.1 创建隧道映射2.2 测试随机地址公网远程访问3. 配置固定TCP端口地址3.1 保留一个固定的…

Vue项目搭建及使用vue-cli创建项目、创建登录页面、与后台进行交互,以及安装和使用axios、qs和vue-axios

目录 1. 搭建项目 1.1 使用vue-cli创建项目 1.2 通过npm安装element-ui 1.3 导入组件 2 创建登录页面 2.1 创建登录组件 2.2 引入css(css.txt) 2.3 配置路由 2.5 运行效果 3. 后台交互 3.1 引入axios 3.2 axios/qs/vue-axios安装与使用 3.2…

Webpack常见的插件和模式

文章目录 一、认识插件Plugin1.认识Plugin 二、CleanWebpackPlugin三、HtmlWebpackPlugin1.生成index.html分析2.自定义HTML模板3.自定义模板数据填充 四、DefinePlugin1.DefinePlugin的介绍2.DefinePlugin的使用 五、Mode配置 一、认识插件Plugin 1.认识Plugin Webpack的另一…

【HMS Core】机器学习服务热门问题合集

【关键词】 机器学习服务、文本识别、身份证识别 【问题描述1】 机器学习服务的文本识别能力,是否支持草书等? 【解决方案】 草书是不支持的,目前建议使用较为规范的字体测试。 【问题描述2】 机器学习服务是否支持训练模型?…

Flink on yarn 加载失败plugins失效问题解决

Flink on yarn 加载失败plugins失效问题解决 flink版本:1.13.6 1. 问题 flink 任务运行在yarn集群,plugins加载失效,导致通过扩展资源获取任务参数失效 2. 问题定位 yarn容器的jar包及插件信息,jar包是正常上传 源码定位 加载plugins入口,TaskMana…

Mysql权限控制语句

1.创建用户 create user ky32localhost IDENTIFIED by 123456 create user:创建用户开头 ky32:用户名 localhost 新建的用户可以在哪些主机上登录 即可以使用ip地址,网段主机名 ky32localhost ky32192.168.233.22 ky32192.168.233.0/2…

如何在mac 安装 cocos 的 android环境

基本概念: Java: Java 是一种编程语言,由Sun Microsystems(现在是 Oracle Corporation)开发。Java 是一种跨平台的语言,可以用于开发各种应用程序,包括 Android 应用程序。Android 应用程序的核心代码通常用…

在 Visual Studio 中远程调试 C++ 项目

目录 一、说明二、下载远程工具1. 官网下载2. 自己电脑上拷贝 三、 运行远程工具四、本机Visual Studio配置五、自动部署 一、说明 参考官方文档:https://learn.microsoft.com/zh-cn/visualstudio/debugger/remote-debugging-cpp?viewvs-2022 二、下载远程工具 …

AutoX.js - openCV多分辨率找图

AutoX.js - openCV多分辨率找图 一、起因 AutoXjs 中有两个找图相关的方法 findImage 和 matchTemplate,之前一直没发现什么问题,但最近在一次测试找图时,明明大图和模板图的轮廓都清晰,却怎么也找不到图,降低阈值参…

vue-resource发送数据请求

vue-resource是Vue用于发送数据请求的一个插件库,在Vue1.0版本时使用比较频繁,现在Vue作者更支持使用axios进行数据发送。 一、安装vue-resource库 npm i vue-resource 二、使用vue-resource插件 使用插件之前需要先对插件进行引入 三、使用$http发送…

博弈论学习笔记(2)——完全信息静态博弈

前言 这部分我们学习的是完全信息静态博弈,主要内容包括博弈论的基本概念、战略式博弈、Nash均衡、Nash均衡解的特性、以及Nash均衡的应用。 零、绪论 1、什么是博弈论 1)博弈的定义 博弈论:研究决策主体的行为发生直接相互作用时候的决策…

前度开发面试题

面试题总结 vue页面跳转会经过两个钩子函数beforeEach、afterEach 组见守卫 beforeRouteEnter前置组见守卫 *beforeRouteUpdate更新之前 watch和computed区别 数据没有改变,则 computed 不会重新计算)。若没改变,计算属性会立即返回之前缓…

【Postgres】Postgres常用命令

文章目录 1、导出数据库某张表2、导入某张表到数据库3、查看数据库占用磁盘页数情况4、查看数据库大小5、查看数据表大小6、查看索引大小7、对数据库中表索引按照大小排序8、对数据库中表按照大小排序9、回收空间(建议先回收指定表)10、设置主键自增序列…

想做短视频,但是没有经验,不会拍、不会剪、不会写脚本怎么办?

现在很多人都准备进入短视频领域,让自己多一份收入。不过有个很现实的问题,不会拍、不会剪、也不会写脚本怎么办,还能做短视频吗? 如果是完全不会,那么初期肯定是要学习一些基础知识的,比如基础的拍摄技巧…