使用 Puppeteer-Cluster 和代理进行高效网络抓取: 完全指南

文章目录

  • 一、介绍?
  • 二、什么是 Puppeteer-Cluster?
  • 三、为什么代理在网络抓取中很重要?
  • 四、 为什么使用带代理的 Puppeteer-Cluster?
  • 五、分步指南: 带代理的 Puppeteer 群集
    • 5.1. 步骤 1:安装所需程序库
    • 5.2. 步骤 2. 获取并设置代理
    • 5.3. 步骤 3:使用代理身份验证设置 Puppeteer-Cluster
  • 六、使用 Puppeteer 群集和代理的最佳实践
  • 七、结论

一、介绍?

网络搜刮对于大规模收集数据至关重要,而 Puppeteer 是一种广泛使用的工具,用于自动执行网络搜刮等浏览器任务。不过,随着刮擦需求的增长,你需要高效地管理多个浏览器实例,同时避免 IP 禁止。这就是 Puppeteer-Cluster 和代理发挥作用的地方。

在本博客中,我们将探讨如何使用 Puppeteer-Cluster 扩展网络刮擦,同时集成代理服务器以避免检测并提高刮擦性能。此外,我们还将逐步介绍如何使用特定凭证集成代理服务器。

二、什么是 Puppeteer-Cluster?

Puppeteer-Cluster 是一个开源库,旨在通过并发运行多个无头浏览器实例来扩展 Puppeteer 的功能。它能处理任务队列、重试和并发,使大规模刮擦更易于管理和高效。

Puppeteer-Cluster 的主要功能包括

并发性: 并行运行多个浏览器实例,提高搜索任务的速度和效率。
任务调度: 自动处理任务调度,防止资源过载。
重试和错误处理: 如果页面加载失败,Puppeteer-Cluster 可重试任务,提高可靠性。
优化资源使用: 通过管理浏览器会话,Puppeteer-Cluster 可减少内存和 CPU 开销。

这些功能使 Puppeteer-Cluster 成为管理大型刮擦操作(需要同时刮擦多个页面)的高效工具。

三、为什么代理在网络抓取中很重要?

网站通常会对进入的流量进行监控,以检测和阻止机器人,尤其是当许多请求来自同一个 IP 地址时。这时,代理服务器就能派上用场。代理服务器通过充当中间人来掩盖你的真实 IP,允许你在不同的 IP 地址之间轮换。

以下是代理的主要类型:

动态住宅代理:分配给真正房主的 IP 地址。它们非常可靠,难以屏蔽,但价格较高。
数据中心代理: 速度快、成本低,但与住宅代理相比更容易被发现和拦截。
静态住宅(ISP) 代理: 介于住宅代理和数据中心代理之间,速度快,可靠性高,不易被发现。

使用代理可以:

轮换 IP 地址,避免被屏蔽。
绕过地理限制,访问特定地区的内容。
保持匿名性,因为每个请求看起来都来自不同的用户。

四、 为什么使用带代理的 Puppeteer-Cluster?

虽然 Puppeteer-Cluster 可以同时运行多个浏览器,但添加代理后,每个浏览器实例都可以从不同的 IP 地址发出请求。这有助于防止检测,避免速率限制,并能搜刮受地域限制的内容。使用带有代理服务器的 Puppeteer-Cluster,不仅能确保刮擦基础架构的可扩展性,还能确保其稳健性。

在 Puppeteer-Cluster 中使用代理的一些好处:
降低封禁风险:通过使用代理,每个请求看起来都来自不同的 IP,使网站更难检测和封禁您的刮擦器。
绕过地理限制: 代理允许您从可能受地理位置限制的网站上抓取内容。
增强可扩展性: 将代理服务器与 Puppeteer-Cluster 结合使用,可以同时运行大量搜刮任务,而不会触及速率限制。

五、分步指南: 带代理的 Puppeteer 群集

在本节中,我们将介绍如何设置 Puppeteer-Cluster,并将其配置为使用带身份验证的代理。开始之前,请确保您的系统已安装 Node.js。

5.1. 步骤 1:安装所需程序库

首先,为你的项目创建一个新文件夹,如 “puppeteer-project”。然后,打开命令提示符(Windows)或终端(macOS、Linux),使用命令 “cd ”导航到该文件夹,并在后面跟上文件夹的目录路径。然后,运行此命令创建 package.json 文件,该文件记录了项目所需的库:

npm init -y

接下来,安装 Puppeteer、Puppeteer-Cluster 和 ProxyChain(用于代理管理):

npm install puppeteer puppeteer-cluster proxy-chain

5.2. 步骤 2. 获取并设置代理

  1. 注册 Smartdaili 面板。
    在这里插入图片描述
  2. 在右侧菜单栏中选择符合您需求的代理类型。
    在这里插入图片描述
  3. 选择适合您需要的代理和计划。
  4. 打开代理设置选项卡。

在这里插入图片描述
5. 导航到下面的端点生成器。
6. 配置参数。设置身份验证方法、位置、会话类型和协议。
7. 选择要生成的代理端点数量(默认值 -10)。
8. 点击复制按钮,复制端点。

5.3. 步骤 3:使用代理身份验证设置 Puppeteer-Cluster

在项目文件夹中新建一个名为 “index.js ”的文件。将下面的 JavaScript 代码插入 “index.js ”文件,以便将代理凭据与 Puppeteer-Cluster 集成:

const { Cluster } = require('puppeteer-cluster');
const ProxyChain = require('proxy-chain');

(async () => {
    // Proxy details
    const proxyUrl = 'http://username:password@gate.visitxiangtan.com:10001';

    // Create an anonymized proxy URL using ProxyChain to strip the credentials
    const newProxyUrl = await ProxyChain.anonymizeProxy(proxyUrl);

    // Initialize Puppeteer-Cluster
    const cluster = await Cluster.launch({
        concurrency: Cluster.CONCURRENCY_CONTEXT,
        maxConcurrency: 5,  // Number of concurrent browser instances
        puppeteerOptions: {
            headless: true,
            args: [`--proxy-server=${newProxyUrl}`],  // Set proxy for each browser instance
        },
    });

    // Define the task for each browser instance
    await cluster.task(async ({ page, data: url }) => {
        try {
            // Set proxy authentication
            await page.authenticate({
                username: 'username',
                password: 'password',
            });

            // Navigate to the URL
            await page.goto(url, { waitUntil: 'domcontentloaded' });

            // Extract and log page content (or other data as needed)
            const content = await page.content();
            console.log(`Content from ${url}: \n`, content);

        } catch (error) {
            console.error(`Error scraping ${url}:`, error);
        }
    });

    // Queue tasks for Puppeteer-Cluster
    await cluster.queue('https://ip.smartdaili-china.com/json');
    await cluster.queue('https://example.com');  // You can add more URLs here

    // Wait for tasks to finish
    await cluster.idle();
    await cluster.close();
})();

代码解释:

  1. 代理设置

将 “http://username:password @gate.visitxiangtan.com:10001 ”替换为包含用户名和密码的代理服务器 URL。
在“//设置代理身份验证 ”下面,将用户名和密码替换为实际代理凭证。

  1. 并发性: 我们将 Puppeteer-Cluster 配置为最多同时运行 5 个浏览器实例。你可以根据系统资源情况增减。
  2. 任务: 集群中的每个浏览器实例将访问不同的 URL,确保高效的多任务处理。
  3. 匿名代理: 我们使用 “ProxyChain.anonymizeProxy() ”函数,在将代理 URL 传递给 Puppeteer 之前,从代理 URL 中剥离凭据。这可确保代理在刮擦过程中保持匿名。

要在命令提示符或终端中运行代码,请使用以下命令:

node index.js

然后,脚本将执行并输出指定 URL 的内容。

六、使用 Puppeteer 群集和代理的最佳实践

定期轮换代理服务器: 确保您的代理服务器经常轮换,以避免被反窃听措施检测到。
尊重网站政策: 始终遵守网站的 robots.txt 文件和服务条款,避免出现法律或道德问题。
节流请求: 在请求之间添加一个小延迟,有助于避免触发反僵尸保护措施。一般来说,500 毫秒至 1 秒的延迟是安全的。
处理验证码: 许多网站在检测刮擦活动时都会使用验证码。使用验证码解决服务或谨慎限制请求速度有助于绕过这些挑战。

七、结论

Puppeteer-Cluster 搭配代理服务器,为可扩展的高效网络搜索提供了强大的解决方案。Puppeteer-Cluster 能够同时运行多个浏览器实例,而代理服务器则能屏蔽 IP 地址并避免限制,这为你提供了执行大规模网络搜索任务所需的工具。

按照本指南中概述的步骤,你可以用代理身份验证设置 Puppeteer-Cluster,这样你就可以同时从多个网站搜刮数据,而不必担心被屏蔽。这种组合可确保你的刮擦操作保持快速、高效和不被发现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/884119.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ERROR:start workflow error,dolphinscheduler log重复刷屏(死循环)直至磁盘存满

在使用ds过后发现,我虚拟机中的磁盘内存全部沾满了 查看目录下大于100M的文件: find / -size 100M 查看后发现问题在于ds产生的日志文件特别大而且多, 查看日志后发现日志中一直都在死循环错误:start workflow error 等 其中文件…

命令行gcc -v和g++ -v输出版本不一致

命令行gcc -v和g -v输出版本不一致 前言:本文初编辑于2024年9月27日 CSDN主页:https://blog.csdn.net/rvdgdsva 博客园主页:https://www.cnblogs.com/hassle 博客园本文链接:https://www.cnblogs.com/hassle/p/18435916 赞美大…

Java ERP管理系统源码解析:微服务架构实践Spring Cloud Alibaba与Spring Boot

在当今数字化浪潮的推动下,企业对于高效、稳定且易于扩展的管理系统需求日益增长。为了满足这一需求,我们精心打造了一款基于Java技术的鸿鹄ERP(Enterprise Resource Planning)管理系统。该系统充分利用了Spring Cloud Alibaba、S…

局域网广域网,IP地址和端口号,TCP/IP 4层协议,协议的封装和分用

前言 在古老的年代,如果我们要实现两台机器进行数据传输, A员工就得去B员工的办公电脑传数据(B休息,等A传完),这样就很浪费时间 所以能不能不去B的工位的同时,还能传数据。这时候网络通信就出来…

一文彻底掌握inout双向端口

inout端口信号在FPGA中应用还是很广泛的,特别是一些总线通信、数据交互的场景,比如i2c、spi等等。 一、inout的基本概念 Inout 端口的实现基础是三态门。 三态门具有三种输出状态,即高电平、低电平以及高阻态(Z)。 …

K8S:开源容器编排平台,助力高效稳定的容器化应用管理

云计算de小白 Kubernetes(简称K8s)是一个开源容器编排平台,用于自动化部署、扩展和管理容器化应用程序。 K8S诞生于Google,基于其多年在生产环境运行容器的经验,目前已成为现代微服务架构和云原生应用的核心技术。 图…

Leetcode 707. 设计链表

1.题目基本信息 1.1.题目描述 你可以选择使用单链表或者双链表,设计并实现自己的链表。 单链表中的节点应该具备两个属性:val 和 next 。val 是当前节点的值,next 是指向下一个节点的指针/引用。 如果是双向链表,则还需要属性…

代码随想录冲冲冲 Day58 图论Part9

47. 参加科学大会(第六期模拟笔试) 根据昨天的dijkstra进行堆优化 使用的原因是点多但边少 所以直接对于边进行操作 1.对于priority_queue来说 这是最小堆, 小于的话就是最大堆 之后由于是根据边来说的 所以新建一个Edge并且初始化一下 之后由于使用…

数字孪生赋能BMS:开启电池管理新纪元

这几天,全世界的媒体几乎都在报道黎巴嫩爆炸案。原本此类地缘冲突的影响力是较为有限的,但是这次的事件不太一样:这次爆炸的,是几千个传呼机。 这一事件迅速引发了全球范围内对于电子设备安全性的广泛关注:随着社会日…

[EBPF] 实时捕获DM数据库是否存在SQL阻塞

1. 介绍 eBPF(extened Berkeley Packet Filter)是一种内核技术,它允许开发人员在不修改内核代码的情况下运行特定的功能。eBPF 的概念源自于 Berkeley Packet Filter(BPF),后者是由贝尔实验室开发的一种网…

如何选择数据库架构

选择合适的数据库架构是一个复杂的过程,它取决于多种因素,包括应用程序的需求、数据量的大小、并发访问量、数据一致性要求、预算以及技术团队的熟悉程度等。以下是一些关键的步骤和考虑因素,帮助你选择合适的数据库架构: 1. 分析…

JavaScript对象方法

对象方法 已经讨论过hasOwnProperty(),propertyIsEnumerable()和isPrototypeOf()三个方法。 以及静态函数,Object.create(),Object.getPrototypeOf()等。 toString()方法 无参数,返回一个表示调用这个方法的对象值的字符串。默认返回信息很少&#x…

基因组学的未来:DAP-seq技术如何塑造

在生物科学的探索之旅中,我们一直在寻找更高效、更精确的方法来揭示基因的秘密。今天,我们自豪地介绍一种革命性的技术——DAP-Seq,它正在改变我们对基因表达调控的理解。 什么是DAP-Seq? DAP-Seq,即DNA亲和纯化测序技…

DataWhale x南瓜书学习笔记 task04笔记

线性判别分析(LDA) 前提假设:各类样本的协方差矩阵相同且满秩LDA的思想:1.设法让训练样例集投影到一条直线上,2.同类样例的投影点尽可能接近,异类样例的投影点尽可能远离,3.在对新样本进行分类时…

C++语法—引用

引用变量 概念 简单理解就是对一个已存在的变量起别名,与那个已存在的变量共用一块内存空间。 用法:已存在变量的类型 & 引用变量名 (引用实体)已存在变量 int main() {int a 1;int& b a;return 0; }在上面这个示例…

Lab1:虚拟机kolla安装部署openstack,并创建实例

实验内容: 创建并配置虚拟机安装OpenStack创建镜像创建实例类型选择网络配置创建实例 1、选择一个适合你的系统的虚拟机管理软件: VirtualBox (推荐) VMWare 其他 2、下载 .iso 镜像文件 openstack S 版本 iso 链接&#xff1…

计算机视觉实战项目4(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)

往期热门项目回顾: 计算机视觉项目大集合 改进的yolo目标检测-测距测速 路径规划算法 图像去雨去雾目标检测测距项目 交通标志识别项目 yolo系列-重磅yolov9界面-最新的yolo 姿态识别-3d姿态识别 深度学习小白学习路线 AI健身教练-引体向上-俯卧撑计数…

网站设计中安全方面都需要有哪些考虑

网站设计中的安全性是一个多方面的问题,需要从多个角度进行考虑和实施。以下是一些关键的安全考虑因素: 数据加密: 使用SSL(安全套接字层)证书来建立加密连接,确保数据在传输过程中不被截获。定期更新SSL证…

保障电气安全的电气火灾监控系统主要组成有哪些?

电气火灾是什么? 电气火灾一般是指由于电气线路、用电设备、器具以及供配电设备出现故障性释放的热能:如高温、电弧、电火花以及非故障性释放的能量;如电热器具的炽热表面,在具备燃烧条件下引燃本体或其他可燃物而造成的火灾&…

动态规划入门题目->使用最小费用爬楼梯

1.题目: 2.解析: 做题模式: 步骤一:找状态转移方程 步骤二:初始化 步三:填表 步骤四:返回-> dp[n] dp[i]表示到达 i 位置最小花费 逻辑:要爬到楼顶先找到 i 位置 , 要…