如何用Python同时抓取多个网页:深入ThreadPoolExecutor

爬虫代理

背景介绍

在信息化时代,数据的实时性和获取速度是其核心价值所在。对于体育赛事爱好者、数据分析师和投注行业而言,能否快速、稳定地抓取到实时比赛信息显得尤为重要。特别是在五大足球联赛中,能够在比赛进行时获得比分、控球率等实时数据,对分析和预测具有巨大的帮助。但由于数据分布在各个网站上,页面结构多样,抓取它们并不简单。

问题陈述

当我们试图抓取五大联赛的实时动态信息时,往往会遇到以下几个问题:

  1. 抓取效率低:如果逐个页面顺序请求,效率低下,获取数据会存在明显延迟。
  2. 请求限制:许多网站会对频繁请求设置限制,若操作不当,IP可能会被封禁。
  3. 网络代理需求:为了提高稳定性,需要使用代理IP规避封禁和流量限制。
  4. 多线程并发处理:单线程在处理大量请求时速度较慢,需要使用多线程来显著提高爬取速度。

针对以上挑战,Python中的concurrent.futures库为我们提供了一种理想的解决方案:ThreadPoolExecutor。通过它,我们可以在多线程的帮助下,同时抓取多个页面,再结合代理IP和合理的请求头设置,轻松获取所需的数据。

解决方案

为什么选择 ThreadPoolExecutor?

ThreadPoolExecutor是Python中高效的并发处理工具。它通过管理线程池的方式实现任务并行,避免了频繁创建和销毁线程的开销,是处理I/O密集型任务(例如爬虫)的理想选择。配合代理IP和自定义请求头,我们可以在提升效率的同时规避频繁请求带来的封禁风险。

实现方案概览
  1. 设置代理:使用代理IP有效避免被封禁。
  2. 设置请求头:包括User-AgentCookies,使请求更接近真实用户操作。
  3. 多线程处理:使用ThreadPoolExecutor实现并行抓取,大幅提高爬取速度。

案例分析:实时抓取五大联赛比赛信息

以下代码展示了如何使用ThreadPoolExecutor并结合代理IP和请求头设置,实时抓取五大联赛的动态数据。以几个常用的实时比分网站为目标,我们通过多线程并发快速获取比赛数据。代码中代理IP配置参考了爬虫代理的示例。

import requests
from concurrent.futures import ThreadPoolExecutor, as_completed
from bs4 import BeautifulSoup

# 代理IP信息(请替换为实际的亿牛云爬虫代理账号信息 www.16yun.cn )
proxy_host = "proxy.16yun.cn"  # 代理主机
proxy_port = "8000"  # 代理端口
proxy_user = "your_username"  # 用户名
proxy_pass = "your_password"  # 密码

# 构造代理字典
proxies = {
    "http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
    "https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
}

# 请求头信息
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36",
    "Cookie": "your_cookie_here"  # 替换为实际的Cookie
}

# 目标URL列表(以几个五大联赛的网页为例,实际使用时替换为各大网站的具体页面)
urls = [
    "https://www.livescore.com/en/football/england/premier-league/",
    "https://live.win007.com/",  # 足彩网比分直播
    "https://www.flashscore.com/football/italy/serie-a/",
    "https://www.sofascore.com/",
    "https://www.365scores.com/football"
]

# 抓取单个网页的函数
def fetch_data(url):
    try:
        # 发送请求
        response = requests.get(url, headers=headers, proxies=proxies, timeout=5)
        response.raise_for_status()  # 检查请求是否成功
        # 解析网页内容
        soup = BeautifulSoup(response.text, "html.parser")
        
        # 示例解析比赛标题和比分(根据实际页面结构解析)
        if "livescore" in url:
            title = soup.title.get_text()
            score = soup.find("div", class_="score").get_text() if soup.find("div", class_="score") else "Score Not Found"
        elif "win007" in url:
            title = soup.title.get_text()
            score = "解析内容根据实际页面结构调整"
        elif "flashscore" in url:
            title = soup.title.get_text()
            score = "解析内容根据实际页面结构调整"
        else:
            title = soup.title.get_text()
            score = "数据解析方式根据页面结构调整"
        
        return {
            "url": url,
            "title": title,
            "score": score
        }
    except requests.RequestException as e:
        print(f"Error fetching {url}: {e}")
        return None

# 使用ThreadPoolExecutor进行多线程抓取
def fetch_all_data(urls):
    results = []
    with ThreadPoolExecutor(max_workers=5) as executor:
        # 提交任务
        future_to_url = {executor.submit(fetch_data, url): url for url in urls}
        
        # 获取结果
        for future in as_completed(future_to_url):
            url = future_to_url[future]
            try:
                data = future.result()
                if data:
                    results.append(data)
            except Exception as exc:
                print(f"{url} generated an exception: {exc}")
    
    return results

# 执行抓取任务并输出结果
data = fetch_all_data(urls)
for match in data:
    print(f"URL: {match['url']} - Title: {match['title']} - Score: {match['score']}")

代码详解

  1. 代理设置:使用爬虫代理提供的代理IP服务,通过proxies参数将代理信息传递给requests.get(),规避频繁请求限制。
  2. 请求头设置:设置User-AgentCookie,模拟真实用户操作,避免被识别为爬虫。
  3. 多线程请求:使用ThreadPoolExecutor的线程池来并行抓取数据,显著提升效率。
  4. 数据解析:对于不同的页面,设置了相应的解析逻辑。页面结构可能不同,因此代码中根据URL进行条件判断,便于在实际操作时调整解析方式。

结论

利用ThreadPoolExecutor和代理IP技术,我们可以高效稳定地抓取多个实时更新的足球联赛数据。本文所示的多线程抓取示例不仅适用于五大联赛,还可以广泛应用于其他实时数据采集场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/905143.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

深入计算机语言之C++:内存管理

🔑🔑博客主页:阿客不是客 🍓🍓系列专栏:从C语言到C语言的渐深学习 欢迎来到泊舟小课堂 😘博客制作不易欢迎各位👍点赞⭐收藏➕关注 一、 C/C的内存分布 我们先来看一段代码&#xf…

使用Vue.js和Vuex构建可维护的前端应用

使用Vue.js和Vuex构建可维护的前端应用 Vue.js简介 安装Vue.js 使用npm安装 使用CDN引入 创建Vue项目 安装Vuex 初始化Vuex Store 在Vue组件中使用Store Vuex模块化 Vuex命名空间 Vuex插件 Vuex热重载 Vuex持久化状态 Vuex调试工具 Vuex的高级用法 异步Actions 中间件 Vuex的…

云智慧完成华为原生鸿蒙系统的适配, 透视宝 APM 为用户体验保驾护航

2024 年 10 月 22 日,首个国产移动操作系统 —— 华为原生鸿蒙操作系统 HarmonyOS NEXT 正式面世,成为继 iOS 和 Android 后的全球第三大移动操作系统。HarmonyOS NEXT,从系统内核、数据库根基,到编程语言创新、AI(人工…

Metasploit(MSF)使用

目录 Metasploit简要介绍 主要功能 漏洞利用: Payload 生成: 辅助模块: 后渗透模块: 报告生成: 使用教程以及案例 基础命令使用 生成被控端 命令介绍 kali启动主控端 1.启动以及设置载荷等配置 漏洞检测…

Linux 开机自动挂载硬盘

在日常使用 Linux 系统的过程中,我们可能需要挂载一些机械硬盘或者移动硬盘来存储数据。手动挂载虽然简单,但每次重启后都需要重新操作,未免有些繁琐。那么,如何让硬盘在开机时自动挂载呢?本篇博客将详细介绍如何通过配…

GPU 学习笔记三:GPU多机多卡组网和拓扑结构分析(基于数据中心分析)

文章目录 一、概述二、数据中心(DC)2.1 数据中心简介2.2 传统数据中心的网络模型2.3 脊叶网络模型(Spine-Leaf)2.4 Facebook的Fabric网络架构 三、基于数据中心的多机多卡拓扑3.1 Spine-Leaf 架构网络规模测算方法3.2 NVIDIA多机多…

基于 GADF+Swin-CNN-GAM 的高创新扰动信号识别模型!

往期精彩内容: Python-电能质量扰动信号数据介绍与分类-CSDN博客 Python电能质量扰动信号分类(一)基于LSTM模型的一维信号分类-CSDN博客 Python电能质量扰动信号分类(二)基于CNN模型的一维信号分类-CSDN博客 Python电能质量扰动信号分类(三)基于Transformer的一…

【QNAP威联通NAS系统恢复进阶教程】如果 .conf 和 md9 无法自动组装,如何恢复 NAS?

创作立场:原创不易,拒绝搬运~ hello大家好,我是你们的老伙伴,稳重的大王~ 从本期开始,大王将在日常教程中,分享一些QNAP系统故障的排除以及解决办法,进阶教程需要具备一定的linux基础&#xf…

一年期免费HTTPS证书:网络安全新选择

HTTPS证书的重要性 HTTPS证书,全称为安全套接字层/传输层安全协议证书,是一种在互联网上建立安全连接的数字证书。它通过公钥加密技术,对网站和用户之间的数据传输进行加密,有效防止数据被窃取或篡改,保障用户信息的安…

k8s-service详解

Service介绍 在kubernetes中,pod是应用程序的载体,我们可以通过pod的ip来访问应用程序,但是pod的ip地址不是固定的,这也就意味着不方便直接采用pod的ip对服务进行访问。 为了解决这个问题,kubernetes提供了Service资源…

Android编译环境构建(可用于物理机、虚拟机、容器化Jenkins环境)

文章目录 需求环境要求文件下载Gradle Version:7.5cmdline-tools至此普通物理环境的Android编译环境已部署完毕 部署maven(可选)Jenkins配置Android构建环境 说明: 物理环境:物理机、虚拟机等 容器化环境:docker等 需求 Gradle Version:7.5 …

MacOS下载安装Logisim(图文教程)

本章教程主要介绍如何在MacOS系统中安装Logisim。 一、Logisim是什么? Logisim是一个用于电子逻辑门电路模拟的教育工具软件。它允许用户通过图形界面构建和测试复杂的数字逻辑电路,如加法器、解码器、编码器、寄存器、内存等,从而帮助学生理解计算机硬件的工作原理。 二、如…

技术经济学·不确定性分析

第一节 不确定性分析概述 前章我们所讲的技术经济分析方法,基本上都是定量的方法。也就是说,都是在确定性情况下进行分析的方法。但实际工作中,许多问题是并不事先知道更多的情况。特别是有的因素根本就无法定量,是定性的东西。这…

DAY15|二叉树Part03|LeetCode: 222.完全二叉树的节点个数、110.平衡二叉树、257. 二叉树的所有路径、404.左叶子之和

目录 LeetCode: 222.完全二叉树的节点个数 基本思路 普通二叉树 完全二叉树 C代码 LeetCode: 110.平衡二叉树 基本思路 C代码 LeetCode: 257. 二叉树的所有路径 基本思路 C代码 LeetCode: 404.左叶子之和 基本思路 C代码 LeetCode: 222.完全二叉树的节点个数 力扣…

如何创建项目管理的WBS?

在项目管理中,工作分解结构(WBS)是确保项目按计划推进的重要工具。创建WBS的过程不仅关乎任务的分配,还影响项目的整体管理效率。以下是蓝燕云项目管理团队总结的一些有效的创建WBS的方法和指导方针,帮助项目管理团队更…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-22

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-22 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-22目录1. PoisonedRAG: Knowledge corruption attacks to retrieval-augmented generation of large language models摘要创新点…

Flutter学习笔记(一)-----环境配置

一、android 环境 android这边可以参照godot的配置 1.装java Java Downloads | Oracle x64 Compressed Archive :下载后直接解压到某个位置,不用安装 x64 installer: 下载后双击安装 注意:不要去百度直接搜Java安装,这样你最多安…

华为配置 之 IPv6路由配置

目录 简介: 知识点: IPv6静态路由配置: IPv6默认路由配置: 总结: 简介: IPv6(Internet Protocol Version 6)是网络层协议的第二代标准协议,也被称为IPng(…

NIM 平台生成式 AI-demo

需要python环境 官网注册:(后续调用模型需要秘钥key)Try NVIDIA NIM APIs 可以看到有多种模型: 官方案例 1.安装相关依赖: pip install langchain_nvidia_ai_endpoints langchain-community langchain-text-splitt…

《Python网络安全项目实战》

《Python网络安全项目实战》 项目1 Python 环境安装任务1.1 Windows上安装Python任务1.2 Ubuntu环境下安装Python 项目2 Python基础练习任务2.1 使用数据类型任务2.2 使用组合数据类型任务2.3 使用控制结构任务2.4 使用函数任务2.5 使用模块 项目3 处理文件中的数据任务3.1 读文…