爬虫框架与库

爬虫框架与库是用于网络数据抓取的核心工具,帮助开发者高效地从网页中提取结构化数据。

Requests:用于发送HTTP请求。

BeautifulSoup:用于解析HTML和XML。

Scrapy:强大的爬虫框架,适合大规模爬取。

Selenium:用于处理JavaScript渲染的页面。

PyQuery:类似jQuery的HTML解析库。

一、常用爬虫库(灵活轻量)

1、Requests

特点:HTTP请求库,用于发送GET/POST请求,处理Cookies和Session。

使用场景:简单网页抓取,配合解析库(如BeautifulSoup)使用。

例如:

import requests
     response = requests.get("https://emp.com")

2、BeautifulSoup

特点:HTML/XML解析库,支持多种解析器(如lxml、html.parser)。

使用场景:静态页面解析,提取标签内容。

例如:

from bs4 import BeautifulSoup
     soup = BeautifulSoup(html_content,"lxml")
     title = soup.find("h1").text

3、lxml

特点:高性能XML/HTML解析库,支持XPath。

使用场景:需要快速处理大规模结构化数据。

4、Selenium

特点:自动化浏览器工具,可模拟用户操作(点击,滚动等)。

使用场景:动态渲染页面(如JavaScript加载的内容)。

缺点:资源消耗大,速度较慢。

5、Pyppeteer

特点:基于Chromium的无头浏览器,类似Puppeteer(Node.js)。

使用场景:处理复杂动态页面,支持异步操作。

二、常用爬虫框架(结构化,可扩展)

1、Scrapy

特点:

  • 完整的爬虫框架,内置请求调度,数值管道,中间件等功能。
  • 支持异步处理,适合大规模抓取。

使用场景:复杂项目(如电商商品爬虫,新闻聚合)。

核心组件:

  • Spiders(定义抓取逻辑)
  • Items(结构化数据容器)
  • Pipelines(数据清洗、存储)
  • Middlewares(扩展请求/响应处理)

2、PySpider

特点:

  • 分布式架构,支持web界面管理任务。
  • 实时监控爬虫状态。

使用场景:需要分布式协作或可视化的项目。

3、Playwright

特点:

  • 支持多浏览器(Chromium、Firefox、WebKit)自动化。
  • 可处理动态内容,生成截图或PDF。

使用场景:复杂交互页面(如登录验证)。

三、反爬虫应对工具

1、代理IP池

工具:requests-html,scrapy-rotating-proxies

用途:防止IP被封禁。

2、随机User-Agent

库:fake-useragent

用途:模拟不同浏览器/设备。

3、验证码识别

工具:Tesseract OCR(图像识别)、第三方 API(如打码平台)。

4、请求频率控制

方法:设置延迟(time.sleep)或使用Scrapy的DOWNLOAD_DELAY。

四、数据处理与存储

1、数据清洗

工具:Pandas(结构化数据)、正则表达式(re模块)。

2、存储方案

数据库:MySQL、MongoDB、Redis。  

文件:CSV、JSON、Excel。  

云服务:AWS S3、Google Cloud Storage。

五、选择依据

简单任务:Requests + BeautifulSoup/lxml。  

动态页面:Selenium/Playwright/Pyppeteer。  

大型项目:Scrapy(扩展性强)、PySpider(分布式)。  

反爬严格:结合代理、User-Agent轮换、请求频率控制。

六、注意事项

1、合法性:遵守目标网站的 `robots.txt`,避免侵犯隐私或版权。  

2、道德性:控制抓取频率,防止对服务器造成压力。  

3、异常处理:增加重试机制(如 `retrying` 库)应对网络波动。

4、设置请求头:模拟浏览器行为,避免被封禁。

 headers = {"User-Agent": "Mozilla/5.0"}
   requests.get(url, headers=headers)

5、处理反爬:使用代理 IP、随机延时、验证码识别等。

6、数据存储:结合数据库(如 MySQL、MongoDB)或文件(JSON、CSV)。

七、爬虫工具和框架的用法及实战案例总结

1、Requests + BeautifulSoup/lxml

特点:

  • Requests:发送 HTTP 请求,获取网页内容。
  • BeautifulSoup:解析 HTML/XML 数据,语法简单。
  • lxml:高性能解析库,支持 XPath。

基本用法:

import requests
from bs4 import BeautifulSoup

url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "lxml")  # 使用 lxml 解析器
title = soup.find("h1").text

实战案例:抓取新闻标题

url = "https://news.ycombinator.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
titles = [a.text for a in soup.select(".titleline > a")]
print(titles)

2、Selenium

特点:

  • 模拟浏览器操作,处理动态加载内容(如 JavaScript)。
  • 支持 Chrome、Firefox 等浏览器。

基本用法

from selenium import webdriver

driver = webdriver.Chrome()
driver.get("https://example.com")
element = driver.find_element("tag name", "h1")
print(element.text)
driver.quit()

实战案例:自动登录并抓取数据

driver = webdriver.Chrome()
driver.get("https://login.example.com")
driver.find_element("id", "username").send_keys("user")
driver.find_element("id", "password").send_keys("pass")
driver.find_element("id", "submit").click()
# 登录后抓取数据
data = driver.find_element("class name", "data").text
driver.quit()

3. Pyppeteer(已不推荐,推荐 Playwright)

特点:

  • 基于 Chromium 的异步无头浏览器。
  • 类似 Puppeteer(Node.js),但已停止维护。

基本用法:

import asyncio
from pyppeteer import launch

async def main():
    browser = await launch()
    page = await browser.newPage()
    await page.goto("https://example.com")
    title = await page.title()
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

4. Playwright

特点:

  • 支持多浏览器(Chromium、Firefox、WebKit)。
  • 异步操作,性能更高,维护更活跃。

基本用法:

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch()
    page = browser.new_page()
    page.goto("https://example.com")
    print(page.title())
    browser.close()

实战实例:抓取动态渲染内容

with sync_playwright() as p:
    browser = p.chromium.launch(headless=True)
    page = browser.new_page()
    page.goto("https://spa.example.com")
    page.wait_for_selector(".dynamic-content")
    content = page.query_selector(".dynamic-content").text_content()
    print(content)

5. Scrapy

基本用法:

1、创建项目:

 scrapy startproject myproject

2. 编写 Spider:

  import scrapy

   class MySpider(scrapy.Spider):
       name = "example"
       start_urls = ["https://example.com"]

       def parse(self, response):
           yield {"title": response.css("h1::text").get()}

3. 运行:

scrapy crawl example -o output.json

实战案例:抓取电商商品信息

class ProductSpider(scrapy.Spider):
    name = "product"
    start_urls = ["https://shop.example.com"]

    def parse(self, response):
        for product in response.css(".product-item"):
            yield {
                "name": product.css("h2::text").get(),
                "price": product.css(".price::text").get(),
            }
        next_page = response.css("a.next-page::attr(href)").get()
        if next_page:
            yield response.follow(next_page, self.parse)

6. PySpider

特点:

  • 分布式爬虫框架,自带 Web 界面。
  • 适合实时监控和调度。

基本用法:

from pyspider.libs.base_handler import *

class Handler(BaseHandler):
    @every(minutes=24*60)
    def on_start(self):
        self.crawl("https://example.com", callback=self.index_page)

    @config(age=10*24*60*60)
    def index_page(self, response):
        return {"title": response.doc("h1").text()}

工具对比与选型

工具使用场景优点缺点
Requests简单静态页面轻量、易用无法处理动态内容
Selenium动态渲染页面(少量请求)支持浏览器操作性能低,资源占用高
Playwright动态渲染页面(高性能)多浏览器支持、异步学习成本略高
Scrapy大规模数据抓取完整框架、扩展性强配置复杂
PySpider分布式爬取与实时监控web界面、分布式支持社区活跃度下降

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/977505.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构 之 【无头单向非循环链表】(C语言实现)

下面将 无头单向非循环链表 简称为 单链表 头指针&#xff1a;指向链表第一个节点的指针 链表为空时&#xff0c;头指针也为空 要实现单链表&#xff0c;就是要实现单链表的 增删查改 一、无头单向非循环链表的c语言实现 1.准备工作 #include <stdio.h> #include <s…

傅里叶变换+注意力机制!CCF-A离你并不遥远!

今天给大家推荐一个&#xff0c;创新Top且热度持续攀升的方向&#xff1a;傅里叶变换注意力机制&#xff01; 傅里叶变换能够捕捉到频域的特征&#xff0c;而注意力机制则能使模型专注任务相关信息。两者结合&#xff0c;不仅能提升模型的性能和效率&#xff0c;还能增强模型的…

【学习笔记】计算机网络(四)

第4章 网络层 文章目录 第4章 网络层4.1 网络层的几个重要概念4.1.1 网络层提供的两种服务虚电路服务&#xff08;Virtual Circuit Service&#xff09;数据报服务&#xff08;Datagram Service&#xff09; 4.1.2 网络层的两个层面 4.2 网际协议 IP - IPv44.2.1 虚拟互连网络4…

Ollama部署本地大模型DeepSeek-R1-Distill-Llama-70B

文章目录 一、下模二、转模1. 下载转换工具2. 安装环境依赖3. llama.cpp1. 转换脚本依赖2. llama.cpp安装依赖包3. llama.cpp编译安装4. 格式转换 三、Ollama部署1. 安装启动Ollama2. 添加模型3. 测试运行 一、下模 #模型下载 from modelscope import snapshot_download model…

【GPT】从GPT1到GPT3

every blog every motto: Although the world is full of suffering&#xff0c; it is full also of the overcoming of it 0. 前言 从GPT1 到GPT3 1. GPT1 论文&#xff1a; https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/lan…

stm32使用(无线串口)实现收发、判断数据+DMA(HAL库)

目录 前言&#xff1a; 1. 用CubeMX配置串口DMA所需要的环境 &#xff08;1&#xff09;打开CubeMAX&#xff0c;点击红框 &#xff08;2&#xff09;查找stm32F103C8T6的芯片 &#xff08;3&#xff09;配置SYS &#xff08;4&#xff09;配置RCC时钟 &#xff08;5&am…

QT入门--QMainWindow

从上向下依次是菜单栏&#xff0c;工具栏&#xff0c;铆接部件&#xff08;浮动窗口&#xff09;&#xff0c;状态栏&#xff0c;中心部件 菜单栏 创建菜单栏 QMenuBar* mybar1 menuBar(); 将菜单栏放到窗口中 setMenuBar(mybar1); 创建菜单 QMenu *myfilemenu mybar1-…

重构清洁想象,石头科技首创五轴仿生机械手打破传统清洁边界

2月25日&#xff0c;主题为“重构清洁想象”的石头科技2025发布会在上海天文馆正式召开。石头科技清洁产品BU总裁钱启杰在会上宣布&#xff0c;石头科技正式成为上海天文馆授权合作伙伴&#xff0c;希望借助航天科技到家庭科技的跨越&#xff0c;进一步简化家庭清洁工作&#x…

Amazon Outposts:构建混合云的安全堡垒,让数据安全“零距离”

在数字化转型的浪潮中&#xff0c;企业纷纷拥抱混合云架构以兼顾敏捷性与本地化需求。然而&#xff0c;如何确保数据在本地与云端的无缝流转中始终安全可控&#xff0c;成为企业面临的核心挑战。Amazon Outposts 作为AWS推出的混合云解决方案&#xff0c;不仅将原生AWS服务延伸…

详解Redis如何持久化

引言 本文介绍了 Redis 的两种持久化方式&#xff1a;RDB 和 AOF。RDB 按时间间隔快照存储&#xff0c;AOF 记录写操作。阐述了它们的配置、工作原理、恢复数据的方法、性能与实践建议&#xff0c;如降低 fork 频率、控制内存等&#xff0c;还提到二者可配合使用&#xff0c;最…

【Ambari】Ranger KMS

目录 一、Ranger KMS介绍 二、KMS基于Ranger插件安装 一、Ranger KMS介绍 Ranger KMS是把数据存储入后台数据库中。通过Ranger Admin可以集中化管理KMS服务。 Ranger KMS有三个优点 l Key management Ranger admin 提供了创建&#xff0c;更新&#xff0c;删除密钥的Web UI…

vscode设置终端复制快捷键(有坑!!!)

vscode的编辑页面和终端的复制粘贴快捷键是不一样的。 vscode的终端复制快捷键为ctrlshiftC&#xff0c;当然&#xff0c;自己可以自定义设置 vscode设置终端复制快捷键&#xff08;有坑&#xff01;&#xff01;&#xff01;&#xff09;_vs code 不能复制-CSDN博客文章浏览…

angular舒尔特方格

说明&#xff1a;我计划用angular实现舒尔特方格的功能&#xff0c;必须是动态的&#xff0c;比如33&#xff0c;55&#xff0c;9*9&#xff0c;而且无论是什么样式的&#xff0c;都必须保持正方形&#xff0c;然后还有时间监听&#xff0c;计算用户完成方格的时间&#xff0c;…

提升数据洞察力:五款报表软件助力企业智能决策

概述 随着数据量的激增和企业对决策支持需求的提升&#xff0c;报表软件已经成为现代企业管理中不可或缺的工具。这些软件能够帮助企业高效处理数据、生成报告&#xff0c;并将数据可视化&#xff0c;从而推动更智能的决策过程。 1. 山海鲸报表 概述&#xff1a; 山海鲸报表…

DistilQwen2.5发布:通义千问蒸馏小模型再升级

01 引言 因高计算成本和复杂性&#xff0c;在例如移动设备和边缘计算场景等资源有限的环境中&#xff0c;限制了大语言模型的普及。如何在保留模型性能的同时提高计算效率并降低部署成本&#xff0c;已成为研究和工业界必须面对的关键挑战。 在此背景下&#xff0c;我们正式…

VS2022配置FFMPEG库基础教程

1 简介 1.1 起源与发展历程 FFmpeg诞生于2000年&#xff0c;由法国工程师Fabrice Bellard主导开发&#xff0c;其名称源自"Fast Forward MPEG"&#xff0c;初期定位为多媒体编解码工具。2004年后由Michael Niedermayer接任维护&#xff0c;逐步发展成为包含音视频采…

【前端基础】Day 1 HTML

总结&#xff1a; 1. Web标准的构成 2. 基本标签 目录 1. Web标准的构成 2. 基本标签 2.1快捷键 2.2.1标题标签 2.2.2段落和换行标签 2.2.3文本格式化标签 2.2.4div和span标签 2.3.1 图像标签和路径 2.3.2路径 2.3.3超链接标签 2.4注释标签 2.5特殊字符 1. Web标准…

Android Realm数据库使用与集成指南

本地存储storage集成创建Realm数据模型插入和更新数据模型数据查询统计数据分页查询处理表数据删除操作总结Realm 是一款专为移动端和嵌入式场景设计的高性能、跨平台的 对象数据库(NoSQL),由 MongoDB 团队维护。它的核心思想是将数据模型直接映射到对象(如 Java/Kotlin、S…

(九)趣学设计模式 之 桥接模式!

目录 一、 啥是桥接模式&#xff1f;二、 为什么要用桥接模式&#xff1f;三、 桥接模式的实现方式四、 桥接模式的优缺点五、 桥接模式的应用场景六、 总结 &#x1f31f;我的其他文章也讲解的比较有趣&#x1f601;&#xff0c;如果喜欢博主的讲解方式&#xff0c;可以多多支…

Day8 蓝桥杯acw讲解

首先先给大家看一道这个题&#xff0c; 我真的是太喜欢y总了&#xff0c;如果大家也是最近在准备蓝桥杯或者计算机相关的比赛&#xff0c;但是得加一个前提就是必须最好基础真的很好&#xff0c;要不然其实买了课&#xff0c;也没啥太大的用处&#xff0c;其实就可以以我本人举…