Python 网络爬虫实战:从基础到高级爬取技术

📝个人主页🌹:一ge科研小菜鸡-CSDN博客
🌹🌹期待您的关注 🌹🌹

1. 引言

网络爬虫(Web Scraping)是一种自动化技术,利用程序从网页中提取数据,广泛应用于数据采集、搜索引擎、市场分析、舆情监测等领域。本教程将涵盖 requests、BeautifulSoup、Selenium、Scrapy 等常用工具,并深入探讨 反爬机制突破、动态加载页面、模拟登录、多线程/分布式爬取等高级技巧。


2. 爬虫基础:requests + BeautifulSoup

2.1 安装依赖

pip install requests beautifulsoup4 lxml

2.2 使用 requests 获取网页内容

import requests

url = "https://news.ycombinator.com/"
headers = {"User-Agent": "Mozilla/5.0"}
response = requests.get(url, headers=headers)

print(response.status_code)  # 返回 200 说明成功获取网页
print(response.text[:500])   # 预览部分 HTML 内容

2.3 使用 BeautifulSoup 解析 HTML

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, "lxml")

# 获取所有新闻标题
titles = soup.find_all("a", class_="titlelink")
for title in titles:
    print(title.text, title["href"])

3. 爬取动态页面:Selenium

3.1 安装 Selenium

pip install selenium webdriver-manager

并下载浏览器驱动(如 ChromeDriver)。

3.2 自动化浏览器

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

# 启动浏览器
options = webdriver.ChromeOptions()
options.add_argument("--headless")  # 无头模式
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

# 访问网页
driver.get("https://news.ycombinator.com/")
titles = driver.find_elements(By.CLASS_NAME, "titlelink")

for title in titles:
    print(title.text, title.get_attribute("href"))

driver.quit()

4. 模拟登录

许多网站需要用户登录后才能访问数据,例如 GitHub、微博等。

4.1 requests + Session 登录

login_url = "https://github.com/login"
session = requests.Session()

# 获取登录页面
resp = session.get(login_url, headers=headers)
soup = BeautifulSoup(resp.text, "lxml")

# 获取隐藏的 CSRF 令牌
auth_token = soup.find("input", {"name": "authenticity_token"})["value"]

# 发送登录请求
login_data = {
    "login": "your_username",
    "password": "your_password",
    "authenticity_token": auth_token
}
session.post("https://github.com/session", data=login_data, headers=headers)

# 爬取登录后的页面
profile_page = session.get("https://github.com/settings/profile")
print(profile_page.text)

5. 处理反爬机制

5.1 使用代理

proxies = {
    "http": "http://your_proxy:port",
    "https": "https://your_proxy:port"
}
response = requests.get(url, headers=headers, proxies=proxies)

5.2 伪装请求头

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/91.0.4472.124 Safari/537.36",
    "Referer": "https://www.google.com",
    "Accept-Language": "en-US,en;q=0.9"
}

5.3 随机休眠

import time
import random

time.sleep(random.uniform(1, 5))  # 随机等待 1-5 秒

6. Scrapy 爬虫框架

6.1 安装 Scrapy

pip install scrapy

6.2 创建 Scrapy 爬虫

scrapy startproject myspider
cd myspider
scrapy genspider hackernews news.ycombinator.com

6.3 编写 Scrapy 爬虫

编辑 myspider/spiders/hackernews.py

import scrapy

class HackerNewsSpider(scrapy.Spider):
    name = "hackernews"
    start_urls = ["https://news.ycombinator.com/"]

    def parse(self, response):
        for item in response.css(".titlelink"):
            yield {
                "title": item.css("::text").get(),
                "link": item.css("::attr(href)").get()
            }

6.4 运行爬虫

scrapy crawl hackernews -o results.json

7. 爬虫性能优化

7.1 多线程爬取

import threading

def fetch(url):
    response = requests.get(url, headers=headers)
    print(url, response.status_code)

urls = ["https://example.com/page{}".format(i) for i in range(1, 11)]

threads = [threading.Thread(target=fetch, args=(url,)) for url in urls]
for thread in threads:
    thread.start()
for thread in threads:
    thread.join()

7.2 分布式爬取(Scrapy + Redis)

pip install scrapy-redis

在 Scrapy settings.py 中:

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = "redis://localhost:6379"

8. 结语

本教程系统地介绍了 Python 网络爬虫的各个关键环节,涵盖了从基础到高级的技术应用。首先,我们使用 requests + BeautifulSoup 进行基本的静态页面爬取,并掌握了 HTML 解析的核心方法。接着,我们通过 Selenium 处理动态加载的网页,了解了如何模拟浏览器操作,提高数据抓取的灵活性。在数据访问受限的情况下,我们学习了 模拟登录 技术,掌握了如何绕过身份验证,获取登录后才能访问的数据。

除此之外,为了应对网站的反爬机制,我们介绍了 代理 IP 轮换、User-Agent 伪装、请求头优化、随机休眠 等策略,以降低被封 IP 的风险。同时,我们还探讨了 Scrapy 框架的应用,包括爬取大型网站、数据管道管理,以及如何结合 Redis 进行分布式爬取,以提升数据采集的效率。

在实际应用中,网络爬虫广泛应用于搜索引擎、电子商务数据分析、舆情监测、金融风控、学术研究等领域。然而,我们在使用爬虫技术的同时,也需要关注数据合规性和法律风险,避免爬取受版权保护或敏感数据的网站,遵循网站的 robots.txt 规范,合理使用爬取工具,确保数据的合法合规性。

未来,随着反爬机制的不断升级,我们可能需要借助机器学习和深度学习技术来识别验证码、自动分析网页结构,提高爬取的智能化程度。同时,随着云计算和分布式技术的发展,大规模数据抓取将更加依赖分布式爬虫架构,如结合Kafka、Spark Streaming 等工具,实现高效、实时的数据采集和处理。

希望本教程能帮助你入门和深入理解 Python 爬虫技术,在实践中灵活运用各种工具,提高数据抓取的稳定性和效率。如果你对网络爬虫有更深入的需求,可以进一步学习图像识别验证码破解、基于 AI 的网页结构解析、深度强化学习爬虫策略优化等前沿技术,探索更多爬取的可能性!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/963921.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[漏洞篇]SQL注入漏洞详解

[漏洞篇]SQL注入漏洞详解 介绍 把SQL命令插入到Web表单提交或输入域名或页面请求的查询字符串,最终达到欺骗服务器执行恶意的SQL命令。通过构造恶意的输入,使数据库执行恶意命令,造成数据泄露或者修改内容等,以达到攻击的目的。…

C#,shell32 + 调用控制面板项(.Cpl)实现“新建快捷方式对话框”(全网首发)

Made By 于子轩,2025.2.2 不管是使用System.IO命名空间下的File类来创建快捷方式文件,或是使用Windows Script Host对象创建快捷方式,亦或是使用Shell32对象创建快捷方式,都对用户很不友好,今天小编为大家带来一种全新…

DDD - 微服务架构模型_领域驱动设计(DDD)分层架构 vs 整洁架构(洋葱架构) vs 六边形架构(端口-适配器架构)

文章目录 引言1. 概述2. 领域驱动设计(DDD)分层架构模型2.1 DDD的核心概念2.2 DDD架构分层解析 3. 整洁架构:洋葱架构与依赖倒置3.1 整洁架构的核心思想3.2 整洁架构的层次结构 4. 六边形架构:解耦核心业务与外部系统4.1 六边形架…

基于SpringBoot的新闻资讯系统的设计与实现(源码+SQL脚本+LW+部署讲解等)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…

xmind使用教程

xmind使用教程 前言xmind版本信息“xmind使用教程”的xmind思维导图 前言 首先xmind是什么?XMind 是一款思维导图和头脑风暴工具,用于帮助用户组织和可视化思维、创意和信息。它允许用户通过图形化的方式来创建、整理和分享思维导图,可以用于…

半导体器件与物理篇7 微波二极管、量子效应和热电子器件

基本微波技术 微波频率:微波频率涵盖约从0.1GHz到3000GHz,相当于波长从300cm到0.01cm。 分布效应:电子部件在微波频率,与其在较低频率的工作行为不同。 输运线:一个由电阻、电容、电感三种等效基本电路部件所组成的…

Java自定义IO密集型和CPU密集型线程池

文章目录 前言线程池各类场景描述常见场景案例设计思路公共类自定义工厂类-MyThreadFactory自定义拒绝策略-RejectedExecutionHandlerFactory自定义阻塞队列-TaskQueue(实现 核心线程->最大线程数->队列) 场景1:CPU密集型场景思路&…

浅谈线段树

文章同步发布于洛谷,建议前往洛谷查看。 前言 蒟蒻终于学会线段树(指【模板】线段树 1 1 1)啦! 线段树思想 我们先来考虑 P3372(基础线段树模板题)给的操作: 区间修改(增加&am…

linux运行级别

运行级别:指linux系统在启动和运行过程中所处的不同的状态。 运行级别之间的切换:init (级别数) 示例: linux的运行级别一共有7种,分别是: 运行级别0:停机状态 运行级别1:单用户模式/救援模式…

【自开发工具介绍】SQLSERVER的ImpDp和ExpDp工具03

SQLSERVER的ImpDp和ExpDp工具 1、全部的表导出(仅表结构导出) 2、导出的表结构,导入到新的数据库 导入前,test3数据没有任何表 导入 导入结果确认:表都被做成,但是没有数据 3、全部的表导出&#x…

商品列表及商品详情展示

前言 本文将展示一段结合 HTML、CSS 和 JavaScript 的代码&#xff0c;实现了一个简单的商品展示页面及商品详情&#xff0c;涵盖数据获取、渲染、搜索及排序等功能。 效果展示 点击不同的商品会展示对应的商品详情。 代码部分 代码总体实现 <!DOCTYPE html> <htm…

c++提取矩形区域图像的梯度并拟合直线

c提取旋转矩形区域的边缘最强梯度点&#xff0c;并拟合直线 #include <opencv2/opencv.hpp> #include <iostream> #include <vector>using namespace cv; using namespace std;int main() {// 加载图像Mat img imread("image.jpg", IMREAD_GRAYS…

独立开发浏览器插件:案例与启示

浏览器插件&#xff08;Browser Extension&#xff09;作为提升用户浏览体验的重要工具&#xff0c;近年来吸引了许多独立开发者的关注。从广告拦截到生产力工具&#xff0c;再到个性化定制功能&#xff0c;浏览器插件的开发为个人开发者提供了一个低成本、高潜力的创业机会。本…

Linux系统 环境变量

环境变量 写在前面概念查看环境变量main函数的参数argc & argvenv bash环境变量 写在前面 对于环境变量&#xff0c;本篇主要介绍基本概念及三四个环境变量 —— PATH、HOME、PWD。其中 PATH 作为 “ 敲门砖 ”&#xff0c;我们会更详细讲解&#xff1b;理解环境变量的全局…

BFS(广度优先搜索)——搜索算法

BFS&#xff0c;也就是广度&#xff08;宽度&#xff09;优先搜索&#xff0c;二叉树的层序遍历就是一个BFS的过程。而前、中、后序遍历则是DFS&#xff08;深度优先搜索&#xff09;。从字面意思也很好理解&#xff0c;DFS就是一条路走到黑&#xff0c;BFS则是一层一层地展开。…

SpringCloud基础二(完结)

HTTP客户端Feign 在SpringCloud基础一中&#xff0c;我们利用RestTemplate结合服务注册与发现来发起远程调用的代码如下&#xff1a; String url "http://userservice/user/" order.getUserId(); User user restTemplate.getForObject(url, User.class);以上代码就…

Spring Bean 容器

技术成长&#xff0c;是对场景设计细节不断的雕刻&#xff01; 你觉得自己的技术什么时候得到了快速的提高&#xff0c;是CRUD写的多了以后吗&#xff1f;想都不要想&#xff0c;绝对不可能&#xff01;CRUD写的再多也只是能满足你作为一个搬砖工具人&#xff0c;敲击少逻辑流…

【react+redux】 react使用redux相关内容

首先说一下&#xff0c;文章中所提及的内容都是我自己的个人理解&#xff0c;是我理逻辑的时候&#xff0c;自我说服的方式&#xff0c;如果有问题有补充欢迎在评论区指出。 一、场景描述 为什么在react里面要使用redux&#xff0c;我的理解是因为想要使组件之间的通信更便捷…

利用腾讯云cloud studio云端免费部署deepseek-R1

1. cloud studio 1.1 cloud studio介绍 Cloud Studio&#xff08;云端 IDE&#xff09;是基于浏览器的集成式开发环境&#xff0c;为开发者提供了一个稳定的云端工作站。支持CPU与GPU的访问。用户在使用 Cloud Studio 时无需安装&#xff0c;随时随地打开浏览器即可使用。Clo…

基于VMware的ubuntu与vscode建立ssh连接

1.首先安装openssh服务 sudo apt update sudo apt install openssh-server -y 2.启动并检查ssh服务状态 到这里可以按q退出 之后输入命令 &#xff1a; ip a 红色挡住的部分就是我们要的地址&#xff0c;这里就不展示了哈 3.配置vscode 打开vscode 搜索并安装&#xff1a;…