Python网络爬虫：从入门到实战

Python以其简洁易用和强大的库支持成为网络爬虫开发的首选语言。本文将系统介绍Python网络爬虫的开发方法，包括基础知识、常用工具以及实战案例，帮助读者从入门到精通。

什么是网络爬虫？

网络爬虫（Web Crawler）是一种自动化程序，用于抓取网页内容。爬虫通过模拟浏览器行为访问网站，将所需的数据提取出来并保存，广泛应用于数据分析、搜索引擎和机器学习等领域。

开发网络爬虫的基本步骤

明确目标：确定需要抓取的数据和目标网站。
分析网站：通过浏览器开发者工具分析网页结构，确定数据所在的HTML标签和属性。
发送请求：使用HTTP库发送请求获取网页内容。
解析数据：使用解析库提取目标数据。
保存数据：将数据存储到文件或数据库中。

常用工具和库

1. `requests`

requests是一个简单且功能强大的HTTP请求库，用于发送GET和POST请求。

安装方法：

pip install requests

示例代码：

import requests

url = "https://example.com"
response = requests.get(url)
if response.status_code == 200:
    print(response.text)

2. `BeautifulSoup`

BeautifulSoup是一个HTML和XML解析库，适合从网页中提取特定数据。

安装方法：

pip install beautifulsoup4

示例代码：

from bs4 import BeautifulSoup

html = "<html><body><h1>Hello, world!</h1></body></html>"
soup = BeautifulSoup(html, 'html.parser')
print(soup.h1.text)

3. `lxml`

lxml是一个快速高效的HTML/XML解析库，支持XPath语法。

安装方法：

pip install lxml

示例代码：

from lxml import etree

html = "<html><body><h1>Hello, world!</h1></body></html>"
tree = etree.HTML(html)
print(tree.xpath('//h1/text()'))

4. `Scrapy`

Scrapy是一个功能强大的爬虫框架，适合开发复杂的爬虫项目。

安装方法：

pip install scrapy

示例代码：

scrapy startproject myproject

实战案例：爬取豆瓣电影 Top250

1. 分析目标

目标是抓取豆瓣电影 Top250 的电影名称、评分和评论人数。

目标网址：https://movie.douban.com/top250

2. 创建爬虫脚本

完整代码：

import requests
from bs4 import BeautifulSoup
import csv

def fetch_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    return response.text

def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    movies = []
    for item in soup.find_all('div', class_='item'):
        title = item.find('span', class_='title').text
        rating = item.find('span', class_='rating_num').text
        comments = item.find('div', class_='star').find_all('span')[-1].text
        movies.append([title, rating, comments])
    return movies

def save_to_csv(data, filename='movies.csv'):
    with open(filename, 'w', newline='', encoding='utf-8') as file:
        writer = csv.writer(file)
        writer.writerow(['Title', 'Rating', 'Comments'])
        writer.writerows(data)

def main():
    base_url = "https://movie.douban.com/top250?start={}"
    all_movies = []
    for start in range(0, 250, 25):
        url = base_url.format(start)
        html = fetch_page(url)
        movies = parse_page(html)
        all_movies.extend(movies)
    save_to_csv(all_movies)

if __name__ == '__main__':
    main()

3. 运行代码

运行脚本后会生成一个movies.csv文件，包含抓取的电影信息。

注意事项

1. 反爬措施

许多网站会部署反爬虫机制。以下是常见应对方法：

模拟浏览器行为：添加请求头，设置User-Agent。
延时访问：使用time.sleep避免过于频繁的请求。
代理IP：使用代理池避免IP被封。

示例：设置请求头和延时访问

import time
headers = {
    'User-Agent': 'Mozilla/5.0'
}
response = requests.get(url, headers=headers)
time.sleep(1)  # 每次请求间隔1秒

2. 法律和道德

在抓取数据前，请确保：

遵守目标网站的robots.txt规则。
数据用于合法目的，不违反隐私和版权法规。

进阶：爬取动态内容

对于使用JavaScript渲染的网页，常规爬虫可能无法获取完整数据。这时可以使用以下工具：

1. `selenium`

selenium用于模拟真实浏览器行为，适合抓取动态加载的内容。

安装方法：

pip install selenium

示例代码：

from selenium import webdriver

options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
driver.get('https://example.com')
print(driver.page_source)
driver.quit()

2. `Playwright`

Playwright是一个现代浏览器自动化工具，支持多种语言。

安装方法：

pip install playwright
playwright install

示例代码：

from playwright.sync_api import sync_playwright

with sync_playwright() as p:
    browser = p.chromium.launch(headless=True)
    page = browser.new_page()
    page.goto('https://example.com')
    print(page.content())
    browser.close()