python爬虫概述及简单实践:获取豆瓣电影排行榜

目录

前言

Python爬虫概述

简单实践 - 获取豆瓣电影排行榜

1. 分析目标网页

2. 获取页面内容

3. 解析页面

4. 数据存储

5. 使用代理IP

总结


前言

Python爬虫是指通过程序自动化地对互联网上的信息进行抓取和分析的一种技术。Python作为一门易于学习且强大的编程语言,因其拥有丰富的第三方库和强大的数据处理能力,使得它成为了爬虫开发中的最佳选择。本文将简单介绍Python爬虫的概述,并提供一个简单的实践案例,同时会使用代理IP来提高爬虫的效率。

Python爬虫概述

Python爬虫由三个部分组成:网页下载、网页解析、数据存储。

  • 网页下载:从互联网上获取需要的数据,通常使用requests库或urllib库来实现
  • 网页解析:将下载下来的网页进行处理,提取出需要的信息,常见的解析库有BeautifulSoup和xpath等
  • 数据存储:将获取到的数据存储到文件、数据库等中,通常使用sqlite、MySQL等数据库或者csv、json等文件格式

简单实践 - 获取豆瓣电影排行榜

下面将通过一个简单的实践来讲解Python爬虫的应用。

1. 分析目标网页

首先打开浏览器,访问[豆瓣电影排行榜](https://movie.douban.com/chart),观察页面,我们会发现电影排行榜的信息都在HTML的table标签中,并且每个电影信息都是一个tr标签。每个电影信息包括电影名称、评分、导演、演员、链接等等。因此,我们需要使用Python程序来获取这些电影的信息。

2. 获取页面内容

网页下载是爬虫的第一步,我们使用Python的requests库来获取目标网页的HTML代码。代码如下:

import requests

url = 'https://movie.douban.com/chart'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
headers = {'User-Agent': user_agent}

r = requests.get(url, headers=headers)
if r.status_code == 200:
    html = r.text

这里我们设置了请求头,模拟浏览器的请求,以免被目标网站认为是爬虫而禁止访问。

3. 解析页面

我们使用Python的BeautifulSoup库来解析页面。该库提供了一种非常方便的方式来操作HTML和XML文档,能够方便地获取特定元素、属性和文本等信息。我们首先使用lxml解析器将HTML代码转换成BeautifulSoup对象,然后根据标签和属性的CSS选择器来遍历HTML文档并提取需要的内容。代码如下:

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, features="lxml")
table = soup.find("table", {"class": "ranking-list"})
tbody = table.find("tbody")
trs = tbody.findAll("tr")

movies = []
for tr in trs:
    td_name = tr.find("td", {"class": "titleColumn"})
    name = td_name.find("a").text
    rating = tr.find("span", {"class": "rating_num"}).text
    director = td_name.find("div", {"class": "bd"}).find_all("p")[0].text
    actors = td_name.find("div", {"class": "bd"}).find_all("p")[1].text
    link = td_name.find("a")["href"]
    movie = {"name": name, "rating": rating, "director": director, "actors": actors, "link": link}
    movies.append(movie)

for movie in movies:
    print(movie)

这里我们使用find()方法来查找特定的标签和属性,并使用text属性来获取标签中的文本。需要注意的是,如果标签不存在或者不存在某个属性,那么会返回None,因此需要进行一定的判断和处理。

4. 数据存储

最后,我们将获取到的电影信息保存到CSV文件中。代码如下:

import csv

filename = 'movies.csv'
with open(filename, 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['电影名', '评分', '导演', '演员', '链接'])
    for movie in movies:
        writer.writerow([movie['name'], movie['rating'], movie['director'], movie['actors'], movie['link']])

使用csv库的writerow()方法将电影信息逐行写入CSV文件中。

5. 使用代理IP

有些网站会对爬虫程序进行限制,例如设置访问频率限制、封禁IP等操作。因此,我们需要使用代理IP来解决这一问题。代理IP可以让我们通过代理服务器来访问目标网站,从而提高访问速度和安全性。

我们可以通过一些免费的代理IP网站来获取代理IP,例如站大爷代理ip、开心代理等。代码如下:

import requests

url = 'https://movie.douban.com/chart'
user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
headers = {'User-Agent': user_agent}

proxy_url = 'https://www.zdaye.com//'
proxy_headers = {'User-Agent': user_agent}

proxies = []
r = requests.get(proxy_url, headers=proxy_headers)
if r.status_code == 200:
    soup = BeautifulSoup(r.text, features="lxml")
    table = soup.find("table", {"id": "ip_list"})
    tbody = table.find("tbody")
    trs = tbody.findAll("tr")
    for tr in trs:
        tds = tr.find_all('td')
        if len(tds) > 6 and tds[5].text == 'HTTP':
            ip = tds[1].text + ':' + tds[2].text
            proxies.append(ip)

for proxy in proxies:
    try:
        print('Using proxy:', proxy)
        proxy_dict = {'http': 'http://' + proxy, 'https': 'https://' + proxy}
        r = requests.get(url, headers=headers, proxies=proxy_dict, timeout=5)
        if r.status_code == 200:
            html = r.text
            break
    except:
        continue

这里我们定义一个proxies列表来保存获取到的代理IP,然后遍历该列表中的每个代理IP进行访问。如果某个代理IP无法访问,则使用下一个代理IP进行访问,直到访问到目标网页为止。需要注意的是,如果代理IP无法使用或者响应时间过长,需要考虑使用其他IP或者增加超时时间。

总结

Python爬虫是一种非常有用的技术,通过Python程序自动化地获取互联网上的数据,为我们带来了许多便利。在实践中,我们需要注意遵守法律法规和爬虫道德规范,以避免产生不良后果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/155027.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Ps:锁定图层

使用“图层”面板上的锁定图层 Lock Layer功能可以完全或部分锁定图层以保护其内容。 比如,在完成某个图层后希望它不再被修改(包括不透明度和图层样式等),可将其完全锁定。 如果不想更改图像,但对其摆放位置还在犹豫不…

SpringBoot实现IP地址归属地查询

SpringBoot实现IP地址归属地查询 功能特性 标准化的数据格式 每个 IP 数据段的 region 信息都固定了格式: 国家|区域|省份|城市|ISP,只有中国的数据绝大部分精确到了城市,其他国家部分数据只能定位到国家,后前的选项全部是 0。…

6.运行mysql容器-理解容器数据卷

运行mysql容器-理解容器数据卷 1.什么是容器数据卷2.如何使用容器数据卷2.1 数据卷挂载命令2.2 容器数据卷的继承2.3 数据卷的读写权限2.4 容器数据卷的小实验(加深理解)2.4.1 启动挂载数据卷的centos容器2.4.2 启动后,在宿主机的data目录下会…

demo(三)eurekaribbonhystrix----服务降级熔断

一、介绍: 1、雪崩: 多个微服务之间调用的时候,假如微服务A调用微服务B和微服务C,微服务B和微服务C又调用其他的微服务,这就是所谓的"扇出"。如果扇出的链路上某个微服务的调用响应的时间过长或者不可用&am…

【flutter】使用getx下的GetMaterialApp创建路由和使用时间选择器国际化问题

GetMaterialApp是啥 网上解释说是 MaterialApp Getx properties GetMaterialApp 问题 在使用showDateRangePicker组件的时候, 一直报错 No MaterialLocalizations found 我就愁思是不是GetMaterialApp跟MaterialApp方法不一样的问题,结果不是&#…

【7】Spring Boot 3 集成组件:缓存组件 spring cache + spring data redis

目录 【7】Spring Boot 3 集成组件:缓存组件 spring cache spring data redis什么是缓存抽象声明式注解JSR-107对应SpEL上下文数据 引入依赖cache 支持的缓存类型缓存类型配置NONESIMPLEREDIS自定义配置 CAFFEINE Hazelcast...总结 个人主页: 【⭐️个人主页】 需要…

【第2章 Node.js基础】2.7 Node.js 的流(一) 可读流

🌈 Node.js 的流 🚀什么是流 流不是 Node.js 特有的概念。它们是几十年前在 Unix 操作系统中引入的。 我们可以把流看作这些数据的集合,就像液体一样,我们先把这些液体保存在一个容器里(流的内部缓冲区 BufferList&…

Windows SmartScreen中的漏洞!

🔥另一个流行漏洞是 CVE-2023-36025 - 绕过 Windows SmartScreen 安全功能,该功能是多个微软产品的网络钓鱼和恶意软件保护组件。 👾有多危险 利用该漏洞,攻击者可以绕过 Windows Defender SmartScreen 检查和相关警告。利用该漏…

【Python】Pandas(学习笔记)

一、Pandas概述 1、Pandas介绍 2008年WesMcKinney开发出的库,专门用于数据挖掘的开源python库 以Numpy为基础,借力Numpy模块在计算方面性能高的优势 基于matplotib,能够简便的画图 独特的数据结构 import pandas as pd2、Pandas优势 便…

Dart 3.2 更新,Flutter Web 的未来越来越明朗

参考原文:https://medium.com/dartlang/dart-3-2-c8de8fe1b91f 本次跟随 Flutter 3.16 发布 的 Dart 3.2 ,包含有:私有 final 字段的非空改进、新的 interop 改进、对 DevTools 中的扩展支持、以及对 Web 路线图的更新,包括对 Was…

Unity开发之C#基础-集合(字典)(Dictionary)

前言 Hello 兄弟们 一转眼俩月又过去了(失踪人口回归) 不出意外的是出意外了 失踪了两个月 有点对不起我这为数不多的粉丝们 实不相瞒忙的焦头烂额 也没心情写博客 实在对不住各位 好了长话短说 今天这篇文章是讲解c#当中的新的一种集合的表现&#xff…

ProtocolBuffers(protobuf)详解

目录 前言特点语法定义关键字JSON与Protocol Buffers互相转换gRPC与Protocol Buffers的关系 前言 Protocol Buffers(通常简称为protobuf)是Google公司开发的一种数据描述语言,它能够将结构化数据序列化,可用于数据存储、通信协议…

pip 问题

升级pip命令: python -m pip install --upgrade pippip不能下载pytorch: 这个问题我一直没解决。不知道有哪位大佬可以留言给我。把whl文件下载到本地也没有,pip不会进行本地文件夹搜索。

园区网络项目实战

实验背景 某写字楼备搭建一张网络供楼内企业办公使用。写字楼共6层,目前已有三层投入使用,分别 是一层会客大厅、二层行政部及总经理办公室、三层研发部和市场部。一层设有核心机房,其 他各楼层均有一个小房间放置网络设备。 第一步 询…

程序员如何悄悄拔尖,然后惊艳四座?

谁最初还不是个血气方刚、胸怀抱负的有志青年了? 渐渐的,被岁月磨平棱角,被生活冲淡理想,如今的你还有几分似从前? 你是否,不安现状、焦虑未来、忙忙碌碌没有方向? 不甘平庸?不想摸鱼&#…

【LeetCode刷题-滑动窗口】--1004.最大连续1的个数III

1004.最大连续1的个数III 方法&#xff1a;滑动窗口 class Solution {public int longestOnes(int[] nums, int k) {int left 0,right 0,zero 0,res 0;while(right < nums.length){if(nums[right]0){zero;}while(zero > k){if(nums[left] 0){zero--;}left;}res Ma…

深度系统(Deepin)开机无法登录,提示等待一千五百分钟

深度系统&#xff08;Deepin&#xff09;20.0&#xff0c; 某次开机无法登录&#xff0c;提示等待一千五百分钟。 &#xff1f;&#xff1f;&#xff1f;&#xff1f;&#xff1f;&#xff1f;&#xff1f;&#xff1f;&#xff1f; 用电脑这么多年&#xff0c;头一回遇到这种…

大数据Doris(二十四):数据导入(Stream Load)介绍

文章目录 数据导入(Stream Load)介绍 一、适用场景 二、基本原理

AE 的软件、硬件、驱动控制、调试策略(没有算法)

#灵感# AE是个值得推敲再推敲的模块&#xff0c;有意思。 目录 相关的硬件-光圈&#xff1a; 相关的软件-曝光-ISO&#xff1a; ISP中的sensor AE 组成&#xff1a; sensor AE的流程及控制&#xff1a; tuning时AE的一些策略&#xff1a; 相关的硬件-光圈&#xff1a; 光…

低代码平台排名及评析一览:谁是最具潜力的Top5?

在数字化时代&#xff0c;低代码平台已经逐渐成为企业快速开发应用的首选工具。众多低代码平台涌现市场&#xff0c;但谁才是最具潜力的Top 5呢&#xff1f;本文将为您揭示并评析这些领先的平台。 云表平台&#xff1a;能开发复杂管理系统的企业级低代码平台 一、平台背景 云表…