用python写网络爬虫:3.urllib库进一步的使用方法

文章目录

  • 异常处理
    • URLError
    • HTTPError
    • 设置超时时间
  • 链接的解析、构造、合并
    • urlparse方法
    • urlsplit方法
    • urljoin方法
    • urlencode方法
    • parse_qs方法
    • quote方法
  • Robots 协议
    • Robots 协议的结构
    • 解析协议
  • 参考书籍

在上一篇文章:用python写网络爬虫:2.urllib库的基本用法 已经介绍了如何使用urllib库的requests模块发送简单的请求,如果想方便地实现更多东西,还得学习新的东西

异常处理

使用urllib库中的error模块可以帮我们处理异常情况

URLError

如果我们打开一个不存在的网页,程序应该会报错,这时可以使用URLError命令返回错误原因,避免程序异常终止

from urllib import request, error 

try: 
    response = request.urlopen('https://cuiqingcai.com/index.htm')
except error.URLError as e: 
    print(e.reason)

HTTPError

是URLError错误的子类,专门处理HTTP请求错误,它有三个属性

  • code:返回HTTP状态码
  • reason:返回错误原因
  • headers:返回请求头
    代码示例:
from urllib import request,error 

try: 
    response = request.urlopen('https://cuiqingcai.com/index.htm') 
except error.HTTPError as e: 
    print(e.reason,e.code,e.headers)

输出结果如下
在这里插入图片描述
在一些情况下,e.reason,e.code 和 e.headers 也可能为 None。此时可以代替使用 e 本身来输出完整的异常信息。

print(e)

为了使代码更有效率,一般我们先使用HTTPError检查是否存在HTTPError,再使用父类的URLError检查是否存在URLError,即

from urllib import request, error

try: 
    response = request.urlopen('https://cuiqingcai.com/index.htm') 
except error.HTTPError as e: 
    print(e.reason, e.code, e.headers) 
except error.URLError as e: 
    print(e .reason) 
else: 
    print('Request Successfully')

设置超时时间

通过设置一个超时时间,防止程序因异常而长时间循环

import socket 
import urllib.request 
import urllib.error 

try: 
    response = urllib.request.urlopen('https://www.baidu.com',timeout = 0.01)
except urllib.error.URLError as e: 
    print(type(e.reason)) 
    if isinstance(e.reason,socket.timeout):
        print('TIME OUT')

链接的解析、构造、合并

urlparse方法

使用urlparse方法可以进行链接的解析

from urllib.parse import urlparse 

result = urlparse('http://www.baidu.com/index.html;user?id=5#comment')
print(type(result), result)

返回结果是一个 ParseResult 类型的对象,它包含6个部分,分别是协议scheme、域名netloc、访问路径path、参数params、查询条件query、锚点fragment

<class ‘urllib.parse.ParseResult’> ParseResult(scheme=‘http’, netloc=‘www.baidu.com’, path=‘/index.html’, params=‘user’, query=‘id=5’, fragment=‘comment’)

这也暗示着,一个标准的URL链接格式应该是

scheme://netloc/path;params?query#fragment

urlparse方法的参数
urlparse(urlstring,scheme=‘’,allow_fragments=True)

  • urlstring:待解析的URL,必填参数
  • scheme:若原链接不含有协议信息,则为其指定协议(例如HTTP)。若原链接含有协议scheme,则失效
  • allow_fragments:是否带有fragments。是:正常解析fragments;否:忽略fragments,将其作为query、params或path的一部分

使用urlunparse方法按照URL的标准结构可以构造一个链接

from urllib.parse import urlunparse 

data =['http','www.baidu.com','index.html','user','a=6','comment'] 
print(urlunparse(data))

输出结果即为 http://www.baidu.com/index.html;user?a=6#comment

urlsplit方法

urlsplit方法大体与urlparse类似,区别在于urlsplit不解析params的部分,而将其与path合并

from urllib.parse import urlsplit

result = urlsplit('http://www.baidu.com/index.html;user?id=5#comment') 
print(result)

结果即

SplitResult(scheme=‘http’, netloc=‘www.baidu.com’, path=‘/index.html;user’, query=‘id=5’, fragment=‘comment’)

类似地,可以使用urlunsplit方法构造链接,只需注意元素为5个

from urllib.parse import urlunsplit 

data =['http','www.baidu.com','index.html','a=6','comment']
print(urlunsplit(data))

urljoin方法

以上介绍了链接的解析和构造,下面介绍用urljoin方法进行链接的合并,一般输入两个参数,第一个参数为基础链接,第二个参数为新链接;urljoin会将基础链接拆分,将新链接没有的部分给补全,如下例

from urllib.parse import urljoin 

print(urljoin('http://www.baidu.com','FAQ.html')) 
print(urljoin('http://www.baidu.com','https://cuiqingcai.com/FAQ.html')) 
print(urljoin('http://www.baidu.com/about.html','https://cuiqingcai.com/FAQ.html')) 
print(urljoin('http://www.baidu.com/about.html','https://cuiqingcai.com/FAQ.html?question=2')) 
print(urljoin('http://www.baidu.com?wd=abc','https://cuiqingcai.com/index.php'))
print(urljoin('http://www.baidu.com','?category=2#comment')) 
print(urljoin('www.baidu.com','?category=2#comment')) 
print(urljoin('www.baidu.com#conent','?category=2'))

运行结果如下
在这里插入图片描述

urlencode方法

构造GET请求时,常常需要先声明一个字典,再将其化为请求的参数,这时需要urlencode方法

from urllib.parse import urlencode

params = {
    'name' : 'germey',
    'age': 22
}
base_url = 'http://www.baidu.com?'
url = base_url + urlencode(params)
print(url)

运行结果为 http://www.baidu.com?name=germey&age=22

parse_qs方法

若想将URL中的参数转回字典,可以使用parse_qs方法

from urllib.parse import parse_qs 

query= 'name=germey&age=22' 
print(parse_qs(query))

运行结果:{‘name’: [‘germey’], ‘age’: [‘22’]}

若想将参数转化为列表,则使用parse_qsl方法

from urllib.parse import parse_qsl 

query= 'name=germey&age=22' 
print(parse_qsl(query))

运行结果:[(‘name’, ‘germey’), (‘age’, ‘22’)]

quote方法

URL中带有中文参数时,有时可能会导致乱码的问题,此时用quote方法可以将中文字符转化为 URL 编码

from urllib.parse import quote 

keyword = '壁纸'
url = 'https://www.baidu.com/s?wd='+ quote(keyword) 
print(url)

输出结果:https://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8

若想将编码转回文字,则使用unquote方法

from urllib .parse import unquote 
url = 'http://www.baidu.com/s?wd=%E5%A3%81%E7%BA%B8' 
print(unquote(url))

运行结果:http://www.baidu.com/s?wd=壁纸

Robots 协议

Robots 协议( Robots Exclusion Protocol ),也称作爬虫协议、机器人协议,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。 它通常是一个叫作 robots.txt的文本文件,一般放在网站的根目录下。

当爬虫访问一个站点时,它首先会检查这个站点根目录下是否存在 robots.txt 文件,如果存在,搜索爬虫会根据其中的规则来爬取,否则搜索爬虫便会访问所有可直接访问的页面。

Robots 协议的结构

robots.txt一般由三部分组成,User-agent、Disallow、Allow,分别代表对哪些爬虫生效,禁止爬取的范围,允许爬取的范围。

常见的爬虫名称

名称含义
*所有爬虫
BaiduSpider百度
Googlebot谷歌
360Spider360
YodaoBot有道

下面举几个 robots.txt 的例子

禁止所有爬虫访问任何目录:

User-agent: *
Disallow: /

允许所有爬虫访问所有目录

User-agent: *
Allow:

禁止所有爬虫访问网站某些目录:

User-agent: *
Disallow: /private/
Disallow: /tmp/

只允许某一爬虫访问:

User-agent: BaiduSpider
Disallow:
User-agent: *
Disallow: /

解析协议

使用robotparser模块的RobotFileParser类进行解析robots.txt文件,只需要输入URL即可

urllib.robotparser.RobotFileParser(url='')

或者在声明时输入为空,并选择以下设置

  • set_url:传入URL链接
  • read:读取robots.txt文件,必须设置
  • parse:解析 robots. txt 文件,传入的参数是 robots.txt 部分行的内容,按照robots.txt的语法规则来分析这些内容
  • can_fetch:判断爬虫是否可以抓取这个 URL,返回结果是 True 或 False
  • mtime: 返回的是上次抓取和分析 robots.txt 的时间,利于定期检查来抓取最新的 robots.txt
  • modified:将当前时间设置为上次抓取和分析 robots.txt 的时间,避免频繁地获取 robots.txt 文件,节省网络资源并提高爬虫效率

示例:

from urllib.robotparser import RobotFileParser 
rp = RobotFileParser() 
rp.set_url('http://www.jianshu.com/robots.txt') 
rp. read() 

print(rp.can_fetch ('*','http://www.jianshu.com/p/b67554025d7d')) 
print(rp.can_fetch ('*','http://www.jianshu.com/search?q=python&page=l&type=collections'))

上述代码说明以上两个URL均不可被爬取

参考书籍

《python3 网络爬虫开发实战》崔庆才著

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/465825.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Nginx底层基础数据结构

基础数据结构 ngx_int_t 32位操作系统4字节,64位操作系统8字节 解决跨平台以及,普通int类型在x86和x64操作系统上面是4字节,在类型转换时造成内存浪费(如在x64下面转换long类型) typedef intptr_t ngx_int_t;#ifdef _WIN64 typedef __int64 intptr_t; #else typedef _…

Canal实现mysql与缓存同步

什么是Canal Canal是阿里巴巴旗下的一款开源项目, 基于java开发. Canal是基于mysql的主从同步来实现的. github地址: https://github.com/alibaba/canal Canal把自己伪装成MySQL的一个slave节点, 从而监听master的binary log变化. 再把得到的变化信息通知给Canal的客户端, 进而…

vue3 element plus 上传下载

文章目录 上传下载 上传 /* html */ <el-upload v-model"fileId" class"avatar-uploader" ref"exampleUploadRef" :file-list"fileList" :show-file-list"false" action"/ys-three-year/ThreeReport/uploadFile&q…

Python从0到100(五):Python分支结构和循环结构

一、分支结构&#xff1a; Python中的分支结构和循环结构是编写程序时常用的控制结构。在Python中&#xff0c;分支结构通过if、elif和else关键字来实现条件判断。在使用if语句时&#xff0c;程序会根据条件表达式的真假执行相应的代码块。 if condition1:# 如果条件1为真&am…

YOLOv5改进 | 图像去雾 | 利用图像去雾网络UnfogNet辅助YOLOv5进行图像去雾检测(全网独家首发)

一、本文介绍 本文给大家带来的改进机制是利用UnfogNet超轻量化图像去雾网络,我将该网络结合YOLOv5针对图像进行去雾检测(也适用于一些模糊场景),我将该网络结构和YOLOv5的网络进行结合同时该网络的结构的参数量非常的小,我们将其添加到模型里增加的计算量和参数量基本可…

每天一点正压采样器小知识

只要你奔跑&#xff0c;这个世界就会跟着你奔跑&#xff0c; 只要你停驻&#xff0c;这个世界就会舍弃你独自奔跑&#xff0c; 唯有你确定一个方向&#xff0c;使劲的跑起来&#xff0c; 这个世界会为你而让路。 每天一点正压采样器小知识 该采样器活赛与气筒采用全金属密封&am…

操作系统知识-存储管理+文件管理管理-嵌入式系统设计师备考笔记

0、前言 本专栏为个人备考软考嵌入式系统设计师的复习笔记&#xff0c;未经本人许可&#xff0c;请勿转载&#xff0c;如发现本笔记内容的错误还望各位不吝赐教&#xff08;笔记内容可能有误怕产生错误引导&#xff09;。 本章的主要内容见下图&#xff1a; 1、存储管理&#…

[c++]内存管理

1. C/C内存分布 我们先来看下面的一段代码和相关问题 int globalVar 1; static int staticGlobalVar 1; void Test() { static int staticVar 1; int localVar 1; int num1[10] { 1, 2, 3, 4 }; char char2[] "abcd"; const char* pChar3 "abcd"; …

Redis 八种常用数据类型详解

夯实基础&#xff0c;这篇文章带着大家回顾一下 Redis 中的 8 种常用数据类型&#xff1a; 5 种基础数据类型&#xff1a;String&#xff08;字符串&#xff09;、List&#xff08;列表&#xff09;、Set&#xff08;集合&#xff09;、Hash&#xff08;散列&#xff09;、Zse…

想进阿里?先搞懂Spring Bean的循环依赖!

如有疑问或者更多的技术分享,欢迎关注我的微信公众号“知其然亦知其所以然”! 嗨,小伙伴们!我是小米,你们的技术分享小助手!今天我们要聊的话题可是技术圈内颇为热门的“阿里巴巴面试题:Spring的循环依赖”哦!相信很多小伙伴都会在技术面试中遇到类似的问题,没错,循…

QT网络编程之获取本机网络信息

一.概述 查询一个主机的MAC地址或者IP地址是网络应用中常用到的功能&#xff0c;Qt提供了QHostInfo和QNetworkInterface 类可以用于此类信息的查询 1.QHostInfo 类&#xff08;显示和查找本地的信息&#xff09; 2.QNetworkInterface 类&#xff08;获得应用程序上所在主机的…

8.JavaWebHTML标签与CSS页面美化和布局控制

目录 导语&#xff1a; 一、HTML表单标签 二、CSS页面美化和布局控制 结语&#xff1a; 导语&#xff1a; 在Web开发中&#xff0c;HTML和CSS是两个不可或缺的技术。HTML&#xff08;HyperText Markup Language&#xff09;用于构建网页的结构&#xff0c;而CSS&#xff08…

【送书福利第五期】:ARM汇编与逆向工程

文章目录 &#x1f4d1;前言一、ARM汇编与逆向工程1.1 书封面1.2 内容概括1.3 目录 二、作者简介三、译者介绍&#x1f324;️、粉丝福利 &#x1f4d1;前言 与传统的CISC&#xff08;Complex Instruction Set Computer&#xff0c;复杂指令集计算机&#xff09;架构相比&#…

RabbitMQ的幂等性、优先级队列和惰性队列

文章目录 前言一、幂等性1、概念2、消息重复消费3、解决思路4、消费端的幂等性保障5、唯一 ID指纹码机制6、Redis 原子性 二、优先级队列1、使用场景2、如何添加3、实战 三、惰性队列1、使用场景2、两种模式3、内存开销对比 总结 前言 一、幂等性 1、概念 2、消息重复消费 3、…

day12-SpringBootWeb 登录认证

一、登录功能 Slf4j RestController public class LoginController {Autowiredprivate EmpService empService;PostMapping("/login")public Result login(RequestBody Emp emp){log.info("员工登录: {}", emp);Emp e empService.login(emp);//登录失败, …

2024考研国家线公布,各科分数线有哪些变化?考研国家线哪些涨了,哪些跌了?可视化分析告诉你

结论在文章结尾 2024考研国家线 一、近五年国家线趋势图-学术硕士 文学 管理学 工学照顾专业 体育学 交叉学科 军事学 历史学 理学 享受少数名族照顾政策的考生 中医类照顾专业 教育类 艺术类 医学 工学 哲学 法学 农学 经济学 二、近五年国家线趋势图-专业硕士 中医 应用心理 …

S3fd: Single shot scale-invariant face detector

目录 摘要一、介绍二、相关工作三、单镜头尺度不变人脸检测器3.1. Scale-equitable框架3.2. 尺度补偿锚匹配策略3.3. 最大输出背景标签3.4 训练4.实验4.1. 模型分析4.2. 基准评价4.3 推理时间 5 结论 摘要 本文提出了一种实时人脸检测器&#xff0c;称为单镜头尺度不变人脸检测…

判断素数(C语言)

一、运行结果&#xff1b; 二、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>int main() {//初始化变量值&#xff1b;int value 0;int i 2;int result 0;//循环获取用户值并判断值是否符合要求&#xff1b;while (1){//提示用户值需要满…

STM32中freertos任务不能调度的原因解决

本文是项目中的定位问题&#xff0c;如果定位到同样问题&#xff0c;可以按下面方法解决。 问题定位 这行assert代码主要判断系统中最大中断优先级数量是否等于内核中断优先级&#xff0c;实际意思就是要求内核中断优先级为系统最低优先级&#xff08;freertos中0为最高优先级…

文章类型分类项目

注意&#xff1a;本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 &#xff08;[www.aideeplearning.cn]&#xff09; 项目背景 在数据科学和机器学习的领域中&#xff0c;文本分析一直是一个引人注目的话题。这个项目的核心挑战是利用机器学习技术&#xff0c;根…