urllib 异常、cookie、handler及代理(四)

目录

一、urllib异常 

二、urllib cookie登录

三、urllib handler 处理器的基本使用

四、urllib 代理和代理池

参考


一、urllib异常 

URLError/HTTPError

简介:

1.HTTPError类是URLError类的子类

2.导入的包urllib.error.HTTPError  urllib.error.URLError

3.http错误:http错误是针对浏览器无法连接到服务器而增加出来的错误提示。引导并告诉浏览者该页是哪里出了问题。

4.通过urllib发送请求的时候,有可能会发送失败,这个时候如果想让你的代码更加健壮,可以通过try-except进行捕捉异常,异常有两类URLError和HTTPError

完整代码:

# 异常
# URLError/HTTPError

from urllib.error import URLError
from  urllib.error import HTTPError
import urllib.request

# 正确url
# url = 'https://blog.csdn.net/m0_45447650/article/details/1342414341'

# 地址错误
url = 'https://blog.csdn.net/m0_45447650/article/details/1342414341'
# 主机名错误
# url = 'https://blob.csdn.net/m0_45447650'
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76"
}
try:
    # 请求对象定制
    request = urllib.request.Request(url, headers = headers)
    # 获取网页源码
    response = urllib.request.urlopen(request)
    content = response.read().decode('utf-8')
    print(content)
except HTTPError:
    print('url地址写错了')
except URLError:
    print('url主机名错了')

二、urllib cookie登录

# 微博的cookie登录
# 应用场景: 数据采集时,绕开登录,进入到某个页面

完整代码:

# 微博的cookie登录
# 应用场景: 数据采集时,绕开登录,进入到某个页面

# 个人信息界面是utf-8,但还是报编码错误,因为并没有进入到个人信息页面,而是跳转到登录页面,登录页面不是utf-8,所以报错。
# 什么情况下访问不成功,请求头的信息不够才会访问不成功
# refere :防盗链,判断当前路径是不是由上一个路径进来的,一般情况下是做图片的防盗链
import urllib.request
url = 'https://weibo.com/你的微博主页'
headers = {
        "User-Agent": "主页的UA",
        'Cookie':'主页的CK',
        'Referer':'https://weibo.com/'
}
request = urllib.request.Request(url, headers = headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
with open ('weibo.html', 'w',encoding='utf-8') as file:
    file.write(content)

三、urllib handler 处理器的基本使用

 为什么要学handler?

urllib.request.urlopen(url)

       不能定制请求头

urllib.request.Request(url,header,data)

       可以定制请求头

handler

       定制更高级的请求头(随着业务逻辑的复杂,请求对象的定制已经满足不了我们的需求(动态cookie和代理不能使用请求对象的定制))

使用handler三步:

1.获取handler对象

2.获取opener对象

3.调用open方法

完整代码:

# 使用handler访问百度,获取网页源码

import urllib.request
url = 'http://www.baidu.com'
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76"
}

# 请求对象定制
request = urllib.request.Request(url, headers=headers)

# handler build_opener open
# 1.获取handler对象
handler = urllib.request.HTTPHandler()
# 2.获取opener对象
opener = urllib.request.build_opener(handler)
# 3.调用open方法
response = opener.open(request)

content = response.read().decode('utf-8')
print(content)

四、urllib 代理和代理池

 1.代理的常用功能?

(1).突破自身IP访问限制,访问国外站点

(2).访问一些单位或团体内部资源

扩展:某大学FTP(前提是该代理地址在该资源的允许访问范围之内),使用教育网内地址段免费代理股务器,就可以用于对教育网开放的各类FTP下载上传,以及各类资料查询共亨等服务,

(3).提高访问速度

扩展: 通常代理服务器都设置一个较大的硬盘缓冲区,当有外界的信息通过时,同时也将其保存到缓冲区中,当其他用户再访问相同的信息时, 则直接由缓冲区中取出信息,传给用户,以提高访问速度,

(4).隐感真实IP

扩展:上网者也可以通过这种方法隐藏自己的IP,免受攻击

2.代码配置代理

创建Reuqest对象

创建ProxyHandler对象

用handler对象创建opener对象

使用opener.open函数发送请求

使用handler模拟客户端向服务器发送请求

# handler build_opener open
handler = urllib.request.ProxyHandler(proxies=proxies)
opener = urllib.request.build_opener(handler)
response = opener.open(request)

设置一个简单的代理池

# 代理池
proxies_pool= [
    # 'key':'主机'+'端口号'
    {'http':'61.216.185.88:60808'},
    {'http':'182.140.244.163:8118'}
]
import random
proxies = random.choice((proxies_pool))

完整代码

import urllib.request
url = 'https://www.baidu.com/s?wd=ip'
headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/118.0.0.0 Safari/537.36 Edg/118.0.2088.76"
}

# 请求对象定制
request = urllib.request.Request(url, headers=headers)
# response = urllib.request.urlopen(request)

# 获取免费快代理 https://www.kuaidaili.com/free/
# 代理 ip 以字典的方式存在
proxies = {
    # 'key':'主机'+'端口号'
    'http':'61.216.185.88:60808'
}

"""
# 代理池
proxies_pool= [
    # 'key':'主机'+'端口号'
    {'http':'61.216.185.88:60808'},
    {'http':'182.140.244.163:8118'}
]
import random
proxies = random.choice((proxies_pool))
"""

# handler build_opener open
handler = urllib.request.ProxyHandler(proxies=proxies)
opener = urllib.request.build_opener(handler)
response = opener.open(request)

content = response.read().decode('utf-8')
print(content)
# with open ('weibo.html', 'w',encoding='utf-8') as file:
#     file.write(content)

参考

尚硅谷Python爬虫教程小白零基础速通(含python基础+爬虫案例)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/227411.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何将idea中导入的文件夹中的项目识别为maven项目

问题描述 大家经常遇到导入某个文件夹的时候,需要将某个子文件夹识别为maven项目 解决方案

XUbuntu22.04之8款免费UML工具(一百九十七)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

【计算机组成体系结构】SRAM和DRAM

RAM — Random Access Memory 随机访问存储器 —指定某一存储单元地址的时候,存储单元的读取速度并不会因为存储单元的物理位置改变 SRAM即为 Static RAM 静态随机访问存储器 — 用于主存DRAM即为 Dynamic RAM 动态随机访问存储器 — 用于Cache 一、SRAM和DRAM的特…

oomall课堂笔记

一、项目分层结构介绍 controller层(控制器层): 作用:负责输出和输入,接收前端数据,把结果返回给前端。 1.处理用户请求,接收用户参数 2.调用service层处理业务,返回响应 servi…

Javaweb之Maven仓库的详细解析

2.3 Maven仓库 仓库:用于存储资源,管理各种jar包 仓库的本质就是一个目录(文件夹),这个目录被用来存储开发中所有依赖(就是jar包)和插件 Maven仓库分为: 本地仓库:自己计算机上的一个目录(用来存储jar包) 中央仓库&a…

利用R语言heatmap.2函数进行聚类并画热图

数据聚类然后展示聚类热图是生物信息中组学数据分析的常用方法,在R语言中有很多函数可以实现,譬如heatmap,kmeans等,除此外还有一个用得比较多的就是heatmap.2。最近在网上看到一个笔记文章关于《一步一步学heatmap.2函数》,在此与…

python 涉及opencv mediapipe知识,眨眼计数 供初学者参考

基本思路 我们知道正面侦测到人脸时,任意一只眼睛水平方向上的两个特征点构成水平距离,上下两个特征点构成垂直距离 当头像靠近或者远离摄像头时,垂直距离与水平距离的比值基本恒定 根据这一思路 当闭眼时 垂直距离变小 比值固定小于某一个…

主动而非被动:确保网络安全运营弹性的途径

金融部门处理威胁的经验对网络安全领域的任何人都有启发——没有什么可以替代提前摆脱潜在的风险和问题。 从狂野西部的银行劫匪到勒索软件即服务 (RaaS),全球金融生态系统面临的威胁多年来发生了巨大变化。技术进步带动了金融业的快速发展,从现金交易到…

【开放集检测OSR】open-set recognition(OSR)开集识别概念辨析

开放集学习 Openset Learning 主动学习 Active Learning 例外检测 Out-of-Distribution open-set recognition(OSR)开集识别 anomaly detection和outlier detection 文章目录 OOD检测OSR开放集识别OSR开放集识别在训练和测试阶段的数据集使用数据分布似然函数OSR开放集识别的特…

2023人工智能和市场营销的融合报告:创造性合作的新时代需要新的原则

今天分享的人工智能系列深度研究报告:《2023人工智能和市场营销的融合报告:创造性合作的新时代需要新的原则》。 (报告出品方:M&CSAATCHITHINKS) 报告共计:11页 生成型人工智能的兴起和重要性 生成式…

Dockerfile介绍

1. DockerFile介绍 dockerfile是用来构建docker镜像的文件!命令参数脚本! 构建步骤: 1、编写一个dockerfile文件 2、docker build 构建成为一个镜像 3、docker run运行镜像 4、docker push发布镜像(DockerHub、阿里云镜像仓库…

开源MES/免费MES/开源MES生产流程管理

一、什么是MES生产管理流程 生产管理系统(又称制造执行系统)是一种集成了计划、生产、质量控制、库存管理和材料申请等生产流程的管理系统。工厂生产管理流程是企业中实现高效生产的重要一环。 二、工厂生产管理流程的步骤 步骤一:计划和排…

利用reddit的api进行爬虫

1 介绍 Reddit是一个社交新闻聚合网站,用户可以发布、评价和讨论各种话题。Reddit的内容涵盖了广泛的主题,可以从中获取大量的文本数据进行情绪分析。 2 注册 2.1 注册reddit 你需要先注册一个reddit的账号。 2.2 注册api https://www.reddit.com/…

[RK-Linux] 移植Linux-5.10到RK3399(四)| 检查HDMI配置与打开内核LOGO显示

文章目录 一、HDMI二、VOP三、显示内核LOGO一、HDMI RK3399 的 HDMI 接口如图: datasheet 介绍: HDMI 接口各个引脚的作用如下: 接口标签作用HDMI_TX0P HDMI_TX0PA差分信号线,用于传输 HDMI 通道 0 的正向数据HDMI_TX0N HDMI_TX0NA

ELK(三)—安装可视化工具

目录复制 目录 一、ElasticSearch-Head可视化工具介绍1.1特性:1.2用法: 二、安装2.1docker安装2.2Chrome插件安装 一、ElasticSearch-Head可视化工具介绍 ElasticSearch-Head 是一个基于浏览器的 Elasticsearch 可视化工具,它提供了一个直观…

C#大型LIS检验信息系统项目源码

LIS系统,一套医院检验科信息系统。它是以数据库为核心,将实验仪器与电脑连接成网,基础功能包括病人样本登录、实验数据存取、报告审核、打印分发等。除基础功能外,实验数据统计分析、质量控制管理、人员权限管理、试剂出入库等功能…

甘草书店:#9 2023年11月23日 星期四 「麦田创业历程分享1——联合创始人的魔幻相遇」

既然甘草是一家创业主题的书店咖啡馆,那就从我,从麦田开始分享一下创业历程吧。 需要声明的是,我从不认为我有资格对别人的创业指指点点,每位创业者的性格、背景、基础、诉求各有不同,时代发展也日新月异,…

Apache Flink(九):集群基础环境搭建-Centos7节点配置

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频 目录

【Vue】修改组件样式并动态添加样式

文章目录 目标修改样式动态添加/删除样式样式不生效 目标 使用组件库中的组件,修改它的样式并动态添加/删除样式。 修改样式 组件中的一些类可能添加样式无法生效。如Element Plus中的Timeline 时间线 | Element Plus (element-plus.org)。 假设想修改两个圆之间…

K8S 删除命令空间时 一直卡住怎么办?

当使用完一个命名空间后,想删除了又删除不掉,这个时候查看命名空间的状态一直是Terminating。使用强制删除,也是还是不行。(找了好多办法都不行) [rootk8s-master kubernetes-yaml]# kubectl delete ns mem-example Er…