Python爬虫入门:如何设置代理IP进行网络爬取

目录

前言

一、获取代理IP

1.1 获取免费代理IP

1.2 验证代理IP

二、设置代理IP

三、使用代理IP进行网络爬取

四、总结


前言

在进行网络爬取时,经常会遇到一些反爬虫的措施,比如IP封锁、限制访问频率等。为了解决这些问题,我们可以使用代理IP来进行网络爬取。

本文将介绍Python如何设置代理IP进行网络爬取,包括如何获取代理IP、如何设置代理IP、如何验证代理IP、如何使用代理IP进行网络爬取等。

一、获取代理IP

在使用代理IP进行网络爬取之前,需要先获取一些可用的代理IP。常见的代理IP来源包括免费代理网站和付费代理IP服务商。这里以免费代理网站为例。

1.1 获取免费代理IP

网上有很多提供免费代理IP的网站,可以通过爬取这些网站获取可用的代理IP。以站大爷代理为例,可以通过以下代码获取网站上的代理IP:

import requests
from lxml import etree

url = 'https://www.zdaye.com/nn/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
html = response.content.decode('utf-8')
selector = etree.HTML(html)
table = selector.xpath('//table[@id="ip_list"]')[0]
trs = table.xpath('.//tr')[1:]
for tr in trs:
    ip = tr.xpath('./td[2]/text()')[0]
    port = tr.xpath('./td[3]/text()')[0]
    print(ip + ':' + port)

运行以上代码,可以获取到站大爷代理上的所有可用代理IP。

1.2 验证代理IP

获取到代理IP后,需要进行验证,以确保代理IP可以正常使用。常见的代理IP验证方式包括测试代理IP是否可以访问指定网站和测试代理IP的匿名性。

以下代码演示如何测试代理IP是否可以访问百度:

import requests

url = 'https://www.baidu.com/'
proxies = {'http': 'http://127.0.0.1:8080', 'https': 'https://127.0.0.1:8080'}
try:
    response = requests.get(url, proxies=proxies, timeout=5)
    if response.status_code == 200:
        print('代理IP可以正常访问百度')
    else:
        print('代理IP无法访问百度')
except:
    print('连接代理IP失败')

运行以上代码,可以测试代理IP是否可以正常访问百度。如果连接成功并且返回状态码为200,则说明代理IP可以正常使用。

二、设置代理IP

在Python中,可以通过requests库设置代理IP。下面是一个简单的例子:

import requests

url = 'https://www.baidu.com/'
proxies = {'http': 'http://127.0.0.1:8080', 'https': 'https://127.0.0.1:8080'}
response = requests.get(url, proxies=proxies)
print(response.text)

以上代码演示了如何使用代理IP访问百度。其中,proxies参数是一个字典,key为http或https,value为代理IP的地址。如果代理IP需要验证,可以在value中添加用户名和密码,例如:

proxies = {'http': 'http://username:password@127.0.0.1:8080', 'https': 'https://username:password@127.0.0.1:8080'}

三、使用代理IP进行网络爬取

在进行网络爬取时,可以通过设置代理IP来避免被识别为爬虫。以下是一个简单的例子,演示如何使用代理IP来进行网络爬取:

import requests
from lxml import etree

url = 'https://www.baidu.com/'
proxies = {'http': 'http://127.0.0.1:8080', 'https': 'https://127.0.0.1:8080'}
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers, proxies=proxies)
html = response.content.decode('utf-8')
selector = etree.HTML(html)
title = selector.xpath('//title/text()')[0]
print(title)

以上代码使用代理IP访问了百度,并获取了网页的标题。如果输出结果为“百度一下,你就知道”,则说明代理IP访问正常。

四、总结

本文介绍了Python如何设置代理IP进行网络爬取,包括如何获取代理IP、如何设置代理IP、如何验证代理IP、如何使用代理IP进行网络爬取等。在进行网络爬取时,需要注意代理IP的匿名性、代理IP的稳定性以及代理IP的可靠性等因素,以确保代理IP可以正常使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/197972.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode刷题】--38.外观数列

38.外观数列 方法:遍历生成 该题本质上是依次统计字符串中连续相同字符的个数 例如字符串 1112234445666我们依次统计连续相同字符的个数为: 3 个连续的字符 1, 222 个连续的 2,1 个连续的字符 3,3个连续的字符 4,1个连续的字符…

深入理解Transformer,兼谈MHSA(多头自注意力)、LayerNorm、FFN、位置编码

Attention Is All You Need——集中一下注意力 Transformer其实不是完全的Self-Attention结构,还带有残差连接、LayerNorm、类似1维卷积的Position-wise Feed-Forward Networks(FFN)、MLP和Positional Encoding(位置编码&#xf…

vivado综合分析与收敛技巧1

使用细化视图对 RTL 进行最优化 完成任意实现步骤后使用 report_timing 、 report_timing_summary 或 report_design_analysis 分析时序结果时, 您必须审查关键路径结构 , 了解是否可通过修改 RTL 、使用综合属性或者使用其他综合选项来更有效地将…

语音 self-supervised learning (未完待续)

1. 简介 深度学习被分为:监督学习,无监督学习和自监督学习。 监督学习近些年获得了巨大的成功,但是有如下的缺点: 1.人工标签相对数据来说本身是稀疏的,蕴含的信息不如数据内容丰富; 2.监督学习只能学到特…

【开源】基于Vue.js的大学计算机课程管理平台的设计和实现

项目编号: S 028 ,文末获取源码。 \color{red}{项目编号:S028,文末获取源码。} 项目编号:S028,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 实验课程档案模块2.2 实验资源模块2…

慢 SQL 分析及优化

目录 分析慢 SQL SQL 优化 单表优化 多表优化 慢 SQL:指 MySQL 中执行比较慢的 SQL排查慢 SQL 最常用的方法:通过慢查询日志来查找慢 SQL MySQL 的慢查询日志是 MySQL 提供的一种日志记录,它用来记录在 MySQL 中响应时间超过阈值的语句&…

【攻防世界-misc】reverseMe

1.下载后,得到这样一张图片 2.利用在线翻转网站获取值,在线旋转图片工具|在线翻转照片|调整照片方向|生成镜像图片 - 改图宝 反转后的图片,将值提取并上传。

HassOS使用nmcli设置静态IPv4地址及网关、DNS

目录 显示hass在使用的默认连接显示此连接的所有配置编辑hass默认连接添加静态IP地址添加DNS和网关删除DNS查看IPv4属性保存配置并退出nmcli重载配置 首先控制台登陆Home Assistant OS Welcome to Home Assistant homeassistant login:使用root用户登录(无需密码&a…

陪诊系统|沈阳陪诊系统定制|陪诊软件保障患者安全与便利

陪诊系统是一种以专业医疗服务为核心的综合性陪同体系。它涵盖了医院前线咨询、专业陪诊、医后关怀等多个环节,提供全方位的医疗咨询服务和专业的医疗陪同服务。通过陪诊系统,患者可以获得更加便捷、高效、安全的医疗服务体验。陪诊系统的出现&#xff0…

中国信息通信研究院发布《全球数字治理白皮书》调”转变

加gzh“大数据食铁兽”,回复“20231123”,获取材料完整版 导读 中国信息通信研究院连续第三年发布《全球数字治理白皮书》本年度报告在延续以往对全球数字治理核心议题和重要机制进展评估展望的基础上,首次尝试提出全球数字治理的定义和体…

本机putty无法连接到虚拟机中kali操作系统

sudo apt-get install -y openssh-server安装一下软件,我这里已经安装好了,所以没有安装过程了。 firewall-cmd --zonepublic --remove-port22/tcp --permanent想要打开22端口,发现报错如下: Could not find command-not-found…

持续集成交付CICD:GitLab Webhook触发Jenkins流水线

目录 一、实验 1.Jenkins远程下载GiaLab仓库代码 2.curl远程触发Jenkins流水线 3.GitLab Webhook触发Jenkins流水线 二、问题 1.GitLab配置Webhook时报错 一、实验 1.Jenkins远程下载GiaLab仓库代码 (1) Jenkins添加选项参数 (2)添加字符参数 (3)查看构建参数情况 (4)添…

1-2-3图片的排列

目录 1.展示效果 2.基础方法源码展示 ①div部分展示 ②css部分展示 3.接口方法源码展示 scoped使用 1.展示效果 2.基础方法源码展示 ①div部分展示 <view class"container"> <view class"cover"> <im…

Day12 qt QMianWindow,资源文件,对话框,布局方式,常用ui控件

QMianWindow 概述 QMainWindow 是一个为用户提供主窗口程序的类&#xff0c;包含一个菜单栏&#xff08; menu bar &#xff09;、多 个工具栏 (tool bars) 、多个铆接部件 (dock widgets) 、一个状态栏 (status bar) 及 一个中心部件 (central widget) 许多应用程序的基础…

MySQL数据库:外键、唯一键、唯一索引

目录 说明 一、如果要使用外键&#xff0c;表的存储引擎选择哪个&#xff1f; 1.1 答 1.2 示范 1.2.1 主表 &#xff08;1&#xff09;MyISAM的表&#xff1a;masterTable2 &#xff08;2&#xff09;InnoDB的表&#xff1a;masterTable1 1.2.2 从表 &#xff08;1&am…

ZKP15.2 Formal Methods in ZK (Part I)

ZKP学习笔记 ZK-Learning MOOC课程笔记 Lecture 15: Secure ZK Circuits via Formal Methods (Guest Lecturer: Yu Feng (UCSB & Veridise)) 15.2 Formal Methods in ZK (Part I) Circuits Workflow Source Code: Witness Generation and ConstraintsWitness Generatio…

微信小程序开发——项目开发入门

版权声明 本文原创作者&#xff1a;谷哥的小弟作者博客地址&#xff1a;http://blog.csdn.net/lfdfhl 概述 本文重点介绍微信小程序开发者工具的下载与安装与项目开发入门。 下载开发者工具 请在官方网站下载微信小程序开发工具&#xff1b;图示如下&#xff1a; 请依据实际…

Javaweb之前端工程化的详细解析

3 前端工程化 3.1 前端工程化介绍 我们目前的前端开发中&#xff0c;当我们需要使用一些资源时&#xff0c;例如&#xff1a;vue.js&#xff0c;和axios.js文件&#xff0c;都是直接再工程中导入的&#xff0c;如下图所示&#xff1a; 但是上述开发模式存在如下问题&#xff…

【黑马甄选离线数仓day06_核销主题域开发】

1. 核销主题_DWD和DWM层 1.0 ODS层 操作数据存储层: Operate Data Store 核心理念: 几乎和源数据保持一致,粒度相同 注意事项: 同步方式(全量同步,全量覆盖,增量仅新增,增量新增和更新) 内部表 分区表(部分) 指定字符分隔符 orc zlib 第二天的时候已经完成了从mysql以及sq…

手把手教你:基于python+Django的英文数据分析与可视化系统

系列文章 手把手教你&#xff1a;基于Django的新闻文本分类可视化系统&#xff08;文本分类由bert实现&#xff09;手把手教你&#xff1a;基于python的文本分类&#xff08;sklearn-决策树和随机森林实现&#xff09;手把手教你&#xff1a;基于TensorFlow的语音识别系统 目录…