Python爬虫——爬虫时如何知道是否代理ip伪装成功?

前言

在进行爬虫时,我们可能需要使用代理IP来伪装自己的身份,以避免被网站封禁。如何判断代理IP是否伪装成功呢?本篇文章将围绕这个问题展开讲解,同时提供Python代码示例。

 

1. 确认代理IP地址

首先,我们需要确认代理IP地址是否正确。我们可以使用一些免费的代理IP池网站,如:站大爷碟鸟ip开心代理 等等,从中获取可用的代理IP。

以下是获取代理IP的Python代码示例:

import requests
from bs4 import BeautifulSoup

def get_proxy():
    url = 'https://www.zdaye.com/free/inha/1/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    r = requests.get(url, headers=headers)
    soup = BeautifulSoup(r.text, 'html.parser')
    ips = soup.select('td[data-title="IP"]')
    ports = soup.select('td[data-title="PORT"]')
    proxies = []
    for ip, port in zip(ips, ports):
        proxy = ip.get_text() + ':' + port.get_text()
        proxies.append(proxy)
    return proxies

2. 测试代理IP是否可用

获取到代理IP之后,我们需要测试它是否可用。我们可以发送一个简单的请求来测试代理IP是否可以正常连接,如请求百度首页。如果请求成功,则说明代理IP可用。

以下是测试代理IP是否可用的Python代码示例:

import requests

def check_proxy(ip):
    try:
        proxies = {'http': 'http://' + ip, 'https': 'https://' + ip}
        test_url = 'https://www.baidu.com/'
        r = requests.get(test_url, proxies=proxies, timeout=5)
        if r.status_code == 200:
            return True
        else:
            return False
    except:
        return False

3. 爬取目标网站并使用代理IP

确认代理IP可用之后,我们需要使用代理IP进行实际的爬取操作。我们可以将代理IP放入请求头中的proxy参数中,发送到目标网站进行爬取。

以下是爬取目标网站并使用代理IP的Python代码示例:

import requests

def get_page_with_proxy(url, ip):
    try:
        proxies = {'http': 'http://' + ip, 'https': 'https://' + ip}
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        r = requests.get(url, headers=headers, proxies=proxies, timeout=5)
        if r.status_code == 200:
            return r.text
        else:
            return None
    except:
        return None

4. 判断是否代理IP是否伪装成功

在使用代理IP进行爬取后,我们需要判断代理IP是否伪装成功。判断的方法有很多种,下面介绍两种比较常见的方法。

4.1 判断响应中是否包含本机IP地址

我们可以获取本机IP地址,并判断爬取的页面中是否包含本机IP地址。如果包含,则说明代理IP没有成功伪装。

以下是判断代理IP是否伪装成功的Python代码示例:

import requests
import re

def check_ip(proxy_ip):
    try:
        proxies = {'http': 'http://' + proxy_ip, 'https': 'https://' + proxy_ip}
        res = requests.get('http://httpbin.org/ip', proxies=proxies, timeout=5)
        if res.status_code == 200:
            pattern = re.compile('\d+\.\d+\.\d+\.\d+')
            match = pattern.search(res.text)
            if match:
                if match.group() == '你的本机IP地址':
                    return False
                else:
                    return True
            else:
                return False
    except:
        return False
4.2 判断爬取页面中是否包含关键字

如果我们知道目标网站中一定会出现的关键字,我们可以判断爬取的页面中是否包含这个关键字。如果包含,则说明代理IP已经成功伪装。

以下是判断代理IP是否伪装成功的Python代码示例:

import requests

def check_keyword(url, ip, keyword):
    try:
        proxies = {'http': 'http://' + ip, 'https': 'https://' + ip}
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        r = requests.get(url, headers=headers, proxies=proxies, timeout=5)
        if r.status_code == 200:
            if keyword in r.text:
                return True
            else:
                return False
        else:
            return False
    except:
        return False


总结

以上是几种判断代理IP是否伪装成功的方法,读者可以根据实际需求进行选择。同时,需要注意的是,代理IP并不能保证100%的可用性和伪装性,需要根据实际情况进行调整和优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/60587.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【运维工程师学习八】代理及安装配置Nginx反向代理

【运维工程师学习八】代理 正向代理一、使用正向代理的主要作用有:二、反向代理三、使用反向代理的主要作用有:四、透明代理五、各种代理的主要区别六、Nginx的安装七、了解nginx的文件位置八、了解nginx程序的命令行参数九、开启nginx反向代理十、解读n…

设计模式、Java8新特性实战 - List<T> 抽象统计组件

一、背景 在日常写代码的过程中,针对List集合,统计里面的某个属性,是经常的事情,针对List的某个属性的统计,我们目前大部分时候的代码都是这样写,每统计一个变量,就要定义一个值,且…

Qt中ffmpeg API存储和显示摄像头视频

Qt中ffmpeg API存储和显示摄像头视频的功能需要之前写的视频ffmpegAPI的视频播放的流程。 代码源码位置:https://download.csdn.net/download/qq_43812868/88157743?spm1001.2014.3001.5503 一、存储和显示摄像头的视频的流程 这是读取打开视频文件的流程&#x…

14-5_Qt 5.9 C++开发指南_基于HTTP 协议的网络应用程序

文章目录 1. 实现高层网络操作的类2. 基于HTTP协议的网络文件下载3.源码3.1 可是化UI设计3.2 mainwindow.h3.3 mainwindow.cpp 1. 实现高层网络操作的类 Qt 网络模块提供一些类实现 OSI 7 层网络模型中高层的网络协议,如 HTTP、FTP、SNMP等,这些类主要是…

生鲜蔬果小程序的完整教程

随着互联网的发展,线上商城成为了人们购物的重要渠道。其中,小程序商城在近年来的发展中,备受关注和青睐。本文将介绍如何使用乔拓云网后台搭建生鲜果蔬配送小程序,并快速上线。 首先,登录乔拓云网后台,进入…

Xilinx A7开发板LVDS IO无输出问题解决方法

使用A7-35T FGG484的FPGA开发板bank16上的IO作为差分LVDS的输入输出,搭建输入输出测试工程发现LVDS可以输入、无法输出。查阅UG471,找到如下信息: 手册中已经针对A7的LVDS做了明确的应用说明: (1)HP bank上…

客户流失分析预测案例 -- 机器学习项目基础篇(7)

客户流失 它是指现有的客户、用户、订阅者或任何类型的回头客停止与公司开展业务或结束与公司的关系。 客户流失的类型 合同客户流失:当客户签订了服务合同并决定取消服务时,例如有线电视,SaaS。自愿流失:当用户自愿取消服务时…

PHP正则绕过解析

正则绕过 正则表达式PHP正则回溯PHP中的NULL和false回溯案例案例1案例2 正则表达式 在正则中有许多特殊的字符,不能直接使用,需要使用转义符\。如:$,(,),*,,.,?,[,,^,{。 这里大家会有疑问:为啥小括号(),这个就需要两个来转义&a…

XSS漏洞原理及利用跨站请求伪造CSRF

XSS漏洞原理及利用&跨站请求伪造CSRF XSS一、案例二、什么是XSS三、XSS危害四、XSS的分类4.1、反射型XSS4.1.1、介绍4.1.2、利用过程 4.2、存储型XSS4.2.1、介绍4.2.2、利用过程4.2.3、案例 4.3、DOM型XSS4.3.1、介绍4.3.2、常用的DOM方法4.3.3、案例4.3.3.1、代码分析4.3.…

Linux上安装Keepalived,多台Nginx配置Keepalived(保姆级教程)

目录 一、yum安装 第一步:下载 第二步:编辑Keepalived配置文件(第一台) 第三步:编辑Keepalived配置文件(第二台) 第四步:我们在本机利用cmd ping一下 一、yum安装 第一步&…

IDEA基础使用

IDEA基础使用 1、IDEA中显示用法和用户截图展示有调用显示无调用显示 对应方法 2、如何找出项目中所有不被调用方法截图展示对应方法 3、常用代码(Code)说明及快捷键:4、未完待续待日后更新。。。总结:欢迎指导,也祝码友们代码越来越棒,技术越…

元素2D转3D 椭圆形旋转实现

椭圆旋转功能展示 transform-style: preserve-3d;(主要css代码) gif示例(背景图可插入透明以此实现边框线的旋转) 导致的无法点击遮挡问题可以参考我的另一个文章 穿透属性-----------------------css穿透属性 实时代码展示

【FAQ】在Linux中使用curl访问EasyCVR,返回报错Unauthorized的原因排查

EasyCVR可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安防视频监控的能力,比如:视…

HCIE-Datacom真题和机构资料

通过认证验证的能力 具备坚实的企业网络跨场景融合解决方案理论知识,能够使用华为数通产品及解决方案进行企业园区网络、广域互联网络及广域承载网络的规划、建设、维护及优化,能够胜任企业网络全场景专家岗位(包括客户经理、项目经理、售前…

CBCGPRibbon 添加背景图片

resource.h中声明资源的ID:ID_RIBBON_BACKIMAGE rc文件中添加png图片路径: ID_RIBBON_BACKIMAGE PNG DISCARDABLE "res\\bkribbon.png" 代码中添加下测: //添加背景图片 m_wndRibbonBar.SetBackgroundImage(ID_RIB…

使用公式与格式控制Excel快速实现计划甘特图

项目中都会遇到做任务计划的需求,有的客户要求需要有甘特图的形式本文介绍如何使用excel 单元格实现甘特图显示,调整任务时间自动填充单元格填色实现甘特图效果。废话不多说,先看效果。 准备工作先创建两列开始时间与完成时间,这…

EMD经验模态分解介绍

EMD概述 其实一种信号分解方法,是一种自适应的数据处理方法,适合非线性和非平稳时间序列的分析和研究,其本质是对数据序列或信号的平稳化处理。 将上面6个信号叠加如下: 就是6个简单信号叠加,形成一个复杂信号。 核心…

Java精品项目系统第151期大学生校园帮系统打包(编号S063)

Java精品项目系统第151期大学生校园帮系统打包(编号S063) 大家好,小辰今天给大家介绍一个基于Spring Springboot MyBatis实现的大学生校园帮系统,演示视频文章末尾公众号对号查询观看即可 文章目录 Java精品项目系统第151期大学…

flink1.17 eventWindow不要配置processTrigger

理论上可以eventtime processtime混用,但是下面代码测试发现bug,输入一条数据会一直输出. flink github无法提bug/问题. apache jira账户新建后竟然flink又需要一个账户,放弃 bug复现操作 idea运行代码后 往source kafka发送一条数据 a,1,1690304400000 可以看到无限输出…

etcd

文章目录 etcd单机安装设置键值对watch操作读取键过往版本的值压缩修订版本lease租约(过期机制)授予租约撤销租约keepAlive续约获取租约信息 事务基于etcd实现分布式锁原生实现官方 concurrency 包实现 服务注册与发现Go 操作 Etcd 参考 etcd etcd 是一…