如何在Python爬虫等程序中设置和调用http代理

在Python爬虫中为了更好地绕过反爬机制,获取网页信息,有时可能需要在Python中应用代理服务,这样做的目的就是防止自己的ip被服务器封禁,造成程序运行时中断连接,那么如何在python中设置代理呢? 我们通过几个实例来看一下,其实也不麻烦。

一、在requests中设置代理

在爬虫中我最常用的是reqeusts这个模块,除了设置user-agent, cookie之外,我们还可以加上代理ip。 下面我们给出一个利用http或https代理来访问XXX网站。 其中http或https代理可以通过在服务器上安装x-ui,设置http代理用户名和密码来实现。 有时,为了避免ip被封禁,可以绑定域名,用极光面板来设置中转代理,然后采用中转的域名来访问服务器,可以加快访问速度和安全性。

import requests

# 设置代理,包括用户名和密码
proxy_username = 'user' #设置代理的用户名
proxy_password = 'password' #设置代理的密码
proxy_host = 'ip:port' #这里设置服务器的域名或ip并助加上端口

proxies = {
    'http': f'http://{proxy_username}:{proxy_password}@{proxy_host}',
    'https': f'http://{proxy_username}:{proxy_password}@{proxy_host}',
}

# 发起请求
try:
    response = requests.get('https://www. XXX.com', proxies=proxies) #XXX替换为你要爬取的网站
    print(response.text)  # 打印响应内容
except requests.exceptions.RequestException as e:
    print(f'请求出错: {e}')

二、在edge-tts中设置代理

最近edge-tts文本转音频的调用受到了限制,访问起来十分不便,我们可以在python实现代理服务,从而避开模块的限制。

import edge_tts
import asyncio

# 设置代理,包括用户名、密码、服务器ip和端口
proxy_username = 'user'
proxy_password = 'password'
proxy_host = 'ip:port'
proxy = f'http://{proxy_username}:{proxy_password}@{proxy_host}'

async def main():
    # 创建一个 TTS 客户端
    communicate = edge_tts. Communicate(
        text="Hello, this is a text to speech conversion.",
        voice="en-US-AriaNeural",
        proxy= proxy
    )

    # 生成音频
    await communicate.save("output.mp3")

# 运行主函数
asyncio.run(main())

三、设置代理池proxy-pool

单个代理可能会出现失效的情况,我们可以设置一个代理池,把代理信息放到txt文件里,每次通过Python程序读取txt中的代理,随机调用代理池中的一个代理,即对代理池进行轮训,这样可以最大限度减少IP封禁的可能。这个代理也可以设置单个代理,通过get_proxy来获得。

import random
class Proxy:
    def __init__(self, username, password, host):
        self.username = username
        self.password = password
        self.host = host

    def get_proxy(self):
        return f'http://{self.username}:{self.password}@{self.host}'

class ProxyPool:
    def __init__(self):
        self.proxies = []

    def add_proxy(self, username, password, host):
        proxy = Proxy(username, password, host)
        self.proxies.append(proxy)

    def load_proxies_from_file(self, file_path):
        with open(file_path, 'r') as file:
            for line in file:
                username, password, host = line.strip().split(',')
                self.add_proxy(username, password, host)

    def get_random_proxy(self):
        if not self.proxies:
            raise ValueError("Proxy pool is empty.")
        return random.choice(self.proxies).get_proxy()

# 示例用法
if __name__ == '__main__':
    proxy_pool = ProxyPool()
    
    # 从文件加载代理
    proxy_pool.load_proxies_from_file('proxy.txt')

    # 随机获取一个代理
    random_proxy = proxy_pool.get_random_proxy()
    print(random_proxy) 

使用以上程序,需要我们可以把代理信息放到proxy.txt文件中,用户名、密码和服务器信息用逗号隔开,这样运行程序后,我们可以随机调用一个代理,从而模拟多人使用此项服务的目的。

四、如何随机调用代理池中的代理

我们把设置好的代理信息放到proxy.txt中格式如下图所示:

代理格式

然后,我们通过以下代码随机调用代理池中的内容,并打印出来。这样每次向服务器发请求就是随机代理,减少了程序中断的可能性。

from proxypool import ProxyPool #导入模块
proxy_pool = ProxyPool() #实例化

# 从文件加载代理
proxy_pool.load_proxies_from_file('proxy.txt')

# 随机获取一个代理
random_proxy = proxy_pool.get_random_proxy()

# 打印出来获取的代理
print(random_proxy)

五、学后总结

一直以来,我以为Python中的代理设置非常麻烦,事实上,经常测试,其实也不难。

问题的关键是找到一个有效的http代理,并在Python程序中设置好。

这是一个Python的进阶技巧,学会这个方法,可以解决很多程序运行受限的问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/905106.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024年【浙江省安全员-C证】试题及解析及浙江省安全员-C证复审考试

题库来源:安全生产模拟考试一点通公众号小程序 2024年【浙江省安全员-C证】试题及解析及浙江省安全员-C证复审考试,包含浙江省安全员-C证试题及解析答案和解析及浙江省安全员-C证复审考试练习。安全生产模拟考试一点通结合国家浙江省安全员-C证考试最新…

8、Node.js Express框架

五、Express框架 5.1概念 Express框架是一个基于Node.js平台的极简、灵活的WEB开发框架:www.express.com.cn 简单来说,Express是一个封装好的工具包,封装了很多功能,便于我们开发WEB应用 5.2安装 npm i express5.3 Express初体验 //01-express初体验.js //1.导入exrp…

Python(包和模块)

包 定义 包是将模块以文件夹的组织形式进行分组管理的方法,以便更好地组织和管理相关模块。 包是一个包含一个特殊的__init__.py文件的目录,这个文件可以为空,但必须存在,以标识目录为Python包。 包可以包含子包(子…

万方数据库功能亮点介绍及个人下载万方论文的方法

一、万方数据库介绍 万方数据知识服务平台是北京万方数据股份有限公司主要产品之一。该平台整合数亿条全球优质学术资源,集成期刊、学位、会议、标准、专利等十余种资源类型、品质知识资源、先进的发现技术、人性化设计于一身,是国内一流的品质知识资源…

18 实战:基于Tkinter和OpenCV的视频编码器:实现MPEG4矩形帧编码器

引言 在视频处理领域,视频编码器的设计与实现一直是研究的热点。本文将深入解析一段基于Python的代码,该代码利用Tkinter、OpenCV和NumPy库构建了一个MPEG4矩形帧编码器的图形用户界面(GUI)。通过详尽的代码讲解,帮助读者全面理解视频编码的基本原理及其在实际应用中的实…

12-Docker发布微服务

12-Docker发布微服务 Docker发布微服务 搭建SpringBoot项目 新建一个SpringBoot项目 选择依赖项Spring Web和Spring Boot Actuator 在com.qi.docker_boot下创建controller目录,并在该目录下创建OrderController的java类 OrderControllerjava类的内容如下&#xf…

【IEEE出版|:IEEE Xplore,EI Compendex,Scopus检索|征稿正在进行中!】

第七届机械工程与智能制造国际会议(WCMEIM 2024) 2024 7th World Conference on Mechanical Engineering and Intelligent Manufacturing 【会议信息】 会议日期:2024年11月15-17日 会议地点:中国武汉(武汉纺织大学…

如何成为开源代码库Dify的contributor:解决issue并提交PR

前言 Dify 是一个开源的大语言模型(LLM)应用开发平台,它融合了后端即服务(Backend as Service)和LLMOps的理念,旨在简化和加速生成式AI应用的创建和部署。Dify提供了一个用户友好的界面和一系列强大的工具…

前端如何安全存储密钥,防止信息泄露

场景 把公钥硬编码在前端代码文件里,被公司安全检测到了要整改,于是整理几种常见的前端密钥存储方案。 1. 设置环境变量再读取 在打包或部署前端应用时,可以将密钥配置为环境变量,在应用运行时通过环境变量读取密钥。这样可以将密…

深入了解 Three.js 中的材质与光照

开发领域:前端开发 | AI 应用 | Web3D | 元宇宙 技术栈:JavaScript、React、ThreeJs、WebGL、Go 经验经验:6年 前端开发经验,专注于图形渲染和AI技术 开源项目:github 晓智元宇宙、数字孪生引擎、前端面试题 大家好&am…

【Linux】网络基础常识{OSI七层模型 TCPIP 端口号 各种协议}_哪种nat类型适用于多个内部设备共享有限的公共ip地址

文章目录 1.网络常识 1.0DHCP协议1. 1IP地址/MAC地址/ARP协议是什么? IP/MACARP:IP ⇒ MAC 1.2手机连接wifi的原理 SSID与BSSID 手机连接wifiSSID与BSSID 1.3手机如何通过“数据/流量”上网?1.4电脑连接wifi的原理?电脑通过热点…

uniapp使用uni-push模拟推送

uniapp使用uni-push模拟推送 第一步先去uniapp开发者中心添加开通uni-push功能 这里的Android 应用签名可以先用测试的官网有,可以先用这个测试 官方测试链接文档地址 在项目中的配置文件勾选 组件中使用 如果要实时可以去做全局ws //消息推送模版uni.createPushMessage(…

ai画质修复工具有哪些?这4款AI照片修复神器建议收藏!

在当今这个科技迅猛发展的时代,人工智能(AI)正以前所未有的速度重塑我们的日常生活,而照片修复领域正是AI技术大放异彩的舞台。从年代久远、泛黄的老照片到追求极致细节的现代摄影佳作,AI以其非凡的能力,成…

MES管理系统在工艺管理中具备哪些作用

在现代制造业的洪流中,MES管理系统正逐步成为工艺管理领域的一股强大力量,它不仅革新了传统的管理方式,还为企业带来了前所未有的效率提升与成本控制优势。尽管许多企业尚未全面拥抱这一数字化变革,但MES管理系统在工艺管理中的潜…

IM_自定义audio播放消息

做即时通讯,除了文字、图片、表情、还有媒体消息,整理一下制作过程中自定义聊天框中的audio 效果图 tsx完整代码 AzEventBus 是解决点击多个语音播放时候,保证只有一个在播放;没什么特别的,就是自己简单封装了个EvenBusAzEventBus…

tcp shutdown, fin_wait1, fin_wait2, close_wait, last_ack, 谢特!

TCP 作为双向传输协议,如果你想只收不发,可以单向关掉发,shutdown(socket.SHUT_WR),但不建议这么做。 看以下代码: #!/Users/zhaoya/myenv/bin/python3 # client import socketclient_socket socket.socket(socket.…

怎么知道社媒上用户在讨论品牌什么?评价如何?

现在社交媒体不再仅是人们闲聊和分享生活片段的地方,更是品牌了解市场趋势和消费者需求的重要渠道。所以做号社媒上用户声音的聆听,企业更能抓住客户需求、抢占潜力市场,进一步占据更多市场份额,获得精准客户。 做好用户声音聆听…

【QT】Qt窗口(上)

个人主页~ Qt窗口 一、菜单栏二、工具栏三、状态栏四、浮动窗口五、对话框1、简介(1)模态对话框(2)非模态对话框(3)混合属性对话框 Qt窗口是通过QMainWindow类来实现的,我们之前的学习是通过QWi…

第二十章 Vue组件通信之父子通信

目录 一、引言 二、组件关系分类 三、组件通信的解决方案 3.1. 父子通信流程图 3.2. 父组件通过 props 将数据传递给子组件 3.2.1. 代码App.vue 3.2.2. 代码MySon.vue 3.3. 子组件利用 $emit 通知父组件修改更新 ​编辑3.3.1. 代码App.vue 3.3.2. 代码MySon.vue 3…

用ChatGPT提升工作效率:从理论到实际应用

伴人工智能技术的迅速演进,像ChatGPT这类语言模型已成为提升工作效率的关键工具。这类模型不仅具备处理海量数据的能力,还能自动化许多日常任务,从而提高决策的准确性。本文将深入探讨如何在工作中利用ChatGPT等AI工具提升效率,涵…