Python搭建代理IP池实现存储IP的方法

目录

前言

1. 介绍

2. IP存储方法

2.1 存储到数据库

2.2 存储到文件

2.3 存储到内存

3. 完整代码示例

总结



前言

代理IP池是一种常用的网络爬虫技术,可以用于反爬虫、批量访问目标网站等场景。本文介绍了使用Python搭建代理IP池,并实现IP存储的方法。首先,介绍了代理IP的概念和使用场景。然后,详细介绍了IP存储的几种方法,包括存储到数据库、存储到文件和存储到内存中。最后,给出了完整的代码示例。

1. 介绍

代理IP池是一种常用的网络爬虫技术,它通过维护一组可用的代理IP地址,用于隐藏用户真实IP地址,以实现反爬虫、批量访问目标网站等目的。代理IP可以分为公开代理和私密代理两种类型。公开代理是免费提供给大众使用的代理IP,它的可用性较低,适合于一些对速度和稳定性要求不高的场景。私密代理是需付费使用的代理IP,由于可用性较高,适合于对速度和稳定性要求较高的场景。

2. IP存储方法

代理IP池需要维护一组可用的代理IP地址,因此需要一种方法来存储这些IP地址。下面介绍几种常用的IP存储方法。

2.1 存储到数据库

将代理IP存储到数据库中是一种常用的方法。使用数据库可以方便地进行IP的增删改查操作,并且可以与其他数据进行关联。常用的数据库包括MySQL、MongoDB等。以下是一个使用MySQL存储代理IP的示例代码:

import pymysql

# 连接数据库
conn = pymysql.connect(
    host='localhost',
    port=3306,
    user='root',
    password='password',
    db='proxy_ip',
    charset='utf8'
)

# 创建游标对象
cursor = conn.cursor()

# 创建代理IP表
sql = '''
CREATE TABLE IF NOT EXISTS proxy_ip (
    id INT AUTO_INCREMENT PRIMARY KEY,
    ip VARCHAR(50) NOT NULL,
    port INT NOT NULL,
    type VARCHAR(10) NOT NULL,
    speed FLOAT NOT NULL
)
'''
cursor.execute(sql)

# 插入代理IP
def insert_proxy(ip, port, type, speed):
    sql = '''
    INSERT INTO proxy_ip (ip, port, type, speed)
    VALUES ('{}', {}, '{}', {});
    '''.format(ip, port, type, speed)
    cursor.execute(sql)
    conn.commit()

# 查询代理IP
def select_proxy():
    sql = '''
    SELECT * FROM proxy_ip;
    '''
    cursor.execute(sql)
    results = cursor.fetchall()
    for row in results:
        print(row)

# 关闭数据库连接
cursor.close()
conn.close()

2.2 存储到文件

将代理IP存储到文件中是另一种常用的方法。使用文件可以方便地进行IP的读写操作,但是不方便进行增删改查操作。以下是一个使用文本文件存储代理IP的示例代码:

# 写入代理IP到文件
def write_proxy(ip, port, type, speed):
    with open('proxy_ip.txt', 'a') as f:
        f.write('{},{}:{},{}\n'.format(type, ip, port, speed))

# 读取代理IP文件
def read_proxy():
    with open('proxy_ip.txt', 'r') as f:
        lines = f.readlines()
        for line in lines:
            type, ip_port, speed = line.strip().split(',')
            ip, port = ip_port.split(':')
            print(ip, port, type, speed)

2.3 存储到内存

将代理IP存储到内存中是一种简单高效的方法,适用于数据量较小的场景。以下是一个使用列表存储代理IP的示例代码:

# 定义全局变量
proxy_ips = []

# 添加代理IP到列表
def add_proxy(ip, port, type, speed):
    proxy_ips.append((ip, port, type, speed))

# 输出代理IP列表
def print_proxy():
    for ip, port, type, speed in proxy_ips:
        print(ip, port, type, speed)

3. 完整代码示例

下面是一个完整的使用Python搭建代理IP池,并实现IP存储的示例代码:

import pymysql

# 连接数据库
conn = pymysql.connect(
    host='localhost',
    port=3306,
    user='root',
    password='password',
    db='proxy_ip',
    charset='utf8'
)

# 创建游标对象
cursor = conn.cursor()

# 创建代理IP表
sql = '''
CREATE TABLE IF NOT EXISTS proxy_ip (
    id INT AUTO_INCREMENT PRIMARY KEY,
    ip VARCHAR(50) NOT NULL,
    port INT NOT NULL,
    type VARCHAR(10) NOT NULL,
    speed FLOAT NOT NULL
)
'''
cursor.execute(sql)

# 插入代理IP
def insert_proxy(ip, port, type, speed):
    sql = '''
    INSERT INTO proxy_ip (ip, port, type, speed)
    VALUES ('{}', {}, '{}', {});
    '''.format(ip, port, type, speed)
    cursor.execute(sql)
    conn.commit()

# 查询代理IP
def select_proxy():
    sql = '''
    SELECT * FROM proxy_ip;
    '''
    cursor.execute(sql)
    results = cursor.fetchall()
    for row in results:
        print(row)

# 添加代理IP到列表
def add_proxy(ip, port, type, speed):
    proxy_ips.append((ip, port, type, speed))

# 输出代理IP列表
def print_proxy():
    for ip, port, type, speed in proxy_ips:
        print(ip, port, type, speed)

# 关闭数据库连接
cursor.close()
conn.close()

总结

本文介绍了使用Python搭建代理IP池,并实现IP存储的方法。存储IP的方法包括存储到数据库、存储到文件和存储到内存中。不同的存储方法适用于不同场景,开发者可以根据实际需求选择合适的方法。使用代理IP池可以提高网站爬取效率,防止被目标网站反爬虫。希望本文对大家了解Python搭建代理IP池有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/288641.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

C#中使用正则表达式实现汉字转拼音

目录 一、正则表达式基础 二、实例 1.程序入口Form1.cs 2.类库PinYin.cs 三、生成效果 四、实例中的知识点 1.Regex 2.ToCharArray() 3.IsMatch() 4.GetBytes() 一、正则表达式基础 在C#中使用正则表达式,首先要创建正则表达式对象,正则表达…

前缀和算法 -- 寻找数组的中心坐标

个人主页&#xff1a;Lei宝啊 愿所有美好如期而遇 本题链接 力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 输入描述 给定一个数组&#xff0c;接口为int pivotIndex(vector<int>& nums) 输出描述 我们以示例1为例画图解释&#xf…

【Win】没设置Windows账户密码,如何远程登录

1、按下Win&#xff0c;输入本地&#xff0c;打开本地安全策略 2、找到这个 3、双击打开&#xff0c;改成已禁用 4、正常重新启动一次或者开关机一次永久生效。 - 我第一次弄完死机了&#xff0c;再开机发现没生效

前端基础:Vue搞笑白话文(工作之余瞎写)

1、data:{}与data(){return{}}这两个是个什么鬼&#xff1f; vue实例 new Vue({el:#app,data:{name:李四}}) 组件实例 const aaa Vue.extent({data(){return {name:}} }) 为什么Vue实例可以那么写而组件实例就不行了&#xff1f;原因就是因为在底层原理上&#xff0c;组件…

七:Day06_redis高级01

第一章 Redis入门 1.1 节 什么是NoSql型数据库 NoSQL ,泛指非关系型的数据库, NoSQL Not Only SQL,它可以作为关系型数据库的良好补充。NoSQL 不依赖业务逻辑方式存储&#xff0c;而以简单的key-value模式存储。因此大大的增加了数据库的扩展能力。 SQLNoSQL数据结构结构化非…

DevChat助手:在数据库及数据分析上面的应用实践

&#x1f3c6;作者简介&#xff0c;黑夜开发者&#xff0c;CSDN领军人物&#xff0c;全栈领域优质创作者✌&#xff0c;CSDN博客专家&#xff0c;阿里云社区专家博主&#xff0c;2023年6月CSDN上海赛道top4。 &#x1f3c6;数年电商行业从业经验&#xff0c;历任核心研发工程师…

Vue 中的 ref 与 reactive:让你的应用更具响应性(下)

&#x1f90d; 前端开发工程师&#xff08;主业&#xff09;、技术博主&#xff08;副业&#xff09;、已过CET6 &#x1f368; 阿珊和她的猫_CSDN个人主页 &#x1f560; 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 &#x1f35a; 蓝桥云课签约作者、已在蓝桥云…

uniapp选择android非图片文件的方案踩坑记录

这个简单的问题我遇到下面6大坑&#xff0c;原始需求是选择app如android的excel然后读取到页面并上传表格数据json 先看看效果 uniapp 选择app excel文件读取 1.uniapp自带不支持 uniapp选择图片和视频非常方便自带已经支持可以直接上传和读取 但是选择word excel的时候就出现…

【每日一题】466. 统计重复个数-2024.1.2

题目&#xff1a; 466. 统计重复个数 定义 str [s, n] 表示 str 由 n 个字符串 s 连接构成。 例如&#xff0c;str ["abc", 3] "abcabcabc" 。 如果可以从 s2 中删除某些字符使其变为 s1&#xff0c;则称字符串 s1 可以从字符串 s2 获得。 例如&…

javascript中location对象的属性与方法

前言 本章介绍js中的location中的属性和方法。 文章目录 前言什么是location为什么要用locationlocation对象属性location对象方法总结 什么是location 在JavaScript中&#xff0c;location 是一个包含当前页面的URL信息的对象。它允许你获取和操作当前页面的URL&#xff0c;比…

数字IC设计——数字电路基本元器件

现代数字集成电路基本由CMOS晶体管构成&#xff0c;而CMOS门电路由PMOS场效应管和NMOS场效应管以对称互补的形式组成&#xff0c;所谓“互补”&#xff0c;即利用互补型MOSFET&#xff0c;即pMOS和nMOS&#xff0c;二者成对出现构成互补电路。 这种电路具有高的电路可靠性和抗干…

向日葵远程控制软件MySQL5.7的安装与配置

目录 一. 向日葵远程控制软件 1.1 简介 1.2 选择原因 1.3 安装及使用 1.4 使用场景 二. MySQL5.7 安装与配置 2.1 什么是MySQL 2.2 安装 MySQL5.7 2.2.1 安装步骤 2.2.2 内部连接 2.2.3 外部连接 三. 思维导图 一. 向日葵远程控制软件 1.1 简介 向日葵电脑版是一款拥有多年…

Mybatis获取参数值得两种方式:${}和#{},${}和#{}区别是什么?

${}的本质是字符串拼接&#xff0c;#{}的本质是占位符赋值 ${} 使用字符串拼接的方式拼接sql&#xff0c;若为字符串类型或日期类型的字段进行赋值时&#xff0c;需要手动加单引号&#xff1b; #{} 使用占位符赋值的方式拼接sql&#xff0c;此时为字符串类型或日期类型的字段…

Halcon顶帽运算与底帽运算的应用

Halcon顶帽运算与底帽运算的应用 文章目录 Halcon顶帽运算与底帽运算的应用1. 提取小的物件2. 校正非均匀光照 正如上文所说的&#xff0c;顶帽运算返回的像素部分是尺寸比结构元素小的&#xff0c;并且比较亮的局部小区域&#xff1b;底帽运算返回的像素部分是尺寸比结构元素小…

陆面过程模式CLM、地球系统模式CESM安装及快速运行

目录 专题一 CESM、CLM运行条件及Linux编译基础 专题二 CESM、CLM基础 专题三 CLM程序获取、结构及其功能 专题四 CLM移植、安装及快速运行 专题五 CLM配置选项及数据文件制备 专题六 CLM单点或区域运行 专题七 CLM结果处理、分析及可视化 专题八 CLM代码修改、发展及改…

旧电脑搭建NAS

旧电脑可以搭建NAS吗&#xff1f; 可以&#xff01; 性能好吗&#xff1f; 完全没问题&#xff01; 简单吗&#xff1f; 轻松上手&#xff01; 怎吗搭建&#xff1f; 这里&#xff1a;用旧电脑搭建NAS在您的家庭中&#xff0c;通过将旧 PC 转变为NAS服务器&#xff0c;您…

纯css实现三等分饼图

实现原理&#xff0c;先绘制一个圆&#xff0c;然后把圆分成两份&#xff0c;在绘制一个菱形&#xff0c;最下面的角是120&#xff0c;这样就可以实现三等分啦 关键代码是一个css很少见的属性clip-path clip-path: polygon(24rem 36rem, 48rem 18rem, 24rem 0, 0 18rem); &…

【一文入门】Git常用命令集锦--分支操作和版本管理篇

前言 Git 是一种分布式版本控制系统&#xff0c;可以帮助团队协作开发、管理和维护代码&#xff0c;提高代码质量和效率&#xff0c;掌握常用版本管理命令可以帮助我们更好地管理代码变更和历史记录。下面我将介绍开发中常用的一些Git分支操作和版本管理命令 1 分支操作 1.1 …

MySQL——事物

目录 一.发现问题 二.什么时事物 三.事务提交方式 四.事物的常规操作方式 五. 事务隔离级别 1.如何理解隔离性 2.隔离级别 3.查看与设置隔离性 4.读未提交【Read Uncommitted】 5.读提交【Read Committed】 6.可重复读【Repeatable Read】 7.串行化【serializabl…

什么是 NAS?

一、什么是 NAS&#xff1f; 在数字化时代&#xff0c;小型企业面临着日益增长的数据存储需求。为了应对这一挑战&#xff0c;网络附加存储&#xff08;NAS&#xff09;系统成为了许多企业的首选解决方案。NAS系统是一种连接到网络的存储设备&#xff0c;允许授权网络用户和异…