快速提升Python Pandas处理速度的秘诀

大家好,Python的Pandas库为数据处理和分析提供了丰富的功能,但当处理大规模数据时,性能问题往往成为瓶颈。本文将介绍一些在Pandas中进行性能优化的方法与技巧,帮助有效提升数据处理速度,优化代码运行效率。

1.数据类型优化

在Pandas中,不同的数据类型占用的内存和处理速度各不相同。合理选择数据类型不仅能减少内存占用,还能提升处理速度,特别是在大规模数据集上,优化数据类型可以显著提升性能。

1.1 使用category类型替代object类型

Pandas中的category类型适合处理具有有限取值的分类数据,它比object类型占用更少的内存,处理速度也更快。

下面通过将object类型的列转换为category来优化内存使用。

import pandas as pd

# 创建一个数据框
df = pd.DataFrame({
    '城市': ['北京', '上海', '广州', '北京', '上海', '广州'] * 100000,
    '人口': [2154, 2424, 1500, 2154, 2424, 1500] * 100000
})

# 检查转换前的内存占用
print(df.memory_usage(deep=True))

# 将城市列转换为category类型
df['城市'] = df['城市'].astype('category')

# 检查转换后的内存占用
print(df.memory_usage(deep=True))

在这个例子中,将字符串列转换为category类型可以大幅降低内存使用,尤其在处理有大量重复值的列时。

1.2 减少浮点数精度

如果浮点数的精度对分析结果并不重要,可以通过降低浮点数的精度来减少内存消耗。

# 创建一个包含浮点数的数据框
df = pd.DataFrame({
    '收入': [50000.56, 60000.78, 70000.89] * 100000
})

# 检查转换前的内存使用
print(df.memory_usage(deep=True))

# 将float64转换为float32
df['收入'] = df['收入'].astype('float32')

# 检查转换后的内存使用
print(df.memory_usage(deep=True))

通过将float64类型转换为float32,可以减少内存的占用,处理速度也会相应提升。

2.向量化操作

Pandas中很多操作都可以通过向量化的方式进行,向量化操作指的是在数据集上一次性应用运算,而不是逐行处理。向量化操作比使用for循环处理数据的效率更高。

可以使用向量化代替for循环:

import numpy as np

# 创建一个数据框
df = pd.DataFrame({
    'A': np.random.rand(1000000),
    'B': np.random.rand(1000000)
})

# 使用for循环逐行相加
df['C_for'] = [a + b for a, b in zip(df['A'], df['B'])]

# 使用向量化操作直接相加
df['C_vec'] = df['A'] + df['B']

向量化操作 df['A'] + df['B'] 的效率远高于使用for循环逐行相加,特别是在处理大规模数据时,性能差异会非常明显。

3.避免复制数据

在Pandas中,有些操作会隐式地复制数据,导致内存使用增加,从而影响性能。例如DataFrame的切片操作默认会创建数据的副本,而不是引用。通过使用inplace=True参数或避免不必要的复制操作,可以提升性能。

# 创建一个数据框
df = pd.DataFrame({
    'A': np.random.rand(1000000),
    'B': np.random.rand(1000000)
})

# 默认情况下drop操作会创建一个新数据框
df_new = df.drop(columns=['B'])

# 使用inplace避免复制
df.drop(columns=['B'], inplace=True)

在这个示例中,inplace=True让数据框在原地修改,避免了额外的数据副本创建,节省了内存。

4.使用多线程或并行化处理

在处理大数据集时,利用多线程或并行化处理可以显著提升数据处理的速度。Pandas本身并不支持多线程操作,但可以结合 daskmodin 库实现并行计算。

4.1 使用dask进行并行处理

dask 是一个用于并行计算的库,能够有效扩展Pandas的操作能力。它可以处理内存不足以加载的数据,并自动调度计算任务。

import dask.dataframe as dd

# 使用dask读取CSV文件
df = dd.read_csv('large_data.csv')

# 进行一些基本的操作
df_grouped = df.groupby('列名').agg({'另一列': 'mean'})

# 将结果计算并转换为Pandas DataFrame
df_result = df_grouped.compute()

通过 dask,可以在内存中并行处理大规模数据,避免单线程计算带来的性能瓶颈。

4.2 使用modin进行加速

modin 是一个旨在加速Pandas的开源库,它通过并行化技术提高Pandas的性能。

import modin.pandas as pd

# 使用modin读取数据
df = pd.read_csv('large_data.csv')

# 进行一些基本的分析操作
df_grouped = df.groupby('列名').agg({'另一列': 'mean'})

modin 会自动并行化Pandas的操作,在大数据处理上具有显著的性能提升。

5.批量读取与写入

在处理大型数据集时,一次性读取或写入过多的数据可能会导致内存溢出。通过批量读取和写入数据,可以分散内存压力,避免性能瓶颈。

read_csv() 函数的 chunksize 参数允许我们一次读取一部分数据,而不是一次性将所有数据加载到内存中。

# 使用chunksize分块读取CSV文件
chunks = pd.read_csv('large_data.csv', chunksize=100000)

# 合并所有块的数据进行处理
df = pd.concat(chunks)

通过分块读取大文件,内存占用显著降低,同时处理大数据时也更为稳定。

6.合理使用apply()与内置函数

apply()函数是Pandas中常用的函数,用于逐行或逐列应用自定义函数。然而,apply()的性能相对较低,特别是在大规模数据集上,因此优先使用Pandas的内置函数往往能带来显著的性能提升。

# 创建一个数据框
df = pd.DataFrame({
    'A': np.random.rand(1000000),
    'B': np.random.rand(1000000)
})

# 使用apply逐行求和
df['C_apply'] = df.apply(lambda row: row['A'] + row['B'], axis=1)

# 使用向量化的内置操作
df['C_vec'] = df['A'] + df['B']

在这个例子中,使用apply()逐行求和的速度远不如直接使用Pandas的内置向量化运算。因此,尽量避免在大数据集上使用apply(),而应优先选择Pandas的内置函数。

综上所述,本文介绍了在Python Pandas中提升数据处理速度的各种方法,包括数据类型优化、向量化操作、避免数据复制、并行化处理、批量读取与写入、以及使用高效的内置函数。通过合理运用这些技巧,可以在处理大规模数据时显著提升Pandas的性能,从而提高数据处理和分析的效率。无论是数据分析、机器学习前的数据预处理,还是实际业务中的数据处理,这些优化方法都可以带来更高效的工作体验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/878980.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

VirtualBox Install MacOS

环境搭建 git clone https://github.com/myspaghetti/macos-virtualbox 脚本配置 修改macos-guest-virtualbox.sh部分内容为 vm_name"macOS" # name of the VirtualBox virtual machine macOS_release_name"Catalina" # install &quo…

股指期货的详细玩法功能与应用解析

股指期货作为一种重要的金融衍生工具,为投资者提供了多样化的投资和风险管理手段。本文将详细探讨股指期货的三大主要功能:风险规避、价格发现和资产配置。 第一,风险规避功能 1.套期保值:股指期货的风险规避功能主要通过套期保值…

外观模式详解:如何为复杂系统构建简洁的接口

🎯 设计模式专栏,持续更新中 欢迎订阅:JAVA实现设计模式 🛠️ 希望小伙伴们一键三连,有问题私信都会回复,或者在评论区直接发言 外观模式 外观模式(Facade Pattern)为子系统中的一组…

智能 Uber 发票 PDF 合并工具

在现代商务出行中,尤其是在跨国出差中,处理和整合大量 Uber 发票已成为一项不小的挑战。手动整理和合并这些发票不仅耗时,还容易出错。作为开发者,为什么不开发一个自动化工具,将这些任务交给代码来完成呢?…

成型的程序

加一个提示信息 加上python 常用的包 整个程序打包完 250M 安装 960MB matplot numpy pandas scapy pysearial 常用的包 (pyvisa)… … 啥都有 Python 解释器组件构建 要比 lua 容易的多 (C/Rust 的组件库)

钢材表面缺陷数据集以coco格式做好了数据集的划分,1200张训练集,600张验证集,对应的json文件也在里面

钢材表面缺陷数据集 以coco格式做好了数据集的划分,1200张训练集,600张验证集,对应的json文件也在里面。 钢材表面缺陷检测数据集营销介绍 项目背景: 钢材作为工业生产的重要原材料之一,其表面质量直接影响到成品的性…

MySQL之安装与基础知识

目录 一:在centos7上安装MySQL数据库 1.卸载默认存在的环境 2.配置mysql的yum源 3. 安装MySQL 4.登录mysql 5.设置MySQL的配置文件 二:MySQL基础知识 1.什么是数据库 2.主流数据库 3.服务器,数据库,表关系及使用案例 4…

预训练发展

预训练发展 1.ELMo2.GPT3.Bert3.1Ernie-baidu3.2Ernie- Tsinghua 4.GPT25.UNILM6.Transformer-XL & XLNet6.1方案一6.2方案三 7.Roberta8.SpanBert8.1SBO简介: 9.ALBERT9.1方案一9.2方案二9.3方案三 10.T511.GPT312.从"续写"到"回答"12.1SF…

基于51单片机的直流数字电流表proteus仿真

地址: https://pan.baidu.com/s/1adZbhgOBvvg0KsCO6_ZiAw 提取码:1234 仿真图: 芯片/模块的特点: AT89C52/AT89C51简介: AT89C52/AT89C51是一款经典的8位单片机,是意法半导体(STMicroelectro…

MySQL——数据类型(一)

目录 一、前言 二、数值类型 2.1 tinyint [unsigned] 2.1.1 插入合法数据 2.1.2 插入边界数据 2.1.3 插入不合法数据 2.1.4 结论 2.2 bit [n] 2.3 float [(m, d)] [unsigned] 2.3.1 float 特性 2.3.2 插入整数部分大于 m-d 的数字 2.3.3 插入小数部分大于 d 的数字…

【贪心算法】贪心算法

贪心算法简介 1.什么是贪心算法2.贪心算法的特点3.学习贪心的方向 点赞👍👍收藏🌟🌟关注💖💖 你的支持是对我最大的鼓励,我们一起努力吧!😃😃 1.什么是贪心算法 与其说是…

MYSQL数据库——MYSQL管理

MYSQL数据库安装完成后,自带四个数据库,具体作用如下: 常用工具 1.mysql 不是指mysql服务,而是指mysql的客户端工具 例如: 2.mysqladmin 这是一个执行管理操作的客户端程序,可以用它来检查服务器的配置和…

vs2022快捷键异常解决办法

安装了新版本的vs2022,安装成功后,发现快捷键发生异常,之前常用的快捷键要么发生改变,要么无法使用,比如原来注释代码的快捷键是ctrlec,最新安装版本变成了ctrlkc,以前编译代码的快捷键是F6或者…

算法入门-贪心1

第八部分:贪心 409.最长回文串(简单) 给定一个包含大写字母和小写字母的字符串 s ,返回通过这些字母构造成的最长的回文串 的长度。 在构造过程中,请注意 区分大小写 。比如 "Aa" 不能当做一个回文字符串…

记录小数点

记录data frame小数点后面省略掉0的问题 iloc得到的series .to_list() 0被省略掉 to_list() 可能会将浮点数转换为默认格式。先将数据转换为字符串以保留格式 df_2708.iloc[2,:].apply(lambda x: f{x:.3f}).to_list()自定义保留小数点后几位 def formatter(value):return &q…

自动驾驶自动泊车场景应用总结

自动泊车技术是当前智能驾驶技术的一个重要分支,其目标是通过车辆自身的感知、决策和控制系统,实现车辆在有限空间内的自主泊车操作。目前自动泊车可分为半自动泊车、全自动泊车、记忆泊车、自主代客泊车四种产品形态,其中, 根据搭载传感器和使用场景的不同,全自动泊车又可…

OpenGL笔记二十一之几何类设计

OpenGL笔记二十一之几何类设计 —— 2024-09-16 下午 bilibili赵新政老师的教程看后笔记 code review! 文章目录 OpenGL笔记二十一之几何类设计1.运行1.1.立方体运行1.2.球体运行 2.几何类搭建1.立方体分析2.球体分析3.图片资源文件4.关键实现4.1.geometry.h4.2.geometry.cpp…

vue3使用provide和inject传递异步请求数据子组件接收不到

前言 一般接口返回的格式是数组或对象,使用reactive定义共享变量 父组件传递 const data reactive([])// 使用settimout模拟接口返回 setTimeout(() > {// 将接口返回的数据赋值给变量Object.assign(data, [{ id: 10000 }]) }, 3000);provide(shareData, dat…

ip映射域名,一般用于mysql和redis的固定映射,方便快捷打包

举个例子 192.168.3.101mysql映射到mysql.smartlink.com 192.168.3.101redis redis.smartlink.com 要将IP地址映射到域名,可以通过几种方式实现,包括修改本地主机文件(仅适用于本地开发环境)、设置DNS解析(适用于生产环…

一文入门生成式AI(理解ChatGPT的原理)

一、什么是生成式AI? 以ChatGPT为代表的生成式AI,是对已有的数据和知识进行向量化的归纳,总结出数据的联合概率。从而在生成内容时,根据用户需求,结合关联字词的概率,生成新的内容。 可以这么联想&#x…