使用 Python 处理 CSV 文件

文章目录

  • 常见问题及解决方案
  • 使用 Python 处理 CSV 文件:全面指南
  • CSV 文件的基本概念
  • 使用内置 `csv` 模块
  • 使用 `pandas` 库
  • 处理缺失值
  • 使用 `DictReader` 和 `DictWriter`
  • 案例分析
  • 最佳实践
  • 参考资源
  • 性能比较
  • 结论


常见问题及解决方案

  • 问题:文件编码错误
    解决方案:使用 encoding 参数指定文件编码,例如 encoding='utf-8'

  • 问题:读取大文件时内存不足
    解决方案:使用 chunksize 参数逐块读取数据:

    for chunk in pd.read_csv('large_data.csv', chunksize=1000):
        process(chunk)  # 自定义处理函数
    
  • 问题执行脚本报错

PS D:\bsop\zhijianaiweb> & D:/Python/Python39/python.exe c:/Users/wangzq/Desktop/csv.py
Traceback (most recent call last):
  File "c:\Users\wangzq\Desktop\csv.py", line 1, in <module>
    import csv
  File "c:\Users\wangzq\Desktop\csv.py", line 4, in <module>
    writer = csv.writer(file)
AttributeError: partially initialized module 'csv' has no attribute 'writer' (most likely due to a circular import)
PS D:\bsop\zhijianaiweb>

这个错误通常脚本文件命名为 csv.py,导致 Python 试图从你的脚本中导入 csv 模块,而不是标准库中的 csv 模块。解决方法如下:

  1. 重命名你的脚本:将 csv.py 更改为其他名字,例如 csv_example.py
  2. 删除 csv.pyc 文件(如果存在):在同一目录下查找 __pycache__ 文件夹,删除其中的 csv.cpython-39.pyc 文件。

使用 Python 处理 CSV 文件:全面指南

CSV(Comma-Separated Values)格式是一种广泛使用的数据交换格式,因其简单易懂而受到青睐。本文将介绍如何使用 Python 处理 CSV 文件,包括读取、写入、数据处理以及常用库的比较。

CSV 文件的基本概念

CSV 文件使用逗号分隔值,通常用于存储表格数据。每行代表一条记录,字段由逗号分隔。

使用内置 csv 模块

Python 提供了内置的 csv 模块,方便读取和写入 CSV 文件。

  • 写入 CSV 文件
import csv
with open('output.csv', mode='w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(['Name', 'Age'])
    writer.writerow(['Alice', 30])

在这里插入图片描述

  • 读取 CSV 文件
import csv

with open('data.csv', mode='r') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

在这里插入图片描述

使用 pandas

pandas 是一个强大的数据处理库,适合进行复杂的数据分析。

  • 读取 CSV 文件
import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())
  • 数据处理:可以轻松地进行数据过滤、修改和聚合。
# 过滤年龄大于25的人
filtered_df = df[df['Age'] > 25]
print(filtered_df)

# 统计年龄的平均值
average_age = df['Age'].mean()
print(f"Average Age: {average_age}")
  • 写入 CSV 文件
df.to_csv('filtered_output.csv', index=False)

处理缺失值

处理数据时,缺失值是常见问题。可以使用 fillna() 方法填充缺失值:

# 用0填充缺失值
df.fillna(0, inplace=True)

# 删除含有缺失值的行
df.dropna(inplace=True)

使用 DictReaderDictWriter

csv 模块还支持将 CSV 文件读取为字典格式,方便处理。

  • 读取为字典
import csv
with open('data.csv', mode='r') as file:
    reader = csv.DictReader(file)
    for row in reader:
        print(row['Name'], row['Age'])
  • 写入字典
import csv
with open('output.csv', mode='w', newline='') as file:
    fieldnames = ['Name', 'Age']
    writer = csv.DictWriter(file, fieldnames=fieldnames)
    writer.writeheader()
    writer.writerow({'Name': 'Bob', 'Age': 22})

案例分析

假设我们有一个包含员工信息的 CSV 文件 employees.csv,我们想要进行数据分析,比如找出薪水高于某个值的员工,并计算他们的平均薪水。

import pandas as pd

# 读取数据
df = pd.read_csv('employees.csv')

# 过滤薪水大于50000的员工
high_salary_df = df[df['Salary'] > 50000]

# 计算平均薪水
average_salary = high_salary_df['Salary'].mean()
print(f"Average Salary of High Earners: {average_salary}")

最佳实践

  • 始终检查数据的完整性:读取数据后,检查缺失值和异常值。
  • 使用相对路径:为保证代码的可移植性,使用相对路径读取文件。
  • 文件格式:尽量确保 CSV 文件的格式统一,避免出现不同的分隔符或编码问题。

参考资源

  • Python 官方文档 - csv 模块
  • pandas 官方文档

性能比较

在处理大型 CSV 文件时,选择合适的库至关重要。csv 模块相对轻量,更适合简单读取和写入,而 pandas 提供了更丰富的数据操作功能,适合进行复杂分析。

结论

无论是使用内置的 csv 模块还是功能强大的 pandas 库,Python 都为处理 CSV 文件提供了灵活的解决方案。根据具体需求选择合适的方法,可以使数据处理更高效。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/898666.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

大厂为什么要禁止使用数据库自增主键

大表为何不能用自增主键&#xff1f; 数据库自增主键&#xff0c;以mysql为例&#xff0c;设置表的ID列为自动递增&#xff0c;便可以在插入数据时&#xff0c;ID字段值自动从1开始自动增长&#xff0c;不需要人为干预。 在小公司&#xff0c;或者自己做项目时&#xff0c;设置…

Ollama 离线安装

1. 查看服务器CPU的型号 ## 查看Linux系统CPU型号命令&#xff0c;我的服务器cpu型号是x86_64 lscpu 2. 根据CPU型号下载Ollama安装包&#xff0c;并保存到/home/Ollama目录 我下载的是Ollama的v0.1.31版本&#xff0c;后面均以此版本为例说明 下载地址 https://github.…

拴柱说Mac之Mac的高效使用技巧第三期

Mac的设计有着非常多的使用技巧&#xff0c;这些技巧能够极大的提高你的使用效率&#xff0c;但是还是有许多人并不知道&#xff0c;那么今天Mac高效使用技巧分享第三期来了 Mac有一个独特的设置&#xff0c;那就触发角&#xff0c;触发角有着非常多的妙用 在 “系统偏好设置…

为什么计算机科学存在图灵机和Lambda演算两种世界观,而量子力学却存在三种世界图景?

计算机科学存在两种基本的世界观&#xff1a;图灵机和Lambda演算&#xff0c;它们指出了到达图灵完备的两条技术路线。但是量子力学中却存在着三种世界图景&#xff1a;薛定谔图景&#xff0c;海森堡图景和狄拉克图景。为什么计算机科学有两种基本世界观&#xff0c;但是量子力…

【Python数据可视化】利用Matplotlib绘制美丽图表!

【Python数据可视化】利用Matplotlib绘制美丽图表&#xff01; 数据可视化是数据分析过程中的重要步骤&#xff0c;它能直观地展示数据的趋势、分布和相关性&#xff0c;帮助我们做出明智的决策。在 Python 中&#xff0c;Matplotlib 是最常用的可视化库之一&#xff0c;它功能…

Netty-TCP服务端粘包、拆包问题(两种格式)

前言 最近公司搞了个小业务&#xff0c;需要使用TCP协议&#xff0c;我这边负责服务端。客户端是某个设备&#xff0c;客户端传参格式、包头包尾等都是固定的&#xff0c;不可改变&#xff0c;而且还有个蓝牙传感器&#xff0c;透传数据到这个设备&#xff0c;然后通过这个设备…

使用ORDER BY排序

在一个不明确的查询结果中排序返回的行。ORDER BY子句用于排序。如果使用了ORDER BY子句&#xff0c;它必须位于SQL语句的最后。 SELECT语句的执行顺序如下&#xff1a; 1.FROM子句 2.WHERE子句 3.SELECT子句 4.ORDER BY子句 示例一&#xff1a;查询employees表中的所有雇…

通俗易懂的入门 Axure RP文章 ,速学

目录 1. Axure RP简介&#xff1f; 2. Axure RP基本操作 &#xff08;1&#xff09;入门理解 &#xff08;2&#xff09;插入形状 &#xff08;3&#xff09;位置对齐、 &#xff08;4&#xff09;资源库 3. Axure RP基本交互 &#xff08;1&#xff09;切换不同的页面 …

进程间通信大总结Linux

目录 进程间通信介绍 进程间通信目的 进程间通信发展 进程间通信分类 管道 System V IPC POSIX IPC 管道 什么是管道 匿名管道 用fork来共享管道原理 站在文件描述符角度-深度理解管道 管道读写规则 管道特点 命名管道 创建一个命名管道 匿名管道与命名管道的区…

《云原生安全攻防》-- K8s攻击案例:权限维持的攻击手法

在本节课程中&#xff0c;我们将一起深入了解K8s权限维持的攻击手法&#xff0c;通过研究这些攻击手法的技术细节&#xff0c;来更好地认识K8s权限维持所带来的安全风险。 在这个课程中&#xff0c;我们将学习以下内容&#xff1a; K8s权限维持&#xff1a;简单介绍K8s权限维持…

UG2312软件安装教程+Siemens NX三维建模中文安装包下载

一、软件下载 【软件名称】&#xff1a;UG 2312 【支持系统】&#xff1a;win10/win11 【百度网盘】&#xff1a; https://pan.baidu.com/s/1oF-X29m1f5pDhElwi0rK8A?pwd70zi 二、UG NX软件 UG&#xff08;Unigraphics NX&#xff09;是一款集 CAD、CAM、CAE 于一体的高效…

大范围实景三维智能调色 | 模方自动化匀色解决方案

《实景三维中国建设总体实施方案&#xff08;2023—2025年&#xff09;》、《实景三维中国建设技术大纲》等相关文件中指出&#xff0c;倾斜Mesh三维模型修饰要求模型整体色彩真实&#xff0c;无明显色差。9月&#xff0c;自然资源部在国务院新闻发布会上表示&#xff0c;实景三…

Linux:线程及其控制

我们已经学了线程的创建&#xff0c;现在要学习线程的控制 线程等待 我们来先写一个没有线程等待的代码&#xff1a; pthcon.c: #include<stdio.h> #include<pthread.h> void* gopthread(void* arg){while(1){printf("pthread is running\n");sleep(1…

银行客户贷款行为数据挖掘与分析

#1024程序员节 | 征文# 在新时代下&#xff0c;消费者的需求结构、内容与方式发生巨大改变&#xff0c;企业要想获取更多竞争优势&#xff0c;需要借助大数据技术持续创新。本文分析了传统商业银行面临的挑战&#xff0c;并基于knn、逻辑回归、人工神经网络三种算法&#xff0…

SpringBoot实现微信支付接口调用及回调函数(商户参数获取)

#1024程序员节 | 征文 # 一、具体业务流程 1. 用户下单 - 前端操作&#xff1a; - 用户在应用中选择商品、填写订单信息&#xff08;如地址、联系方式等&#xff09;&#xff0c;并点击“下单”按钮。 - 前端将订单信息&#xff08;商品ID、数量、价格等&#xff09;发送…

Pytorch 实现图片分类

CNN 网络适用于图片识别&#xff0c;卷积神经网络主要用于图片的处理识别。卷积神经网络&#xff0c;包括一下几部分&#xff0c;输入层、卷积层、池化层、全链接层和输出层。 使用 CIFAR-10 进行训练&#xff0c; CIFAR-10 中图片尺寸为 32 * 32。卷积层通过卷积核移动进行计…

C++ —— map系列的使用

目录 1. map和multimap参考文档 2. map类的介绍 3. pair 4. map的增删查 4.1 插入 4.2 删除 4.3 查找 5. map的数据修改 6. map的operator[] 7. multimap和map的差异 1. map和multimap参考文档 - C Referencehttps://legacy.cplusplus.com/reference/map/ 2. map类的…

04 springboot-工程搭建案例(多环境部署,数据源, Swagger, 国际化,工具类)

项目搭建模板(多环境切换) springboot系列&#xff0c;最近持续更新中&#xff0c;如需要请关注 如果你觉得我分享的内容或者我的努力对你有帮助&#xff0c;或者你只是想表达对我的支持和鼓励&#xff0c;请考虑给我点赞、评论、收藏。您的鼓励是我前进的动力&#xff0c;让我…

基于CRNN模型的多位数字序列识别的应用【代码+数据集+python环境+GUI系统】

基于CRNN模型的多位数字序列识别的应用【代码数据集python环境GUI系统】 基于CRNN模型的多位数字序列识别的应用【代码数据集python环境GUI系统】 背景意义 多位手写数字识别&#xff0c;即计算机从纸张文档、照片、触摸屏等来源接收并解释可理解的手写数字输入的能力。 随着…

2024软件测试面试秘籍(含答案+文档)

&#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 Part1 1、你的测试职业发展是什么&#xff1f; 测试经验越多&#xff0c;测试能力越高。所以我的职业发展是需要时间积累的&#xff0c;一步步向着高级测试工程师…