pandas与open读取csv/txt文件速度比较
由于在工作中经常需要读取txt或csv文件,使用pandas与open均可以读取并操作文件内容,但不知道那个速度更快一些,所以写了一个脚本去比较在文件大小不同的情况下读取数据的速度
测试结果:
大小 | pandas速度 | open速度 |
---|---|---|
1987(208k) | 0.0625 | 0.0156 |
30454(3.28M) | 0.20313 | 0.14063 |
200588(32.03M) | 1.15632 | 0.89068 |
分析:
从上面的测试可以看出,在测试范围内32M左右的时候,使用open处理文件的时候还是比较快的,当随着文件越来越大的时候,使用pandas处理与open处理的速度越来越接近,所以可根据文件的大小合理选择数据的处理方式。
根据文件大小来合理选择用不用pandas,pandas表示不服,我是做数据分析的,要根据数据处理的复杂程度来判断是否用我_
引用:
Pandas 是 Python 语言的一个扩展程序库,用于数据分析。
Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。
Pandas 名字衍生自术语 “panel data”(面板数据)和 “Python data analysis”(Python
数据分析)。Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。
Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。
Pandas 可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。