Python cProfile 输出解析及其解决方案

cProfile 是 Python 中用于性能分析的内置模块,它可以帮助你确定程序中哪些部分消耗了最多的时间。通常,使用 cProfile 会输出大量的数据,需要进行解析和分析。下面是关于 cProfile 输出解析及其解决方案的一些提示:

在这里插入图片描述

1、问题背景

我们有一个 Python 脚本,它通过 CSV 文件进行顺序解析,并执行简单的数据清理,然后将数据写入一个新的 CSV 文件中。脚本运行非常慢。使用 cProfile 进行分析,得到了以下输出:

问题截图链接

2、解决方案

为了搞清楚为什么脚本运行这么慢,我们分析了 cProfile 的输出结果。我们发现问题在于 db_insert 函数,它负责将数据插入到数据库中。

def db_insert(coCode, bse):
    start = time()
    q = []
    print os.path.join(FILE_PATH, str(bse)+"_clean.csv");
    f1 = open(os.path.join(FILE_PATH, str(bse)+"_clean.csv"))
    reader = csv.reader(f1)
    reader.next()
    end = time()
    # print end-start
    for idx,row in enumerate(reader):
        ohlc = {}
        date = datetime.strptime( row[0], '%Y-%m-%d')
        date = row[0]
        row  = row[1:6]
        (op, high, low, close, volume) = row
        ohlc[date] = {}
        ohlc[date]['open'] = op
        ohlc[date]['high'] = high
        ohlc[date]['low'] = low
        ohlc[date]['close'] = close
        ohlc[date]['volume'] = volume
        q.append(ohlc)
    end1 = time()
    # print end1-end

    db.quotes.insert({'bse':str(bse), 'quotes':q})
    # print time()-end1
    f1.close()
    q = []
    print os.path.join(FILE_PATH, str(coCode)+".csv");
    f2 = open(os.path.join(FILE_PATH, str(bse)+"_clean.csv"))
    reader = csv.reader(f2)
    reader.next()
    for idx,row in enumerate(reader):
        ohlc = {}
        date = datetime.strptime( row[0], '%Y-%m-%d')
        date = row[0]
        try:
            extra = row[7]+row[8]+row[9]
        except:
            try:
                extra = row[7]
            except:
                extra = ''
        row  = row[1:6]
        (op, high, low, close, volume) = row
        ohlc[date] = {}
        ohlc[date]['open'] = op
        ohlc[date]['high'] = high
        ohlc[date]['low'] = low
        ohlc[date]['close'] = close
        ohlc[date]['volume'] = volume
        ohlc[date]['extra'] = extra
        q.append(ohlc)
    db.quotes_unadjusted.insert({'bse':str(bse), 'quotes':q})
    f2.close()

在 cProfile 的输出中,我们看到 db_insert 函数的 tottimecumtime 都非常高,说明这个函数花费了很长时间。进一步分析发现,函数中有一个循环,每次迭代都会从文件中读取一行数据,然后将数据转换成一个字典,最后将字典添加到一个列表中。这个过程非常耗时,尤其是当文件很大时。

为了解决这个问题,我们可以对 db_insert 函数进行优化。一种方法是使用 Pandas 库来读取 CSV 文件,因为 Pandas 可以一次性将整个文件读入内存,然后进行快速的数据处理。另一种方法是使用多线程或多进程来并行处理数据,从而提高效率。

代码例子

import pandas as pd

def db_insert_optimized(coCode, bse):
    # 使用 Pandas 读取 CSV 文件
    df = pd.read_csv(os.path.join(FILE_PATH, str(bse)+"_clean.csv"))

    # 将数据转换成字典
    ohlc = df.to_dict('records')

    # 将字典插入数据库
    db.quotes.insert({'bse':str(bse), 'quotes':ohlc})
    db.quotes_unadjusted.insert({'bse':str(bse), 'quotes':ohlc})

我们使用 Pandas 库来读取 CSV 文件,并将数据转换成一个字典,然后将字典插入到数据库中。这样可以大大提高脚本的运行速度。

总体来说,使用 cProfile 进行性能分析后,可以使用 pstats 模块提供的各种方法来解析和分析输出结果,从而找出程序中的性能瓶颈并进行优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/691126.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024-06-08 Unity 编辑器开发之编辑器拓展9 —— EditorUtility

文章目录 1 准备工作2 提示窗口2.1 双键窗口2.2 三键窗口2.3 进度条窗口 3 文件面板3.1 存储文件3.2 选择文件夹3.3 打开文件3.4 打开文件夹 4 其他内容4.1 压缩纹理4.2 查找对象依赖项 1 准备工作 ​ 创建脚本 “Lesson38Window.cs” 脚本,并将其放在 Editor 文件…

力扣经典面试题-旋转链表(Java)

1.题目描述:给你一个链表的头节点 head ,旋转链表,将链表每个节点向右移动 k 个位置。 示例 1: 输入:head [1,2,3,4,5], k 2 输出:[4,5,1,2,3] 示例 2: 输入:head [0,1,2], k …

壁纸动态-Mac电脑-4K超高清[po破]动态壁纸[解]Dynamic WallPaper 安装使用教程

Mac分享吧 文章目录 效果一、准备工作二、开始安装1、双击运行软件,将其从左侧拖入右侧文件夹中,等待安装完毕2、应用程序显示软件图标,表示安装成功 三、运行调试1、打开软件,选择自己喜欢的壁纸2、调整设置,使多个壁…

消息队列笔记

异步技术 企业级应用中广泛使用的三种异步消息传递技术 原文链接:https://blog.csdn.net/qq_55917018/article/details/122122218 三种异步消息传递技术 JMS (java message service) 一个Java规范,等同于JDBC规范,提供了与消息服务相关的…

语法分析!!!

一、实验题目 根据给定文法编写调试预测分析程序&#xff0c;对任意输入串用预测分析法进行语法分析。 二、实验目的 加深对预测分析法的理解。 三、实验内容 四、实验代码 #include <iostream> #include <stdio.h> #include <string> #include <…

elasticsearch hanlp插件自定义分词配置(停用词)

[Toc](elasticsearch hanlp插件自定义分词配置(停用词)) 既然可以自定义关键词&#xff0c;那么自然也是可以自定义停用词的。 背景 由于在使用elasticsearch hanlp(以下简称es hanlp)的过程中&#xff0c;分词会出现一些无用的词&#xff0c;比如各种标点符号或者没有意义的…

二叉排序树--c++

【相关知识】 二叉排序树&#xff08;也称二叉查找树&#xff09;&#xff1a;或者是一棵空的二叉树&#xff0c;或者是具有下列性质的二叉树&#xff1a; ⑴ 若它的左子树不空&#xff0c;则左子树上所有结点的值均小于根结点的值&#xff1b; ⑵ 若它的右子树不空&#xff0c…

vivado HW_BITSTREAM、HW_CFGMEM

HW_比特流 描述 从比特流文件创建的硬件比特流对象hw_bitstream&#xff0c;用于关联 在Vivado的硬件管理器功能中使用硬件设备对象hw_device 设计套件。 比特流文件是从具有write_bitstream的放置和路由设计创建的 命令硬件位流对象是使用 create_hw_bitstream命令&#xff0c…

【Vue】vuex 的使用 - 创建仓库

通用的地方我们一般会称之为仓库 1.安装 vuex 安装vuex与vue-router类似&#xff0c;vuex是一个独立存在的插件&#xff0c;如果脚手架初始化没有选 vuex&#xff0c;就需要额外安装。 yarn add vuex3 或者 npm i vuex32.新建 store/index.js 专门存放 vuex ​ 为了维护项目…

vue2中如何使用函数式组件

vue2 中如何使用函数式组件 用 render 定义函数式组件如何处理 props如何在函数式组件中触发自定义事件&#xff1f;injection如何使用 computed 和 methods定义一个函数式组件的 MyButton函数式组件有何优势哪种场景适合使用函数式组件函数式组件的问题参考 函数式组件&#x…

MySQL-相关日志

官方文档 1、MySQL支持的日志 MySQL有不同类型日志文件&#xff0c;用来存储不同类型的日志&#xff0c;分别为 二进制日志、错误日志、通用查询日志、慢查询日志、中继日志、数据定义语句日志 慢查询日志&#xff1a;记录所有执行时间超过 long_query_time的所有查询&#xf…

【 技术栈】技术方案到底怎么写?

文章目录 一、背景二、技术方案重要性三、常见的技术方案有哪些内容1、系统用例2、功能整体链路2.1、核心业务流程 3、数据库设计4、接口设计5、非功能设计5.1、性能与稳定性5.2、监控 7、系统风险点评估 四、总结 一、背景 工作中&#xff0c;有一些需求或者技术改造&#xf…

前端开发高频面试题

好的&#xff0c;以下是对您提出的问题的详细回答&#xff1a; 说说vue动态权限绑定渲染列表&#xff08;权限列表渲染&#xff09; Vue中动态权限绑定渲染列表通常涉及以下步骤&#xff1a; 首先&#xff0c;通过API请求从服务器获取当前用户的权限数据。在Vue组件中&#xff…

uc/OS移植到stm32实现三个任务

文章目录 一、使用CubeMX创建工程二、uc/OS移植三、添加代码四、修改代码五、实践结果六、参考文章七、总结 实践内容 学习嵌入式实时操作系统&#xff08;RTOS&#xff09;,以uc/OS为例&#xff0c;将其移植到stm32F103上&#xff0c;构建至少3个任务&#xff08;task&#xf…

[pixi.js] 入门简单案例 简易时钟

老实说pixi虽然之前拿来做个几个简单的游戏&#xff0c;但是是好久前的了&#xff0c;又忘了&#xff0c;现在算是重新入门。 官网版本已经更新到v8去了&#xff0c;而react相关的pixi库pixi-react 虽然支持react18 但还是v6-v7的版本&#xff0c;既然已经看了v8的文档&#xf…

Web 版 | 开源数据库设计软件 | drawdb

文章目录 简介快速运行方式 1:本地运行方式 2:Docker 构建并运行方式 3:Docker 运行参考🚀 目标: 安装一个 Web 版本的 ER 图设计软件! 👉 GitHub: https://github.com/drawdb-io/drawdb 【11.7k ⭐】 简介 DrawDB:Free, simple, and intuitive database design …

【iOS】UI——关于UIAlertController类(警告对话框)

目录 前言关于UIAlertController具体操作及代码实现总结 前言 在UI的警告对话框的学习中&#xff0c;我们发现UIAlertView在iOS 9中已经被废弃&#xff0c;我们找到UIAlertController来代替UIAlertView实现弹出框的功能&#xff0c;从而有了这篇关于UIAlertController的学习笔记…

Idea解决堆栈溢出

废话不说了&#xff0c;这问题搞了我两天&#xff0c;最近在用内网办公&#xff0c;没用公网&#xff0c;所以博客暂时没更新

堆排序-调整算法

个人主页点这里!~ 1.堆 了解堆排序首先要了解一下堆这个数据结构 堆&#xff08;Heap&#xff09;是一种特殊的树形数据结构&#xff0c;它通常被表示为一个完全二叉树或近似完全二叉树&#xff0c;并且满足堆性质&#xff08;Heap Property&#xff09;。堆主要分为两种&…

wordpress主题导航主题v4.16.2哈哈版

1.下载授权接口源码onenav-auth-api-v2.zip &#xff0c;在宝塔新建一个网站&#xff0c;域名为 auth.iotheme.cn&#xff0c;设置wordpress伪静态&#xff0c;申请ssl证书。将上面源码解压后上传到此网站根目录。 2. 在宝塔根目录etc下 hosts 中添加 127.0.0.1 auth.iotheme.…