DeepSpeed 配置文件(DeepSpeed Configuration Files)详解:中英文解释

中文版

本文详细介绍 DeepSpeed 配置文件,结合 4 卡 3090 的实际使用场景,重点解释各个参数的含义,并提供应对爆显存的方案。


DeepSpeed 配置文件详解:从基础到实战

DeepSpeed 是用于加速大规模分布式训练的重要工具,其灵活的配置文件是实现高效训练的关键。在本篇博客中,我们将深入解读 DeepSpeed 配置文件的结构和关键参数,结合 4 卡 3090 的实际训练场景,探讨如何优化配置,解决爆显存问题。


1. 配置文件的结构

DeepSpeed 的配置文件一般以 JSON 格式定义,包括以下几个核心部分:

  • bf16/fp16 配置:决定是否启用混合精度训练。
  • ZeRO 优化配置:用于控制内存优化策略。
  • 训练相关参数:例如批量大小、梯度累积步数等。

以下是一个典型的配置文件示例:

{
    "bf16": {
        "enabled": true
    },
    "zero_optimization": {
        "stage": 2,
        "overlap_comm": true,
        "contiguous_gradients": false,
        "reduce_bucket_size": 5e5,
        "sub_group_size": 5e5
    },
    "gradient_accumulation_steps": 4,
    "train_micro_batch_size_per_gpu": 1,
    "gradient_clipping": 1.0
}

2. 关键参数解析
bf16.enabled
  • 含义:启用 BF16 混合精度训练。
  • 影响:显著减少显存占用,提升训练速度。
zero_optimization.stage
  • 含义:指定 ZeRO 优化的阶段。
    • Stage 1:优化梯度存储。
    • Stage 2:进一步优化优化器状态存储。
    • Stage 3:支持模型分片。
  • 推荐:对于 4 卡 3090,优先选择 Stage 2,在显存允许的情况下使用 Stage 3
overlap_comm
  • 含义:启用通信与计算的重叠,减少通信开销。
  • 建议:在多卡场景中始终开启。
contiguous_gradients
  • 含义:是否在内存中存储连续梯度。
  • 优点:开启后可减少内存碎片化,提高通信效率。
  • 缺点:增加显存开销。
  • 建议:若显存不足,可将其设置为 false
reduce_bucket_size
  • 含义:定义一次通信中参数分片的最大大小。
  • 单位:字节。
  • 默认值:5e6(即 5 MB)。
  • 调整:
    • 若显存不足,减小值至 1e55e5
    • 如果通信瓶颈明显,可适当增大值。
sub_group_size
  • 含义:设置通信子组的参数分片大小。
  • 默认值:1e8(即 100 MB)。
  • 调整:
    • 小模型:5e5 或更低。
    • 大模型:可根据显存容量调试,通常 1e61e7
gradient_accumulation_steps
  • 含义:设置梯度累积步数,减少单步的显存压力。
  • 建议:逐步增加值(如从 48),但需注意总批量大小的变化。
train_micro_batch_size_per_gpu
  • 含义:每张 GPU 的微批量大小。
  • 建议:在显存不足时减小,如从 4 降为 1
gradient_clipping
  • 含义:限制梯度范数,防止梯度爆炸。
  • 推荐值:1.0

3. 针对 4 卡 3090 的优化建议
  • 显存不足问题解决方法:

    1. 减小 reduce_bucket_sizesub_group_size
      "reduce_bucket_size": 1e5,
      "sub_group_size": 5e5
      
    2. 降低 train_micro_batch_size_per_gpu
      "train_micro_batch_size_per_gpu": 1
      
    3. 增大 gradient_accumulation_steps
      "gradient_accumulation_steps": 8
      
    4. 禁用 contiguous_gradients
      "contiguous_gradients": false
      
  • 检查 NCCL 环境变量
    确保以下变量已正确设置,避免通信问题导致显存不足。

    export NCCL_BLOCKING_WAIT=1
    export NCCL_ASYNC_ERROR_HANDLING=1
    export NCCL_TIMEOUT=10800
    
  • 启用 CPU Offloading(如果必要)
    对于显存严重不足的场景,可将部分优化器状态卸载至 CPU。

    "offload_optimizer": {
        "device": "cpu",
        "pin_memory": true
    }
    

4. 实验结果分析与日志监控

在训练过程中,通过以下设置获取详细的资源占用信息:

"wall_clock_breakdown": true

并结合 DeepSpeed 的日志分析显存使用、通信效率等关键指标。


通过合理配置 DeepSpeed 配置文件,结合具体的硬件资源和任务需求,可以显著提升训练效率,减少显存压力。

英文版

This article is about explaining DeepSpeed configuration files, focusing on practical usage with a 4x 3090 GPU setup. This includes a breakdown of key parameters like contiguous_gradients, reduce_bucket_size, and sub_group_size, as well as solutions for handling out-of-memory (OOM) errors.


DeepSpeed Configuration Files: A Comprehensive Guide

DeepSpeed offers advanced optimization features like ZeRO (Zero Redundancy Optimizer) to enable efficient large-scale model training. This post will delve into configuring DeepSpeed for optimal performance, with examples and tips tailored to a 4x NVIDIA 3090 GPU setup.


1. Key Parameters in a DeepSpeed Configuration File

Below is an example configuration file for ZeRO Stage 2 optimization, designed for fine-tuning large models:

{
    "zero_optimization": {
        "stage": 2,
        "overlap_comm": true,
        "contiguous_gradients": false,
        "reduce_bucket_size": 5e5,
        "sub_group_size": 5e5
    },
    "gradient_accumulation_steps": 4,
    "train_micro_batch_size_per_gpu": 1,
    "gradient_clipping": 1.0
}

Let’s break down the parameters:

(1) zero_optimization.stage
  • Defines the ZeRO optimization stage:
    • Stage 2: Optimizes optimizer states and gradients across GPUs, reducing memory usage.
    • Use Stage 3 for more aggressive memory savings by offloading parameters to CPU, if applicable.
(2) overlap_comm
  • Default: true
  • Enables overlapping communication with computation, improving efficiency during distributed training.
(3) contiguous_gradients
  • Default: false
  • When true, all gradients are stored contiguously in memory.
    • Benefit: Faster gradient reductions.
    • Drawback: Increases memory usage.
    • Recommendation: Set to false if facing OOM issues.
(4) reduce_bucket_size
  • Defines the size of gradient buckets for all-reduce operations.
    • Smaller values (e.g., 5e5) reduce memory pressure but may slightly slow down training.
    • Larger values improve speed but require more memory.
(5) sub_group_size
  • Controls sub-grouping of gradients during communication.
    • Default: A large value (e.g., 1e9), meaning no sub-grouping.
    • Recommendation: Reduce to 5e5 or lower for better memory efficiency.
(6) gradient_accumulation_steps
  • Number of steps to accumulate gradients before performing a backward pass.
    • Higher values effectively increase the batch size without increasing per-GPU memory load.
(7) train_micro_batch_size_per_gpu
  • Batch size per GPU per step.
    • Recommendation: Start with a small value (e.g., 1) and scale up gradually.

2. Handling Out-of-Memory (OOM) Errors

Training large models like Google Gemma-2-2B on GPUs with limited memory (24 GB, such as NVIDIA 3090) often results in OOM errors. Here are optimization strategies:

(1) Reduce train_micro_batch_size_per_gpu
  • Start with 1 and only increase if memory allows.
(2) Lower reduce_bucket_size and sub_group_size
  • Decrease both to 1e5 or 5e4. This reduces the memory footprint during gradient reduction at the cost of slightly increased communication overhead.
(3) Enable offload_optimizer or offload_param (for ZeRO Stage 3)
  • Offload optimizer states or parameters to CPU if memory remains insufficient.
  • Example configuration for optimizer offloading:
    {
        "zero_optimization": {
            "stage": 3,
            "offload_optimizer": {
                "device": "cpu",
                "pin_memory": true
            }
        }
    }
    
(4) Use Gradient Checkpointing
  • Activates checkpointing for intermediate activations to save memory during backpropagation.
    from deepspeed.runtime.activation_checkpointing import checkpointing_config
    checkpointing_config(
        partition_activations=True,
        contiguous_memory_optimization=False
    )
    
(5) Mixed Precision Training (bf16 or fp16)
  • Use bf16 for better memory efficiency with minimal precision loss.
(6) Increase gradient_accumulation_steps
  • Accumulate gradients over more steps to reduce the batch size processed per GPU.
(7) Reduce max_seq_length
  • Shorten sequence length (e.g., 512 or 768 tokens) to decrease memory usage.

3. Practical Example: Fine-Tuning on 4x NVIDIA 3090 GPUs

The following accelerate command illustrates how to combine the above settings for fine-tuning a large model:

accelerate launch \
    --mixed_precision bf16 \
    --num_machines 1 \
    --num_processes 4 \
    --machine_rank 0 \
    --main_process_ip 127.0.0.1 \
    --main_process_port 29400 \
    --use_deepspeed \
    --deepspeed_config_file configs/ds_config.json \
    --model_name_or_path google/gemma-2-2b \
    --tokenizer_name google/gemma-2-2b \
    --max_seq_length 768 \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 4 \
    --learning_rate 5e-6 \
    --num_train_epochs 1 \
    --output_dir output/sft_gemma2

4. Debugging Tips

  • Enable Detailed Logs: Set wall_clock_breakdown: true in the config file to identify bottlenecks.
  • NCCL Tuning: Add environment variables to handle communication errors:
    export NCCL_BLOCKING_WAIT=1
    export NCCL_ASYNC_ERROR_HANDLING=1
    

Conclusion

DeepSpeed’s configuration is highly flexible, but tuning requires balancing memory efficiency and computational speed. By adjusting parameters like reduce_bucket_size, gradient_accumulation_steps, and leveraging ZeRO’s offloading capabilities, you can effectively train large models even on memory-constrained GPUs like the NVIDIA 3090.

后记

2024年11月27日22点08分于上海,基于GPT4o大模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/924194.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

欧科云链研究院:比特币还能“燃”多久?

出品| OKG Research 作者|Hedy Bi 本周二,隔夜“特朗普交易” 的逆转趋势波及到比特币市场。比特币价格一度冲高至约99,000美元后迅速回落至93,000美元以下,最大跌幅超6%。这是由于有关以色列和黎巴嫩有望达成停火协议的传闻引发…

27加餐篇:gRPC框架的优势与不足之处

gRPC作为一个现代的、开源的远程过程调用(RPC)框架,在多个方面都展现了其优雅之处,同时也存在一些不足之处。这篇文章我们就相对全面的分析一下gRPC框架那些优雅的地方和不足的地方。 优雅的地方 gRPC作为一个RPC框架,在编码、传输协议已经支持多语言方面都比较高效,下…

Spring MVC练习(前后端分离开发实例)

White graces:个人主页 🙉专栏推荐:Java入门知识🙉 🐹今日诗词:二十五弦弹夜月,不胜清怨却飞来🐹 ⛳️点赞 ☀️收藏⭐️关注💬卑微小博主🙏 ⛳️点赞 ☀️收藏⭐️关注&#x1f4…

重构项目架构

前言 我们上篇文章对整个项目进行一个整体的规划,其中对于APP类规划了类,本篇文章我们就来实现这个规划; class App {//加载页面constructor() {}//获取位置_getPosition() {}//接受位置_loadMap() {}//在地图上点击展现表单_showForm() {}/…

哈希C++

文章目录 一.哈希的概念1.直接定址法2.负载因子 二.哈希函数1.除法散列法 / 除留余数法2.乘法散列法3.全域散列法(了解) 三.处理哈希冲突哈希冲突:1.开放定址法(1)线性探测:(2)二次探…

转录组数据挖掘(生物技能树)(第11节)下游分析

转录组数据挖掘(生物技能树)(第11节) 文章目录 R语言复习转录组数据差异分析差异分析的输入数据操作过程示例一:示例二:示例三:此代码只适用于人的样本 R语言复习 #### 读取 ####dat read.deli…

Diving into the STM32 HAL-----Cyclic Redundancy Check笔记

在数字系统中,数据完全有可能被损坏,特别是当它流经通信介质时。在数字电子学中,消息是等于 0 或 1 的比特流,当这些比特中的一个或多个在传输过程中意外更改时,它就会损坏。因此,消息中始终有一些额外的数…

Swift——类与结构体

一.结构体 在swift的标准库中,大部分的类型都是结构体,比如:Int,Double,String,Array,Dictionary等等,它们都是结构体。 结构体定义如下: struct Person {var name:St…

反射泛型

反射 class 包含哪些内容? 当使用new 对象时需要构造函数是public 的,而当变成私有时再new则会报错 反射通过私有构造方法创建对象,破环单例模式 Clazz.getDeclared(构造函数,方法属性等)和直接get构造函数,方法属性等…

RHCE——SELinux

SELinux 什么是SELinux呢?其实它是【Security-Enhanced Linux】的英文缩写,字母上的意思就是安全强化Linux的意思。 SELinux是由美国国家安全局(NSA)开发的,当初开发的原因是很多企业发现,系统出现问题的原因大部分都在于【内部…

etcd、kube-apiserver、kube-controller-manager和kube-scheduler有什么区别

在我们部署K8S集群的时候 初始化master节点之后(在master上面执行这条初始化命令) kubeadm init --apiserver-advertise-address10.0.1.176 --image-repository registry.aliyuncs.com/google_containers --kubernetes-version v1.16.0 --service…

uniapp定义new plus.nativeObj.View实现APP端全局弹窗

为什么要用new plus.nativeObj.View在APP端实现弹窗?因为uni.showModal在APP端太难看了。 AppPopupView弹窗函数参数定义 参数一:弹窗信息(所有属性可不填,会有默认值) 1.title:"", //标题 2.content:"", //内容 3.confirmBoxCo…

一文学习开源框架OkHttp

OkHttp 是一个开源项目。它由 Square 开发并维护,是一个现代化、功能强大的网络请求库,主要用于与 RESTful API 交互或执行网络通信操作。它是 Android 和 Java 开发中非常流行的 HTTP 客户端,具有高效、可靠、可扩展的特点。 核心特点 高效…

DRM(数字权限管理技术)防截屏录屏----视频转hls流加密、web解密播放

提示:视频转hls流加密、web解密播放 需求:研究视频截屏时,播放器变黑,所以先研究的视频转hls流加密 文章目录 [TOC](文章目录) 前言一、工具ffmpeg、openssl二、后端nodeexpress三、web播放四、文档总结 前言 ‌HLS流媒体协议‌&a…

Rk3588 onnx转rknn,出现 No module named ‘rknn‘

一、操作步骤: rk3588 需要将yolo11 的模型onnx转rknn。 https://github.com/airockchip/rknn_model_zoo/tree/main/examples/yolo11 这个是用yolo11训练的模型,有80种类型。 完整下载下来后,在按文档描述下载模型下来: 然后进…

IDEA 解决Python项目import导入报错、引用不到的问题

使用Idea 23.1 专业版编写Python项目时,import 导入爆红,无法引入其他package的代码,现象如: 解决方案:Idea表头打开 File -> Project Settring 解决效果:

unity 使用UI上的数字按钮,给text添加数字,并且显示光标,删除光标前数字,

今天有个需求,输入身份证,但是不用键盘,要点击按钮输入数字,并且可以控制光标, 1、数字按钮:点击后text添加数字内容 2、删除按钮:删除光标前的一个字符 3、左箭头:移动光标向左移动…

火山引擎VeDI在AI+BI领域的演进与实践

随着数字化时代的到来,企业对于数据分析与智能决策的需求日益增强。作为新一代企业级数据智能平台,火山引擎数智平台VeDI基于字节跳动多年的“数据驱动”实践经验,也正逐步在AI(人工智能)与BI(商业智能&…

【逐行注释】自适应观测协方差R的AUKF(自适应无迹卡尔曼滤波,MATLAB语言编写),附下载链接

文章目录 自适应R的UKF逐行注释的说明运行结果部分代码各模块解释 自适应R的UKF 自适应无迹卡尔曼滤波(Adaptive Unscented Kalman Filter,AUKF)是一种用于状态估计的滤波算法。它是基于无迹卡尔曼滤波(Unscented Kalman Filter&…

LLM应用-prompt提示:RAG query重写、相似query生成 加强检索准确率

参考: https://zhuanlan.zhihu.com/p/719510286 1、query重写 你是一名AI助手,负责在RAG(知识库)系统中通过重构用户查询来提高检索效果。根据原始查询,将其重写得更具体、详细,以便更有可能检索到相关信…