云原生环境下GPU算力调度发展分析

 6f732b56b574e343c62056c03dbce092.jpeg

云原生环境下GPU算力调度深度分析 

   

概述:

云原生时代,GPU算力调度与管理备受瞩目,成为企业和云服务提供商关注的焦点,助力AI、深度学习、高性能计算等领域,满足对GPU资源的迫切需求。

  1. 容器化与编排:
    • Kubernetes(K8s)强效集成GPU资源调度,通过NVIDIA等Device Plugin机制精准识别与分配GPU。用户轻松在Pod定义中指定GPU设备及显存需求,实现高效资源利用。Kubernetes以其卓越的扩展性,为容器化应用提供强大的GPU支持。
  2. 资源调度策略:
    • 智能调度精准高效:基于GPU型号、内存、计算能力、网络带宽等,智能分配任务至最佳GPU节点,大幅提升执行效率。
    • 拓扑感知调度优化GPU性能,通过高级调度器支持GPU拓扑结构,有效利用NVIDIA NVLink等高速互连,大幅减少跨GPU数据传输延时,显著提升计算效率。
  3. 资源隔离与共享:
    • MIG技术实现GPU多实例化,精细划分GPU为独立计算单元,为各应用提供细粒度资源隔离与共享,确保高效、安全的虚拟化体验。
  4. 弹性伸缩与负载均衡:
    • 自动化扩缩容解决方案:借助Kubernetes的Horizontal Pod Autoscaler或自研autoscaler插件,依据GPU负载智能调整资源,实现高效利用,自动增减GPU资源,确保性能与成本的完美平衡。
    • 资源预留与智能调度:设定GPU资源预留策略,保障关键任务稳定运行,支持高优先级任务智能抢占低优先级资源。
  5. 监控与优化:
  6. 云服务提供商产品与方案:
    • 阿里云、腾讯云、AWS、Google Cloud、Azure等云服务商均提供云原生GPU计算服务,涵盖弹性GPU实例、优化型容器及虚拟化等方案,为企业客户带来便捷高效的GPU算力使用体验。

云原生GPU算力调度与管理方案,全面涵盖硬件适配、资源调度、智能优化与上层服务化,为企业提供高效稳定的GPU计算能力。持续的技术创新,驱动AI与高性能计算应用迈向新高度,为企业带来无限可能。

以下是深度分析:

01 GPU介绍

GPU以多核心、高速内存为特色,擅长并行处理,广泛应用于深度学习、图形处理与科学计算。主要厂商有NVIDIA、AMD等,其性能关键指标涵盖核心数量与内存速度。

02 Kubernetes管理GPU

随着AI技术的飞速发展,GPU需求激增。在资源管理中,Kubernetes已成为主流标准,众多客户选择利用其在Kubernetes中运行AI任务。为高效管理GPU资源,Kubernetes采用插件扩展机制,包括两个核心内部机制,确保AI计算在Kubernetes集群中的顺畅运行。

  • Extend Resources功能强大,支持用户自定义资源名称及整数度量,为RDMA、FPGA、GPU等异构设备提供统一支持。上报此类资源仅需通过PATCH API更新Node对象状态,操作简便,仅需一行curl命令即可完成,如下:
    ```bash
    curl -X PATCH ...
    ```
    轻松扩展资源,高效管理异构设备。

# 启动 Kubernetes 的客户端 proxy,这样你就可以直接使用 curl 来跟 Kubernetes 的 API Server 进行交互了 $ kubectl proxy
# 执行 PACTH 操作 $ curl --header "Content-Type: application/json-patch+json" \ --request PATCH \ --data '[{"op": "add", "path": "/status/capacity/nvidia.com/gpu", "value": "1"}]' \ http://localhost:8001/api/v1/nodes/<your-node-name>/status

‍&nbsp;

apiVersion: v1, Node资源状态精简呈现:CPU容量2核,内存高达2GB(2049008K),并配备invidia.com/gpu资源1个,满足您的多元计算需求。

  • Device Plugin:Kubernetes的设备插件框架,专为GPU、FPGA及高性能NIC等第三方设备设计。通过遵循Device Plugin接口规范,轻松创建特定设备插件,实现Kubernetes对设备的无缝管理。简化配置,提升性能,助力您的云计算之旅更加高效顺畅。

设备插件API接口定义于pkg/kubelet/apis/deviceplugin/v1beta1/api.pb.go文件第567行,专业、精简,满足高效设备交互需求。

type DevicePluginServer interface {// GetDevicePluginOptions returns options to be communicated with Device// Manager GetDevicePluginOptions(context.Context, *Empty) (*DevicePluginOptions, error)// ListAndWatch returns a stream of List of Devices// Whenever a Device state change or a Device disappears, ListAndWatch// returns the new list ListAndWatch(*Empty, DevicePlugin_ListAndWatchServer) error// Allocate is called during container creation so that the Device// Plugin can run device specific operations and instruct Kubelet// of the steps to make the Device available in the container Allocate(context.Context, *AllocateRequest) (*AllocateResponse, error)// PreStartContainer is called, if indicated by Device Plugin during registeration phase,// before each container start. Device plugin can run device specific operations// such as reseting the device before making devices available to the container PreStartContainer(context.Context, *PreStartContainerRequest) (*PreStartContainerResponse, error) }

  • ListAndWatch:DevicePlugin一经启动并向Kubelet注册,即触发Kubelet调用其API实时获取设备信息。这一长连接机制确保设备状态实时更新,一旦健康状况变动,DevicePlugin会主动推送最新信息至Kubelet,确保系统始终保持最新设备状态感知。
  • Kubelet在创建需特定设备的容器时,通过API高效分配资源,迅速提供设备列表、环境变量及挂载点等关键信息,确保容器顺利获得所需设备资源。

e14618391e28862fc8254c93d9c36d3e.jpeg

&nbsp; &nbsp; &nbsp;Device Plugin 与 Kubelet 交互过程

目前主流的GPU厂商都提供了对应的设备插件,如NVIDIA提供的Device Plugin (https://github.com/NVIDIA/k8s-device-plugin)。安装了插件,集群就会暴露一个自定义可调度的资源,例如 amd.com/gpu 或 nvidia.com/gpu。可以通过请求这个自定义的 GPU 资源在你的容器中使用这些 GPU,其请求方式与请求 cpu 或 memory 时相同。不过,在如何指定自定义设备的资源请求方面存在一些限制:

GPU 只能在limits部分指定,这意味着:

  • 在Kubernetes中,设置GPU的`limits`时,即使不指定`requests`,系统将默认以`limits`为请求值,简化配置,提升效率。
  • &nbsp; 你不可以仅指定 `requests` 而不指定 `limits`。

以下是一个 Pod 请求 GPU 的示例清单:


apiVersion: v1kind: Podmetadata:name: example-vector-addspec:restartPolicy: OnFailurecontainers:- name: example-vector-addimage: "registry.example/example-vector-add:v42"resources:limits:gpu-vendor.example/example-gpu: 1 # 请求 1 个 GPU

利用Kubernetes中的厂商Device Plugin插件,高效管理GPU资源,但仍有诸多不便与局限,需持续优化以提升体验。

  • 资源调度不够灵活,只支持按较粗粒度的调度,按 GPU 块数调度。
  • GPU不能共享,算力不能切分,这样会导致GPU算力的浪费。
  • 集群GPU资源缺乏全局概览,难以直观获取集群GPU信息,如Pod/容器与GPU绑定关系、已使用GPU数量等关键数据,限制了资源管理和优化。

接下来介绍业内的一些GPU算力共享方案。

03 业内共享GPU算力方案

3.1&nbsp; 阿里GPU Share Device Plugin

实现思路:

通过Kubernetes的Extended Resource机制,我们精确定义了GPU资源,涵盖显存和数量,实现高效资源管理和利用。

通过Device Plugin机制,我们精准地在节点上报告GPU卡数量及总显存容量(数量×显存),确保kubelet实时更新至Kubernetes API Server,为资源调度提供精准数据支持。

通过k8s scheduler Extender机制,我们增强了调度器的功能。在全局调度过程中,Filter和Bind阶段均精准判断节点GPU显存是否满足需求。特别地,在Bind时,我们实时将GPU分配结果以annotation形式记录至Pod Spec,确保后续Filter能准确检查分配状态,实现资源的高效利用与管理。

使用示例

apiVersion: apps/v1beta1kind:&nbsp;StatefulSet
metadata: name: binpack-1labels:&nbsp;&nbsp;&nbsp;&nbsp;app:&nbsp;binpack-1spec: replicas: 3serviceName: "binpack-1"podManagementPolicy: "Parallel"selector: # define how the deployment finds the pods it managesmatchLabels:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;app:&nbsp;binpack-1 template: # define the pods specificationsmetadata: labels:&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;app:&nbsp;binpack-1 spec: containers: - name: binpack-1image: cheyang/gpu-player:v2resources: limits: # GiB aliyun.com/gpu-mem: 3

优点:开源,使用简单。

不足之处:不支持共享资源的隔离,存在资源抢占情况;不支持算力维度的衡量划分。

6827ecf87f5de79a19f0a2210bcc1aef.jpeg

&nbsp;GPU应用调用链

  • 截获CUDA库转发,如vCUDA。
  • 截获驱动转发,如阿里云cGPU、腾讯云qGPU。
  • 截获GPU硬件访问,如NVIDIA GRID vGPU。

3.2 阿里cGPU

cGPU,阿里云创新推出的容器共享技术,基于内核虚拟GPU隔离,实现多容器共享单GPU卡。这一技术不仅确保业务安全隔离,更显著提升GPU资源利用率,降低使用成本。cGPU通过内核驱动为容器提供虚拟GPU设备,实现显存与算力隔离,配合轻量用户态运行库,轻松配置容器内虚拟GPU,为您的业务带来前所未有的高效与便捷。

ec707ae937dbed1b19fe39a15b5b47bb.jpeg

&nbsp; cGPU架构图&nbsp;&nbsp;&nbsp; &nbsp; &nbsp;

使用以下YAML内容,创建申请GPU显存和算力的任务:

apiVersion: batch/v1kind: Jobmetadata:name: cuda-samplespec:parallelism: 1template:metadata:labels:app: cuda-samplespec:containers:- name: cuda-sampleimage: registry.cn-beijing.aliyuncs.com/ai-samples/gpushare-sample:cuda-sample-11.0.3command:- bandwidthTestresources:limits: #申请2 GiB显存。aliyun.com/gpu-mem: 2 #申请一张GPU卡的30%算力。aliyun.com/gpu-core.percentage: 30workingDir: /rootrestartPolicy: Never

优点:支持算力、显存维度的管理调度,支持共享资源隔离。

不足之处:商业产品,只能在阿里云容器服务使用;自研难度极大。

3.3 腾讯qGPU

腾讯云推出GPU容器共享技术,实现多容器间GPU卡共享,显存、算力隔离。原理与阿里云cGPU相近,高效提升资源利用,简化管理。

66e76dc684476b4bf39abf31176daa39.jpeg

&nbsp;qGPU架构图

3.4 vCUDA

这里主要是讨论腾讯开源的GaiaGPU。vCUDA的系统架构采用一个Manager来管理GPU,Manager负责配置容器的GPU计算能力和显存资源,做到使用者无法使用多余申请的显存,GPU的平均使用率不会大幅超出申请值。vCUDA的设计只侵入了CUDA层,用户的程序无需重新编译就可以运行在基于vCUDA的GPU实现共享。vCUDA使用修改后cuda library来达到资源控制,vCUDA分别修改了计算操作,显存操作和信息获取3个方面的API。

GaiaGPU,尖端图形处理单元解决方案的代名词。我们专注于为业界提供最先进、性能卓越的GPU产品,通过高效的计算能力和卓越的图形渲染,助您轻松应对各种复杂场景。选择GaiaGPU,体验前所未有的高效与流畅,让您的项目更上一层楼!

9da9b967035b0f35a84987e98600e59a.jpeg

vCUDA智能管理GPU资源,通过拦截容器内CUDA驱动调用,精准控制进程对GPU和显存的占用,提升资源利用效率。

优点:开源,可以在任意地方使用,不依赖任何云。

缺点:需要替换CUDA库,版本要对齐;部分场景下有兼容性问题。

04 云原生方式管理GPU资源

cGPU、qGPU、vCUDA、gpu share、GPU 池化 等 GPU 共享技术越来越被用户采用。每种方案都有自己独立的一套 Kubernetes 集成实现方式,通常是由调度器 + device plugin 组成。这些方案相互独立,没有统一标准,无法共通。这导致用户在单个集群中很难同时使用多种 GPU 后端技术,同时也没有一个全局的视角获取集群层面 GPU 信息。这为基于 Kubernetes 构建统一的GPU算力基础设施平台增加了很多难度。

Elastic GPU引领创新,引入三款Kubernetes CRD,深受PV/PVC/StorageClass模型启发。这些CRD精准定义了GPU资源的各类抽象,助您实现更精细化的资源管理和高效利用,让GPU算力发挥到极致。详情访问https://github.com/elastic-ai/elastic-gpu。

  • ElasticGPU:集群中实用GPU资源,涵盖本地物理卡、GPU算力与显存组合切片资源,以及远端设备。灵活配置,满足各种计算需求,助力高效数据处理与深度学习应用。
  • ElasticGPUClaim让用户轻松申领ElasticGPU资源,支持整卡、GPU核数/显存、TFLOPS算力等灵活选择,满足您不同场景下的高性能计算需求。
  • EGPUClass:高效打造ElasticGPU生态,支持qGPU虚拟化、vCUDA技术及GPU远端池化,轻松实现GPU的生产与挂载,助您轻松应对高性能计算需求。

支持用户通过云原生方式管理GPU资源。此方案分为四个模块:

  • 在前端资源层面有两个标准化资源定义GPU Core和GPU Memory;
  • GPU CRD直观呈现物理卡与容器资源关系,用户轻松掌握集群GPU资源分配,提升物理卡在集群中的可见性与管理效率。
  • 自研GPU Extender Scheduler,精准调度GPU资源,提升集群分配效率,实时感知物理卡资源,实现精细化管理。
  • Device Plugin Agent构建通用框架,支持多样Device Plugin发现机制,实现主流GPU Provider支持,简化用户管理,降低成本,为您的设备管理提供高效、便捷的解决方案。

e02e36469762fa38a0e8294fc8756730.jpeg统一GPU框架&nbsp; &nbsp;

以qGPU为例,描述结合Elastic GPU方案

  • qGPU资源申请

`apiVersion: elasticgpu.io/v1alpha1
kind: ElasticGPUClass
metadata:
name: qgpu-class
spec:
provisioner: elasticgpu.io/qgpu
reclaimPolicy: Retain
eGPUBindingMode: Immediate
精简定义,快速部署ElasticGPUClass资源`qgpu-class`,实现GPU资源的弹性管理与即时绑定,确保资源高效利用与回收。```

ElasticGPUClaim 精准定义qGPU资源需求。`tke.cloud.tencent.com/qgpu-core` 标识10% GPU算力申请,而`tke.cloud.tencent.com/qgpu-memory`则确保4GB显存需求。简洁高效,满足您对GPU资源的精准管理与优化。

ElasticGPU资源申请优化
```yaml
apiVersion: elasticgpu.io/v1alpha1
kind: ElasticGPUClaim
metadata:
name: qgpu-egpuc
spec:
storageClassName: qgpu-class
resources:
requests:
tke.cloud.tencent.com/qgpu-core: 10
tke.cloud.tencent.com/qgpu-memory: 4Gi
```
简洁高效的ElasticGPU申请配置,明确指定了GPU核心数和内存量,确保资源合理分配与应用性能最大化。

用户通过指定ElasticGPUClaim,轻松申领qGPU资源,实现Pod创建过程中的高效资源配置。

```yaml
apiVersion: v1
kind: Pod
metadata:
name: qgpu-pod
annotations:
elasticgpu.io/egpuc-<container-name>: qgpu-egpuc
spec:
containers:
- name: test
# 高效GPU容器部署,专注于性能优化
```
优化后的文案简洁明了,突出了GPU容器部署的专业性和性能优化的重点。

05 总结

Kubernetes通过Device Plugin机制对GPU进行管理,使用GPU厂商提供的Device Plugin插件,即可在集群中申请使用GPU资源。对于需要共享GPU算力,并且不考虑资源隔离的场景,可考虑使用开源的GPU Share Device Plugin插件。cGPU、qGPU、vCUDA等方案在支持共享GPU算力的同时,提供了资源隔离的能力,企业可根据需求进行选择。Elastic GPU通过扩展定义CRD,对GPU资源进行了抽象,能较好的支持gpu share、cGPU、qGPU、vCUDA等多种技术,是一种非常好的云原生方式管理GPU思路。目前社区只适配了qGPU,其他技术如gpu share目前需要自行完成适配。

&nbsp;

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/679250.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

LLM的基础模型4:初识Embeddings

大模型技术论文不断&#xff0c;每个月总会新增上千篇。本专栏精选论文重点解读&#xff0c;主题还是围绕着行业实践和工程量产。若在某个环节出现卡点&#xff0c;可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技&#xff08;Mamba,xLSTM,KAN&#xff09;则提…

2024.5.30

思维导图 代码 #include <iostream>using namespace std; class Rect { private:int width;int height; public:void init(int w,int h){width w;height h;}void set_w(int w){width w;}void set_h(int h){height h;}void show(){int zhou (width height) * 2;int…

vue-router 源码分析——2. router-link 组件是如何实现导航的

这是对vue-router 3 版本的源码分析。 本次分析会按以下方法进行&#xff1a; 按官网的使用文档顺序&#xff0c;围绕着某一功能点进行分析。这样不仅能学习优秀的项目源码&#xff0c;更能加深对项目的某个功能是如何实现的理解。这个对自己的技能提升&#xff0c;甚至面试时…

使用raise语句抛出异常

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 如果某个函数或方法可能会产生异常&#xff0c;但不想在当前函数或方法中处理这个异常&#xff0c;则可以使用raise语句在函数或方法中抛出异常。rai…

车联网安全之GPS欺骗

随着车辆GPS技术的广泛应用&#xff0c;其在导航、交通监控等方面的关键性日益凸显&#xff0c;与之相关的安全性问题也备受关注。GPS欺骗便是其中一种重要的威胁手段。 本文旨在使用模拟GPS欺骗设备&#xff0c;模拟不同的GPS攻击以评估其对车辆定位系统的影响。通过这个实验…

「不只是框架:Django REST framework的超能力大揭秘」

想要让你的API服务像五星级餐厅一样令人难忘吗&#xff1f;今天阿佑将为你揭晓&#xff01;从基础的RESTful原则到Django REST framework的高级特性&#xff0c;我们一步步带你走进API开发的后厨&#xff0c;展示如何准备食材&#xff08;数据模型&#xff09;、调制酱料&#…

记录一次云服务器无法连接的排查过程

运行环境&#xff1a;阿里云服务器 故障外显原因&#xff1a;登录失败,操作系统禁用了密码登录方式 控制台监控数据显示云盘读写BPS拉满了 因为之前问过线上售后&#xff0c;让安装了atop监控&#xff0c;&#xff0c;所以先打开atop日志&#xff1a; atop -r /var/log/atop…

try…except…else语句

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在Python中&#xff0c;还有另一种异常处理结构&#xff0c;它是try…except…else语句&#xff0c;也就是在原来try…except语句的基础上再添加一个…

关于博图17安装体验过程—博图17安装失败原因(STEP7 许可证找不到)

目录 一、序言 二、正片 一、序言 该失败原因是在我使用Win11专业版安装博图17时出现的问题&#xff0c;也仅代表我的体验过程&#xff01;以下我将安装过程和解决问题的过程描述一下&#xff0c;希望可以帮助和我一样自己安装博图时能够解决出现的问题。 二、正片 如果阁下…

DRIVEN|15分的CNN+LightGBM怎么做特征分类,适用于转录组

说在前面 今天分享一篇做深度学习模型的文章&#xff0c;这是一篇软硬结合的研究&#xff0c;排除转换实体产品&#xff0c;我们做生信基础研究的可以学习模仿这个算法&#xff0c;适用且不局限于临床资料&#xff0c;转录组数据&#xff0c;GWAS数据。 今天给大家分享的一篇文…

构造+割点,F2. Spanning Tree with One Fixed Degree

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 Problem - 1133F2 - Codeforces 二、解题报告 1、思路分析 考虑以根节点为割点&#xff0c;会有若干个连通块 连通块的数目为根节点至少要连出去的边&#xff0c;不妨记为mi 如果mi > D&#xff0c;那…

分享一个 ASP.NET WebForm 使用 Form Authentication 的例子

前言 前些天一个朋友说他们客户的网站出了点故障&#xff0c;让我帮忙看看&#xff0c;这个网站还是用 ASP.NET WebForm 做的&#xff0c;很久以前的技术了&#xff0c;不过很多客户就是这样&#xff0c;只要网站还能稳定地运行&#xff0c;一般就不会去折腾升级&#xff0c;_…

未来以来!鸿蒙生态爆发式增长,程序员新出路火速Get。

鸿蒙生态取得爆发式增长&#xff01; 鸿蒙生态建设速度突飞猛进&#xff0c;不仅有超4000款应用加速开发&#xff0c;众多头部SDK伙伴也在积极加入&#xff0c;为开发者提供构建鸿蒙原生应用所需的多项能力。近期&#xff0c;友盟移动统计SDK、神策数据SDK、阿里云日志服务SDK…

【TB作品】msp430g2553单片机,秒表,LCD1602,Proteus仿真

功能 秒表 动图&#xff1a; 部分代码 这段代码是用C语言编写的&#xff0c;用于在基于德州仪器MSP430微控制器的平台上实现一个简易的电子秒表功能。 #include <msp430.h> #include "LCD.h"unsigned int second 0; unsigned int millisecond10…

向量化:机器学习中的效率加速器与数据桥梁

在机器学习领域的广袤天地中&#xff0c;向量化技术以其独特的魅力&#xff0c;为数据处理和模型训练注入了强大的动力。本文将深入探讨向量化在机器学习领域中的体现&#xff0c;剖析其如何助力模型实现高效的数据处理和精确的结果预测&#xff0c;并通过丰富的案例和详尽的数…

一文了解JVM(中)

HotSpot 虚拟机对象探秘 对象的创建 Header解释使用 new 关键字调用了构造函数使用 Class 的 newInstance 方法调用了构造函数使用 Constructor 类的newInstance 方法调用了构造函数使用 clone 方法没有调用构造函数使用反序列化没有调用构造函数说到对象的创建,首先让我们看…

路由策略简介

一、路由策略 1、定义: 路由策略(RoutingPolicy)作用于路由&#xff0c;主要实现了路由过滤和路由属性设置等功能&#xff0c;它通过改变路由属性(包括可达性)来改变网络流量所经过的路经。 2、目的 设备在发布、接收和引入路由信息时&#xff0c;根据实际组网需要实施一些策…

【深度学习代码缝合教程】二:适用于新手小白的超详细模块+模块=新模块的代码缝合

参考B站教学视频&#xff1a; 深度学习网络缝合模块&#xff0c;模块缝模块 如何对主干网络模块进行代码缝合&#xff1a; 【深度学习代码缝合教程】一&#xff1a;适用于新手小白的超详细深度学习主干网络模块代码缝合 上一篇写了如何把模块放进自己的主干网络进行模块的融合…

SEO代理是什么?代理IP在SEO优化中的应用

在搜索引擎优化 (SEO) 领域&#xff0c;拥有一个好的代理对于取得成功至关重要。代理充当您的设备和互联网之间的中介&#xff0c;允许您隐藏您的 IP 地址并使用不同的 IP 访问网络。在这篇博文中&#xff0c;我们将探讨为什么好的代理对 SEO 至关重要&#xff0c;以及它如何有…