开源 vGPU 方案 HAMi 解析

开源 vGPU 方案 HAMi

一、k8s 环境下 GPU 资源管理的现状与问题

(一)资源感知与绑定

在 k8s 中,资源与节点紧密绑定。对于 GPU 资源,我们依赖 NVIDIA 提供的 device-plugin 来进行感知,并将其上报到 kube-apiserver。例如,通过执行 kubectl describe node gpu01|grep Capacity -A 7 命令,我们可以看到节点上的资源信息,其中包括 nvidia.com/gpu: 8,这表明该节点上有 8 个 GPU。这一机制使得 k8s 能够对 GPU 资源有一定的了解,但也带来了后续的调度问题。

(二)资源申请与调度限制

当我们创建一个 Pod 并申请 GPU 资源时,如以下示例:

apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
  - name: gpu-container
    image: nvidia/cuda:11.0-base
    resources:
      limits:
        nvidia.com/gpu: 1
    command: ["nvidia-smi"]
  restartPolicy: OnFailure

kube-scheduler 会根据 Pod 的资源请求将其调度到拥有足够 GPU 资源的 Node 上。但这里存在一个关键问题,一旦 GPU 资源被某个 Pod 申请,在 k8s 中就被标记为已消耗,后续创建的 Pod 可能会因为资源不足而无法调度。实际上,GPU 的性能可能足以支持多个 Pod 共同使用,但 k8s 的这种调度限制导致了资源利用率不高的情况。

二、HAMi 方案的引入:GPU 资源管理的新希望

(一)什么是 HAMi

HAMi 全称为 Heterogeneous AI Computing Virtualization Middleware,是一个异构算力虚拟化平台。它最初源自第四范式的 k8s-vgpu-scheduler,如今不仅开源,还将核心的 vCUDA 库 libvgpu.so 开放出来。当前,HAMi 在 NVIDIA GPU 的 vGPU 方案方面表现出色,为我们提供了一种有效的 GPU 资源共享和切分解决方案。

(二)HAMi 的特性:细粒度 GPU 隔离

HAMi 的一大亮点是能够实现 GPU 的细粒度隔离,可对 core 和 memory 使用 1% 级别的隔离。例如,在创建 Pod 时,我们可以通过以下方式指定 vGPU 的资源请求:

apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
    - name: ubuntu-container
      image: ubuntu:18.04
      command: ["bash", "-c", "sleep 86400"]
      resources:
        limits:
          nvidia.com/gpu: 1
          nvidia.com/gpumem: 3000
          nvidia.com/gpucores: 30

在这个示例中,nvidia.com/gpu: 1 表示请求 1 个 vGPU,nvidia.com/gpumem: 3000 表示每个 vGPU 申请 3000m 显存,nvidia.com/gpucores: 30 表示每个 vGPU 的算力为 30% 实际显卡的算力。这种细粒度的资源控制能力,使得我们能够更精准地分配 GPU 资源,满足不同任务的需求。

三、HAMi 的工作原理:基于 vCUDA 方案的创新

(一)软件层面的驱动重写

HAMi 通过软件层面的 vCUDA 方案,对 NVIDIA 原生的 CUDA 驱动进行重写(libvgpu.so)。它将改写后的驱动挂载到 Pod 中进行替换,从而在自己实现的 CUDA 驱动中对 API 进行拦截。这一拦截机制是实现资源隔离和限制的关键。例如,原生的 libvgpu.so 在进行内存分配时,只有在 GPU 内存真正用完时才会提示 CUDA OOM,而 HAMi 实现的 libvgpu.so 则不同,当检测到 Pod 中使用的内存超过了 Resource 中的申请量时,就会直接返回 OOM,从而有效地限制了资源的使用。

(二)资源信息的隔离展示

在执行 nvidia-smi 命令查看 GPU 信息时,HAMi 也只会返回 Pod Resource 中申请的资源,进一步实现了资源的隔离展示。这使得用户在查看 GPU 资源使用情况时,看到的是经过隔离后的准确信息,避免了不同 Pod 之间资源信息的混淆。

四、HAMi 的部署与配置:轻松上手的实践指南

(一)部署前的准备

  1. 部署 GPU Operator
    由于 HAMi 依赖 NVIDIA 的相关组件,推荐先部署 GPU Operator,为后续 HAMi 的部署打下坚实的基础。
  2. 获取 k8s 版本
    在安装过程中,需要根据集群服务端版本来指定调度器镜像版本,因此要先通过 kubectl version 命令获取 k8s 版本信息。

(二)HAMi 的部署步骤

  1. 添加 repo 仓库
    执行 helm repo add hami-charts https://project-hami.github.io/HAMi/ 命令,添加 HAMi 的 Helm Chart 仓库。
  2. 安装 HAMi
    根据获取到的 k8s 版本,使用如下命令进行安装(假设集群服务端版本为 v1.27.4):
helm install hami hami-charts/hami --set scheduler.kubeScheduler.imageTag=v1.27.4 -n kube-system

安装完成后,可以通过 kubectl get pods -n kube-system|grep hami 命令查看 vgpu-device-plugin 与 vgpu-scheduler 两个 pod 的状态,若状态为 Running,则表示安装成功。

(三)自定义配置参数

HAMi 提供了丰富的自定义配置选项,通过在安装过程中使用 -set 参数来修改。例如:

  • devicePlugin.deviceSplitCount:整数类型,预设值是 10,用于设置 GPU 的分割数,每个 GPU 上最多可同时存在指定数量的任务。
  • devicePlugin.deviceMemoryScaling:浮点数类型,预设值是 1,可设置 NVIDIA 装置显存使用比例,大于 1 时启用虚拟显存(实验功能)。
  • devicePlugin.migStrategy:字符串类型,支持 “none” 与 “mixed” 两种工作方式,用于指定是否使用 MIG 设备。
  • devicePlugin.disablecorelimit:字符串类型,“true” 为关闭算力限制,“false” 为启动算力限制,默认为 “false”。
  • scheduler.defaultMem:整数类型,预设值为 5000,表示不配置显存时使用的默认显存大小,单位为 MB。
  • scheduler.defaultCores:整数类型(0 - 100),默认为 0,代表默认为每个任务预留的百分比算力。
  • scheduler.defaultGPUNum:整数类型,默认为 1,用于在 pod 资源中未设置 nvidia.com/gpu 时,根据其他相关资源键的值添加默认的 nvidia.com/gpu 键和值。
  • resourceNameresourceMemresourceMemPercentageresourceCoresresourcePriority 等:分别用于设置申请 vgpu 个数、显存大小、显存比例、算力、任务优先级的资源名,均有默认值。

此外,容器中也有对应配置,如 GPU_CORE_UTILIZATION_POLICY(字符串类型,“default”、“force”、“disable” 分别代表不同的容器算力限制策略)和 ACTIVE_OOM_KILLER(字符串类型,“true” 或 “false” 表示容器是否会因超用显存而被终止执行)。

五、HAMi 的验证:确保资源管理的有效性

(一)查看 Node GPU 资源

在部署 HAMi 后,虽然环境中可能只有一个物理 GPU,但 HAMi 默认会对其进行扩容。例如,通过执行 kubectl get node xxx -oyaml|grep capacity -A 7 命令,我们可以查看 Node 的资源信息,理论上能看到 nvidia.com/gpu 的数量有所增加(默认扩容 10 倍),这表明 HAMi 已经成功对 GPU 资源进行了虚拟切分。

(二)验证显存和算力限制

使用以下 YAML 文件创建一个 Pod 来验证显存和算力限制:

apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
    - name: ubuntu-container
      image: ubuntu:18.04
      command: ["bash", "-c", "sleep 86400"]
      resources:
        limits:
          nvidia.com/gpu: 1
          nvidia.com/gpumem: 3000
          nvidia.com/gpucores: 30

创建完成后,通过 kubectl exec -it gpu-pod -- bash 进入 Pod,执行 nvidia-smi 命令。从输出结果中,我们可以看到 GPU 的内存使用情况和算力使用情况是否符合我们在 Pod 资源请求中设定的限制。例如,在上述示例中,我们期望看到 GPU 内存使用量不超过 3000MiB,算力使用不超过 30%。同时,注意到命令执行后的日志中会有 HAMi 的 CUDA 驱动打印信息,如 [HAMI-core Msg(16:139711087368000:multiprocess_memory_limit.c:434)]: Calling exit handler 16,这也进一步证明了 HAMi 在资源管理方面的作用。

通过以上对 HAMi 方案的全面介绍,我们可以看到它在 k8s 环境下 GPU 资源管理方面具有显著的优势和实用性。无论是解决资源利用率不高的问题,还是实现细粒度的资源隔离与限制,HAMi 都为我们提供了一种可行的解决方案。希望这篇博客能够帮助大家更好地理解和应用 HAMi,在实际工作中充分发挥 GPU 资源的潜力,提升计算任务的执行效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/951100.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI赋能服装零售:商品计划智能化,化危机为转机

在服装零售这片竞争激烈的战场上,每一个细微的决策都可能成为品牌兴衰的关键。当市场波动、消费者口味变化、供应链挑战接踵而至时,许多品牌往往将危机归咎于外部环境。然而,真相往往更为深刻——“危机不是外部的,而是你的商品计…

Flutter:吸顶效果

在分页中,实现tab吸顶。 TDNavBar的screenAdaptation: true, 开启屏幕适配。 该属性已自动对不同手机状态栏高度进行适配。我们只需关注如何实现吸顶。 view import package:ducafe_ui_core/ducafe_ui_core.dart; import package:flutter/material.dart; import p…

企业级PHP异步RabbitMQ协程版客户端 2.0 正式发布

概述 workerman/rabbitmq 是一个异步RabbitMQ客户端,使用AMQP协议。 RabbitMQ是一个基于AMQP(高级消息队列协议)实现的开源消息组件,它主要用于在分布式系统中存储和转发消息。RabbitMQ由高性能、高可用以及高扩展性出名的Erlan…

信号弱开启手机Wifi通话,MIUI显示/隐藏5G开关的方法

1.开启手机Wi-Fi通话,提升无信号或弱信号时的通话质量 Wi-Fi 通话(Wi-Fi calling),又称VoWiFi,是一项名为“ Voice over Wi-Fi ”的服务,它允许手机用户使用他们的智能手机使用 Wi-Fi网络拨打电话,即在Wi-Fi环境下就能…

Echarts的认识和基本用法

Echarts介绍和使用 Echarts介绍 官网地址:Apache ECharts Echarts是一个基于JavaScript的开源可视化图表库,由百度前端开发团队研发和维护。它提供了丰富的图表类型、数据统计分析、动态数据更新、多维数据展示等功能,可以帮助开发人员在 W…

在JavaScript开发中,如何判断对象自身为空?

前言 如何判断一个对象为空是我们在开发中经常会遇到的问题,今天我们来聊聊几种经常使用的方法,以及在不同的场景下我们如何去使用。 1. JSON.stringify JSON.stringify 方法可以使对象序列化,转为相应的 JSON 格式。 const obj {};cons…

大语言模型训练的数据集从哪里来?

继续上篇文章的内容说说大语言模型预训练的数据集从哪里来以及为什么互联网上的数据已经被耗尽这个说法并不专业,再谈谈大语言模型预训练数据集的优化思路。 1. GPT2使用的数据集是WebText,该数据集大概40GB,由OpenAI创建,主要内…

Wireshark 学习笔记1

1.wireshark是什么 wireshark是一个可以进行数据包的捕获和分析的软件 2.基本使用过程 (1)选择合适的网卡 (2)开始捕获数据包 (3)过滤掉无用的数据包 (4)将捕获到的数据包保存为文件…

RK3568平台(USB篇)禁用USB端口

一.linux中怎样查看usb的端口号 在USB口插入U盘: [ 198.141319][ T106] usb 3-1.3: new SuperSpeed Gen 1 USB device number 5 using xhci-hcd [ 198.161695][ T106] usb 3-1.3: New USB device found, idVendor=0781, idProduct=5591, bcdDevice= 1.00 [ 198.161721]…

3298.统计重新排列后包含另一个字符串的字符串数目 I II滑动窗口 优化思路解析全网最详细

II相比于I是数据范围变成了10的6次方了 我们来维护大小关系,把不用的都去掉,优化到O(26n) 首先判断一下要找子字符串的s长度是否小于t字符串,如果小于的话直接返回0 初始答案变量和left左指针为0 用Counter来记录t中所…

双向导航和单向导航

目录 双向导航 单向导航 迁移数据库异常 解决办法 1.导航属性改为空 2.使用 ON DELETE NO ACTION 或 ON UPDATE NO ACTION 选择 双向导航 一对多:一个Article有多个Comment class Article {public long Id { get; set; }public string Title { get; set; }pu…

静态路由配置与调试——计算机网络实训day1

TOC 软件及基本配置下载 通过网盘分享的文件:计网实训 链接: https://pan.baidu.com/s/1AY5qNSN1dnw5Vy1OtwdJGg?pwdijde 提取码: ijde 操作前准备 1.下载软件 2.双击1.基本配置.pkt 3.进入实验环境 一、实验目的 1、掌握路由器的基本配置; 2、掌握…

EasyExcel上传校验文件错误信息放到文件里以Base64 返回给前端

产品需求: 前端上传个csv 或 excel 文件,文件共4列,验证文件大小,类型,文件名长度,文件内容,如果某行某个单元格数据验证不通过,就把错误信息放到这行第五列,然后把带有…

EtherCAT转Modbus网关与TwinCAT3的连接及配置详述

在工业自动化控制系统中,常常需要整合不同的通信协议设备。本案例旨在展示如何利用捷米特JM-ECT-RTU协议转换网关模块,实现 EtherCAT 网络与 Modbus 设备之间的无缝连接,并在 TwinCAT3 环境中进行有效配置,以构建一个稳定可靠的自…

Linux 工作队列

系列文章目录 Linux内核学习 Linux 知识(1) Linux 知识(2) Linux 工作队列 Linux 内核源代码情景分析(一) Linux 设备驱动程序(二) 文章目录 系列文章目录综述工作(work_…

如何评价deepseek-V3 VS OpenAI o1 自然语言处理成Sql的能力

DeepSeek-V3 介绍 在目前大模型主流榜单中,DeepSeek-V3 在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。 准备工作: 笔者只演示实例o1 VS DeepSeek-V3两个模型,大家可以自行验证结果或者实验更多场景,同时…

【UI自动化测试】selenium八种定位方式

🏡个人主页:謬熙,欢迎各位大佬到访❤️❤️❤️~ 👲个人简介:本人编程小白,正在学习互联网求职知识…… 如果您觉得本文对您有帮助的话,记得点赞👍、收藏⭐️、评论💬&am…

百度视频搜索架构演进

导读 随着信息技术的迅猛发展,搜索引擎作为人们获取信息的主要途径,其背后的技术架构也在不断演进。本文详细阐述了近年来视频搜索排序框架的重大变革,特别是在大模型技术需求驱动下,如何从传统的多阶段级联框架逐步演变为更加高…

sequelize-cli 多对多关系处理 及某一单项游戏根据成绩降序排名

一、生成模型 Game(游戏表)GameGrades(游戏成绩表)GameUser(用户表) 1.1 对非中间表 做多对多逻辑处理 Game模型 static associate(models) {// define association heremodels.GameUser.belongsToMany(models.Game, {through: models.GameGrade,fore…

调整Python+Pytest+Allure+Yaml+Pymysql框架中需要执行的用例顺序

当pytest框架中有时时候会因为用例的前后关联关系需要调整用例执行顺序时则可以跟进具体的要求调整pytest.ini配置文件中执行用例文件夹的前后顺序 当如果是需要调整某个文件夹中用例的执行顺序时,则跟进具体的文件调整对应testcases中test_*.py文件中的执行顺序