TensorRT-LLM的k8s弹性伸缩部署方案

Scaling LLMs with NVIDIA Triton and NVIDIA TensorRT-LLM Using Kubernetes | NVIDIA Technical Blog

一共涉及4个k8s组件:
1. Deployment:跑起来N个pod;指定NVIDIA官方的triton&trt-llm的docker image,指定好model放在哪个volume里;

2. Service: 指向Deployment,指定port;

3. Prometheus:跑起来1个pod;从Service的triton metrics端口(8002)那里拿到metrics指标(queue time, compute time),计算得到新指标(二者的比率);

4. HPA(Horizontal Pod Autoscaler,水平扩展):根据Prometheus的指标数值,和预先配置好的阈值,来自动新增pod或减少pod;

还可用Grafana工具来看triton指标、trt-llm指标:

从上图可看到,TRT-LLM In-Flight Batcher,一直在0~4之间变动,中间没有变到0这种断崖,证明真的是完成一个request就加一个新的request进来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/908162.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AJAX学习笔记总结

目录 AJAX简介 XML简介 AJAX的特点 AJAX的优点 AJAX的缺点 服务端框架 GET请求 绑定事件步骤: 需求案例 body代码 POST请求 跨域 同源策略 如何解决跨域 JSONP JSONP是什么? JSONP怎么工作的 JSONP的使用 CORS CORS是什么&#xff1…

谷粒商城のsentinelzipkin

文章目录 前言一、Sentinel1、什么是Sentinel2、项目配置3、使用案例3.1、流控3.2、降级3.3、黑白名单设置 二、Zipkin1、什么是Zipkin2、项目配置3、整合案例 前言 本篇介绍Spring Cloud Ali的sentinel组件,用于对微服务的熔断降级,以及链路追踪zipkin的…

25国考照片处理器使用流程图解❗

1、打开“国家公务员局”网站,进入2025公务员专题,找到考生考务入口 2、点击下载地址 3、这几个下载链接都可以 4、下载压缩包 5、解压后先看“使用说明”,再找到“照片处理工具”双击。 6、双击后会进入这样的界面,点击&…

UE5.4 PCG Layered Biomes插件

B站学习链接 官方文档 一、PCGSpawn Preset:负责管理PCG要用到的植被资产有哪些 二、BiomesSettings:设置要使用的植被资产Layer、Spawn参数 1.高度Layer参数: 2.地形Layer:我这里用地形样条线绘制了一块地形Layer 绘制点和…

vrrp和mstp,vrrp和byd

vrrp和mstp 思路 vrrp是用来虚拟网关,噢,是虚拟一条虚拟网关 优先级,priority越大越优先,优先级相同,哪个的路由器的vrrp先起来,谁就是主 mstp是快速生成树协议,防止环路用的 优先级越小越优…

pycharm设定代码模板

1、在文件点击设置 ​​​​​​​ ​​​​​​​ 2、点击编辑器--实时模板--找到需要插入模板的位置如我要插入HTML的模板---选择--点击实时模板 3、如图: 4、添加模板内容,如果模板有变量可以在编辑变量处点击编辑 5、编辑变量 6、点…

什么是红客?红客入门基础(非常详细)零基础入门到精通,收藏这篇就够了

什么是红客: 提到红客,我们不得不想到2001年中美黑客大战,红客联盟等这些词汇。曾几何时这个群体给尚且稚嫩的国内安全环境带来了一枚种子,从此网络安全在这片土地开始发芽。不知道有多少人是受到红客的影响走上了安全这条路&…

从新手到专家:7款电脑平面设计软件评测

平面设计在时尚、广告等多个领域扮演着重要角色,而创作出独特且富有创意的设计作品则需要依赖优秀的电脑平面设计软件。市场上的电脑平面设计软件众多,每款软件都有其独到之处。本文将为你推荐几款值得关注的电脑平面设计软件,并分析它们的特…

文献翻译如何一键完成?推荐2024年11款翻译软件

学英语的时候,好多人都觉得语法太复杂,单词太多记不住。不过,现在科技这么发达,有很多在线的中英文翻译工具,就像我们学外语的好帮手,帮我们轻松搞定语言问题,让我们在中文和英文之间自由切换。…

Grafana+Prometheus监控篇-Nginx

一、监控exporter安装 ①、下载地址 nginx-exporter 这里是Windows下监控,选择amd64. ②、nginx-exporter配置 打开nginx的配置文件nginx.conf,启用nginx的基本状态. server {listen 8088;location /status {stub_status;allow 127.0.0.1; deny all;}} ③…

乐维网管平台(四):配置化数据报表的应用

在网络管理中,报表功能是一项非常重要的功能,它通过统计与分析各种类型数据,为网络管理员决策提供数据支撑。 一、配置化数据报表概述 基于不同行业、不同客户、不同应用场景,乐维网管平台提供了配置化报表功能。配置化数据报表…

气动紧急切断阀技术规范

气动紧急切断阀作为一种重要的工业自动化控制装置,广泛应用于流体管道系统中,其主要功能是迅速切断或调节管道中的流体介质,以确保系统在紧急情况下的安全。本文将详细介绍气动紧急切断阀的技术规范,包括其结构特点、性能要求、应…

vscode makfile编译c程序

编译工具安装 为了在 Windows 上安装 GCC,您需要安装 MinGW-w64。 MinGW-w64 是一个开源项目,它为 Windows 系统提供了一个完整的 GCC 工具链,支持编译生成 32 位和 64 位的 Windows 应用程序。 1. 下载MinGW-w64源代码,如图点…

AI助手崛起:改变你生活的智能伴侣!

内容概要 在这个智能时代,AI助手如同隐形的超级英雄,默默地改变着我们的生活。它们并不是典型的“机器人”,而是我们生活中的得力助手,帮助我们优化时间、提供个性化建议、增加便利性。无论你是在寻找餐厅、安排日程,…

CNN-Attention分类预测 | Matlab实现多特征分类预测

CNN-Attention分类预测 | Matlab实现多特征分类预测 目录 CNN-Attention分类预测 | Matlab实现多特征分类预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现CNN-Attention卷积神经网络融合注意力机制多特征分类预测,运行环境Matlab2023b及以上…

博客系统(SpringBoot项目)

文章目录 一、项目开发的流程二、项目开发2.1 准备工作2.2 开发公共模块:把能写的先写了什么是公共模块model层mapper层定义统一返回结果统一异常处理 2.2 博客列表页2.3 更改显示的时间2.4 博客详情页2.5 登录Session式登录方法分析使用Token来实现登录 2.6 强制登…

普林斯顿微积分读本PDF(英文版原版)

普林斯顿微积分读本PDF英文版: https://caiyun.139.com/m/i?005Chb93yVHtQ 对于大多数学生来说,微积分或许是他们曾经上过的倍感迷茫且最受挫折的一门课程了. 而《普林斯顿微积分读本》 不仅让学生能有效地学习微积分,更重要的是提供了战胜微积分的必备…

OpenCV视觉分析之目标跟踪(8)目标跟踪函数CamShift()使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 找到物体的中心、大小和方向。 CamShift(Continuously Adaptive Mean Shift)是 OpenCV 中的一种目标跟踪算法&#xff0…

【开源免费】基于SpringBoot+Vue.J服装商城系统(JAVA毕业设计)

本文项目编号 T 046 ,文末自助获取源码 \color{red}{T046,文末自助获取源码} T046,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 新…

叉车智能管理系统,简化现场管理!

一、叉车智能管理系统概述 叉车智能管理系统是一种集成了现代物联网、大数据、云计算等先进技术的综合性管理平台。它通过对叉车运行状态的实时监控和数据分析,实现了对叉车作业的高效调度和智能化管理,极大地提升了企业的现场作业效率和管理水平。 二…