StarCloud开源行动:激发算力调度的创新潜力

01  于StarCloud

OpenCSG StarCloud 是一个集开源系统(Kubernetes ,K8S)与高性能计算(High Performance  Computing,HPC)一体的混合算力调度平台。它专注于大模型训练和推理,并提供一站式服务,包括从训练到部署,以及多模型比较等。除了在人工智能领域的应用,StarCloud 在工程设计与仿真、金融和风险管理、药物研发和医学研究等多个领域也展现出其卓越的性能。

随着大模型应用的发展及落地,GPU 算力资源变得日益紧张,StarCloud提供了多样化的异构计算算力服务,旨在满足大模型应用和高性能计算的需求,致力于构建一个普惠、易用的算力服务平台。StarCloud的资源调度平台有效缓解这一问题,通过精细化管理大模型的调度过程,从而提高资源的利用率。此外,企业可以利用StarCloud部署自己私有化的平台,实现定制化的资源管理和调度,以满足特定的业务需求。

02  StarCloud 功能介绍

StarCloud 是一个全面而高效的混合算力调度平台,它整合了多机多卡异构算力调度、异地多中心的统一调度,通过并行化计算加速大规模任务的处理。平台还能支持构建超大运算中心,调度数百万内核和数万GPU资源,同时提供了大模型微调的统一框架,以及多租户和私有化的支持,确保了调度的高效性和灵活性。

StarCloud功能覆盖了多个关键领域。接下来,本文将从用户模块、作业模块、资源模块、调度策略及其它这四个方面,为您详细解读 StarCloud 的核心功能:

用户模块

   1.多租户管理

  • 引入多租户管理功能,支持同时管理多个租户。

  • 通过强化数据与资源隔离,精准满足差异化租户需求。

   2. 用户角色

  • 允许定义和分配用户角色,优化访问控制和权限管理。

  • 为不同用户提供定制化的视图,并确保资源量与数据的独立性。

   3.用户和用户组设定

  • 提供了用户和用户组的设置功能,用户和用户组的管理更加便捷高效。

  • 确保系统用户的管理高效和准确。

   4.用户登录登出

  • 支持用户的登录和登出功能,确保系统的安全性和用户身份的验证。

作业模块

   1.作业状态查看

  • 允许实时监控提交作业的状态,包括进度和完成度。

  • 提供了对作业执行情况的全面监控,确保用户能够随时了解作业的进度和状态。

   2.作业详情和作业输出内容查看

  • 提供了对作业详细信息和输出内容的查看功能。

  • 深入了解作业的执行结果和输出。

   3.作业提交和相关参数配置

  • 提供了作业提交功能,同时还提供了相关参数的配置选项。

  • 灵活地配置作业的执行方式和参数。

资源模块​​​​​​

   

1.集群资源状态查看

  • 允许用户实时查看集群资源状态,包括资源的可用性和利用率。

  • 用户能够可视化管理资源,全面掌握集群资源的实时状况

   2.阿里云资源动态调度

  • 引入了阿里云资源的动态调度功能,能够更加灵活地管理和分配阿里云上的资源。

  • 满足不同作业的需求。

调度策略及其它

1.角色和队列关联

  • 提供角色和队列关联功能,将特定角色与特定队列相关联。

  • 简化作业的提交和管理流程。

   2.QoS创建和维护

  • 提供了QoS(服务质量)的创建和维护功能。

  • 满足不同作业的特定需求,确保作业按照预期的优先级和要求执行。

03  更多计划

未来,StarCloud 将持续优化和发展,增加更多实用的功能,进一步提升用户体验并满足不断变化的计算需求。这些功能可能包括但不限于:

  • StarCloud 一体式安装包

  • StarCloud K8S operator

  • StarCloud与 csghub整合, 允许用户选择模型微调

  • 支持更多微调框架例如 deepspeed, pytorch chepoint

  • 失败作业自动从检查点重启

StarCloud 开源地址:

https://github.com/OpenCSGs/llm-scheduler-ui 

https://github.com/OpenCSGs/llm-scheduler-api

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/628236.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

男士内裤哪个牌子质量好又舒服?五款不容错过的男士内裤

男士内裤,作为男士日常穿着的重要贴身衣物,其舒适度和透气性至关重要。尽管有些男士可能习惯长时间穿着同一条内裤,但为了确保健康和舒适,建议每3-6个月更换一次内裤。长时间不更换内裤会导致其舒适性和透气性下降,同时…

python数据分析——数据可视化(图形绘制基础)

数据可视化(图形绘制基础) 前言一、图形绘制基础Matplotlib简介使用过程sin函数示例 二、常用图形绘制折线图的绘制plot示例 散点图的绘制plot示例 柱状图的绘制bar示例 箱型图绘制plot.box示例 饼状图的绘制pie示例 三、图形绘制的组合情况多个折线图的…

基于PID控制的无人车侧向运动阿克曼转向控制仿真

写在前面,本文为研一下智能控制课程的课程作业报告,主要为基于无人车侧向运动模型的PID控制器设计,控制器设计比较简单,主要是对阿克曼转向模型进行搭建,PI参数调节部分的研究。设计内容分为两部分,分别是简…

Digimat在电池壳体SMC复合材料成型工艺中的应用

SMC工艺介绍及挑战 SMC(Sheet Molding Compound的缩写,即片状模塑料)是一种复合材料制造工艺。该工艺可以有效地代替金属,实现车辆轻量化目标。该工艺不仅能够显著降低车身重量,而且设计灵活,操作简单、易…

市场领先者MySQL的挑战者:PostgreSQL的崛起

最新的DB-Engines的排名,可以看到有个DB的上升趋势非常的猛,那就是PostgreSQL。今天我们就来看看这个数据库。 “The worlds most advanced Open Source Database” 这简介比较霸气:世界上最先进的开源数据库 发展史 PostgreSQL&#xff0c…

【Linux】进程间通信(一)---- 匿名管道

【Linux】进程间通信(一)---- 匿名管道 一.序1什么是进程间通信2.进程间通信的标准3.为什么需要进程通信 二.匿名管道1.原理2.使用3.四种情况4.五个特点 一.序 1什么是进程间通信 进程间通信 通信我们大致知道是啥,就是互相传递信息 那进程…

MySQL 8.4参考手册

5.1 连接到服务器和断开服务器连接 host 和 user 表示主机名,其中 MySQL服务器正在运行,并且您的MySQL帐户的用户名。 为您的设置替换适当的值。代表您的密码;输入它 当 MySQL 显示提示时。********Enter password: 5.2 输入查询 mysql> SELECT VERSI…

哪些软件格式在win跟linux上都能运行?

在开始前我有一些资料,是我根据网友给的问题精心整理了一份「linux的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!! 有一些软件格式在Windows和Li…

什么是Google SEO优化,如何做好谷歌seo排名?2024年谷歌搜索引擎优化(谷歌SEO)3分钟速通教程指南

1 - 什么是SEO? 谷歌排名优化(SEO:Search Engine Optimization)是指当您在谷歌搜索那里输入一个您正在推广的产品或服务的关键词时,如何在使您的站在Google里获得一个较高的排名位置而做的优化过程。谷歌排名优化的意…

第二证券资讯:多模态AI应用提速 机构扎堆调研相关个股

当地时间5月13日,OpenAI发布一款名为GPT-4o的新旗舰生成式AI模型,并计划在接下来的几周内“迭代”推出到公司产品中。 据介绍,GPT-4o的文本、推理、编码才能到达GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍&#xff…

短视频世上无人再似她:成都鼎茂宏升文化传媒公司

短视频世上无人再似她 —— 记忆中的光影传奇 在短视频盛行的今天,每一位创作者都在用镜头捕捉生活,记录世界,但有那么一位艺术家,她的作品如同夜空中最亮的星,即便是在信息洪流中,也依然闪耀着独一无二的…

javaSE:类和对象

面向对象 java是一种面向对象的编程语言,面向对象就是把能为我们所用的东西直接拿来使用,省去中间过程,比如洗衣服,要完成这一个动作,我们本来需要一个盆,放水,放衣服,换水&#xf…

使用 cloudflare 免费服务,搭建临时邮箱,无需暴露自己的真实邮箱地址,保护个人隐私

使用 cloudflare 免费服务,搭建临时邮箱 地址 在线演示 🌐Github地址 https://github.com/find-xposed-magisk/cloudflare_temp_email 功能/TODO Cloudflare D1 作为数据库 使用 Cloudflare Pages 部署前端 使用 Cloudflare Workers 部署后端 email 转…

一文讲懂“预测滞后性”:详细解析

当我们谈论预测时,经常会遇到一个现象叫做“预测滞后性”。简单来说,预测滞后性指的是预测结果往往落后于实际发生的事件。这可能是由于数据收集、模型训练、预测算法的时间延迟,或者是由于预测模型本身的特性导致的。 目录 一、预测滞后性的…

Google I/O 2024:有关AI的一切已公布|TodayAI

2024年谷歌I/O大会圆满落幕,谷歌在会上发布了一系列更新,涵盖从最新的人工智能技术到Android系统的多项改进。此次大会特别关注于谷歌的Gemini人工智能模型,并详细介绍了这些模型如何被融入到Workspace、Chrome等多个应用程序中,展…

IT行业现状与未来趋势分析

IT行业现状与未来趋势显示出持续的活力和变革,以下是上大学网(www.sdaxue.com)关于IT行业现状与未来趋势分析,供大家参考。 当前现状: 市场需求持续增长:随着信息时代的深入发展,各行各业对信息…

汽车电子笔记之-012:旋变工作原理及软解码硬解码

目录 1、旋变 1.1、激励的产生 1.2、旋变的标定 2、旋变解码 2.1、旋变硬解码 2.2、软解码 1、旋变 旋转变压器(旋变),是电机控制中常用的一种位置传感器,用来反应电机的转子位置,提供给软件做电机控制等相关算法…

Nginx+Keepalived高可用集群

NginxKeepalived高可用集群 服务器准备 服务器名IP软件包主从n1RIP 192.168.99.111 VIP 192.168.99.200nginx keepaliveMASTERn2RIP192.168.99.122 VIP 192.168.99.200nginx keepalivedh1RIP 192.168.99.133 VIP 192.168.99.200httpdh2RIP 192.168.32.144 VIP 192.168.99.200h…

三.Ubuntu安装MySql数据库

三.Ubuntu安装MySql数据库 1.首先进入Console,登录Ubuntu系统后,更新源,命令:apt update,如图所示。 安装MySQL命令:apt install mysql-server 执行期间按回车,进行下一步,执行过程如图所示: 选择yes或no,此步选择yes 安装完成。 2.提高MySQL安全性,该命令…

2024-简单点-MediaCrawler解构

MediaCrawler var.pyrecv_sms.pyasync_db.pydb.pymain.pybase/base_crawler.pyconfig/baseconfig.pyconfig/db_config.py有待更新 var.py from asyncio.tasks import Task from contextvars import ContextVar from typing import Listimport aiomysqlfrom async_db import As…