IBM Spectrum LSF (“LSF“ ,简称为负载共享设施) 用户案例

IBM Spectrum LSF (“LSF” ,简称为负载共享设施) 用户案例

IBM Spectrum LSF (“LSF” ,简称为负载共享设施) 软件是业界领先的企业级软件。 LSF 在现有异构 IT 资源之间分配工作,以创建共享,可扩展且容错的基础架构,从而提供更快,更可靠的工作负载性能并降低成本。 LSF 均衡负载和分配资源,并提供对这些资源的访问权。

LSF 提供了一个资源管理框架,用于满足您的作业需求,查找运行该作业的最佳资源,并监视其进度。 作业始终根据主机装入和站点策略运行。

IBM Spectrum LSF 被世界上30家最大的商业企业中的23家使用,包括众多基因组学、生物信息学、儿童医院、医药系统。

1、国内某制造企业使用 LSF 搭建高性能计算平台

挑战

  • HPC 场景复杂,机器资源利用率不高
  • 数据存储分散,有安全隐患
  • 商业许可证使用率不高,导致资源浪费。
  • 作业环境可靠性不高,导致作业出错或者突然停机等导致大量作业失效,浪费时间。

方案

  • 利用 Spectrum LSF 提高复杂计算环境的性能,依据业务优先级和策略,智能地为工作负载分配计算资源。
  • 同时结合 IBM Spectrum Scale 来提供高数据可用性,可靠性和安全性。
  • 使用License Scheduler 来调度商业许可证。
  • Spectrum RTM提供集群计算节点和作业实时监控和报警功能

结果

  • 此龙头企业借助LSF,在相同的硬件上,性能提高了10倍,开发周期缩短3~4倍。
  • 将作业运行在Spectrum Scale,数据高可靠性大大力高,消除了计划外停机时间。
  • 将许可证利用率从70%提高到几乎100%,显著节约成本
  • 提高对HPC集群的资源利用率,并确保高优先级任务快速完成。

2、Spectrum LSF 为跨国半导体公司每年节省了100 万美元的 TCO

全球重组项目背景

  • 由于并购和公司重组,客户的申请许可证和机器资源被孤立,导致下面问题:
    1) 机器和许可证资源利用率不足;
    2) 缺乏异地资源统一管理
    3)由于采购重复,业务费用飞涨。
  • 独立的工程团队只能访问他们自己的应用软件和集群
  • 超过10个集群需要作业调度和许可证权限,这些集群属于不同的业务单位和地域(美国、意大利、印度、日本、新加坡、中国上海)
  • 缺乏多集群的作业管理和监控能力

方案

  • LSF MultiCluster
  • LSF License Scheduler
  • LSF RTM

结果

  • 最小的开销实现LSF高性能作业调度
  • 缓解资源紧张问题,促进良好的资源共享机制
  • 根据业务优先级,仲裁Spectrum LSF集群、业务单元、项目和功能之间的license共享
  • 确保为关键项目和集群分配 license
  • 统一门户对多集群管理和监控,提高管理员的掌控能力

在这里插入图片描述

3、国内某工业仿真系统使用LSF做动态资源扩展

挑战

  • 国内某工业企业需要搭建复杂的仿真系统,已经采用了第三方的仿真软件。
  • 仿真作业的周期太长,最长可以达到三个月左右,而且作业容易出错,很难恢复。
  • 使用较为复杂,想通过前台的界面来提交作业。
  • 资源不够用的情况下,可以扩展到云端。

方案

  • 此研究机构采用了LSF来调度作业,工作效率大幅提升,原来需要三个月的作业,在数天之内就可以完成。
  • 使用LSF checkpoint之后,如果作业出问题,只需要从checkpoint去运行,无需从头开始,大大的节省了时间。
  • Application Center极大提高易用性,方便研发人员使用,极大提高工作效率
  • 使用License Scheduler来调度商业许可证。

结果

  • 部署IBM Spectrum LSF系列解决方案帮助此电子研究机构大幅提高了工作效率。
  • 借助于LSF,研究成果也大幅的提升,论文数量翻倍。
  • 使用人员借助于Application Center可以很好的完成了作业的提交、运行和监控。
  • 当作业量激增的情况下,LSF有效的将部分作业分发到了公有云端运行,大大提高了效率。
  • 云端资源共享的同时,采用许可证调度,使得许可证使用率从原有的40%提高到85%。

4、国内某超级计算中心使用LSF做作业调度

挑战

  • 集群规模庞大(2000个计算节点,2.5万个核)
  • 应用复杂(40多种商业软件,100多种科学计算程序)
  • 商业软件许可证管理
  • 资源租赁、计费

方案

  • Spectrum LSF统一管理集群所有软硬件资源和不同类型作业调度
  • Spectrum License Scheduler统一管理商业许可证分配和调度
  • Spectrum PAC提供一个易于使用且无缝的Web门户,用于可视化提交和管理工作负载
  • Spectrum RTM提供集群计算节点和作业实时监控和报警功能
  • Spectrum PA提供集群运行数据的报表、分析和挖掘功能

结果

  • 有效解决了多领域、复杂、大规模作业统一调度和管理
  • 作业运行效率提升20%-50%,运行时间大大缩短,每天作业吞吐量超过1000
  • 总体硬件资源利用率超过90%
  • 全面解决方案,易于监控和管理
  • 目前中国商业化运行最成功的超算中心

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/55503.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

纯css实现九宫格图片

本篇文章所分享的内容主要涉及到结构伪类选择器&#xff0c;不熟悉的小伙伴可以了解一下&#xff0c;在常用的css选择器中我也有分享相关内容。 话不多说&#xff0c;接下来我们直接上代码&#xff1a; <!DOCTYPE html> <html lang"en"><head>&l…

如何在烟草行业运用IPD?

从当前的世界烟草行业来看&#xff0c;烟草经济的发展十分迅速&#xff0c;中国是烟草生产与消费第一大国&#xff0c;每年由我国生产与出售的烟草远销世界各地。与此同时&#xff0c;中国烟草行业的集中度越来越高&#xff0c;企业的数量与规模稳步上升&#xff0c;行业迈向规…

【iOS】通知原理

我们可以通过看通知的实现机制来了解通知中心是怎么实现对观察者的引用的。由于苹果对Foundation源码是不开源的&#xff0c;我们具体就参考一下GNUStep的源码实现。GNUStep的源码地址为&#xff1a;GNUStep源码GitHub下载地址, 具体源码可以进行查看。 通知的主要流程 通知全…

简单工厂模式(Simple Factory)

简单工厂模式&#xff0c;又称为静态工厂方法(Static Factory Method)模式。在简单工厂模式中&#xff0c;可以根据参数的不同返回不同类的实例。简单工厂模式专门定义一个类来负责创建其他类的实例&#xff0c;被创建的实例通常都具有共同的父类。简单工厂模式不属于GoF的23个…

瑞吉外卖项目----(2)缓存优化

1 缓存优化 1.0 问题说明 1.1 环境搭建 将项目推送到远程仓库里&#xff0c;教程在git 提交远程仓库前建议取消代码检查 创建新的分支v1.0&#xff08;用于实现缓存优化&#xff09;并推送到远程仓库 1.1.1 maven坐标 导入spring-data-redis的maven坐标&#xff1a; &l…

Notepad++工具通过正则表达式批量替换内容

1.每行末尾新增特定字符串 CtrlH弹出小窗口&#xff1b;查找目标输入$&#xff0c;替换为输入特定字符串&#xff1b;选中循环查找&#xff0c;查找模式选正则表达式&#xff1b;最后点击全部替换 2.每行行首新增特定字符串 CtrlH弹出小窗口&#xff1b;查找目标输入^&…

【MybBatis高级篇】MyBatis 拦截器

【MybBatis高级篇】MyBatis 拦截器 拦截器介绍实现拦截器注册拦截器应用ymlDynamicSqlDao 层代码xml启动类拦截器核心代码代码测试 拦截器应用场景 MyBatis 是一个流行的 Java 持久层框架&#xff0c;它提供了灵活的 SQL 映射和执行功能。有时候我们可能需要在运行时动态地修改…

FPGA2-采集OV5640乒乓缓存后经USB3.0发送到上位机显示

1.场景 基于特权A7系列开发板&#xff0c;采用OV5640摄像头实时采集图像数据&#xff0c;并将其经过USB3.0传输到上位机显示。这是验证数据流能力的很好的项目。其中&#xff0c;用到的软件版本&#xff0c;如下表所示&#xff0c;基本的硬件情况如下。该项目对应FPGA工程源码…

机器学习-特征选择:如何使用Lassco回归精确选择最佳特征?

一、引言 特征选择在机器学习领域中扮演着至关重要的角色&#xff0c;它能够从原始数据中选择最具信息量的特征&#xff0c;提高模型性能、减少过拟合&#xff0c;并加快模型训练和预测的速度。在大规模数据集和高维数据中&#xff0c;特征选择尤为重要&#xff0c;因为不必要的…

windows基础命令

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 前言 一.目录和文件的操作 1.cd 命令 切换到d盘 2.目录分为相对路径和绝对路径 3. dir命令 用于显示目录和文件列表 4. md 或 mkdir 创建目录 5. rd 用于删…

LeetCode·每日一题·822. 翻转卡片游戏·哈希

作者&#xff1a;小迅 链接&#xff1a;https://leetcode.cn/problems/card-flipping-game/solutions/2368969/ha-xi-zhu-shi-chao-ji-xiang-xi-by-xun-ge-7ivj/ 来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 著作权归作者所有。商业转载请联系作者获得授权&#xff…

ChatGPT | 分割Word文字及表格,优化文本分析

知识库读取Word内容时&#xff0c;由于embedding切片操作&#xff0c;可能会出现表格被分割成多个切片的情况。这种切片方式可能导致“列名栏”和“内容栏”之间的Y轴关系链断裂&#xff0c;从而无法准确地确定每一列的数据对应关系&#xff0c;从而使得无法准确知道每一列的数…

RabbitMQ 教程 | 第2章 RabbitMQ 入门

&#x1f468;&#x1f3fb;‍&#x1f4bb; 热爱摄影的程序员 &#x1f468;&#x1f3fb;‍&#x1f3a8; 喜欢编码的设计师 &#x1f9d5;&#x1f3fb; 擅长设计的剪辑师 &#x1f9d1;&#x1f3fb;‍&#x1f3eb; 一位高冷无情的编码爱好者 大家好&#xff0c;我是 DevO…

02 笔记本电脑m.2硬盘更换

1 工具展示 SN570的2T硬盘。够用了。 对于这台华为&#xff0c;使用的螺丝刀批头是4或5毫米的六边形批头。如果出现打滑的情况&#xff0c;请不要用蛮力哦。 2 更换过程 使用螺丝刀拧走后盖的螺丝&#xff08;为了避免会出问题要再次打开&#xff0c;我到现在还没有把螺丝拧回…

每日一题8.2 2536

2536. 子矩阵元素加 1 给你一个正整数 n &#xff0c;表示最初有一个 n x n 、下标从 0 开始的整数矩阵 mat &#xff0c;矩阵中填满了 0 。 另给你一个二维整数数组 query 。针对每个查询 query[i] [row1i, col1i, row2i, col2i] &#xff0c;请你执行下述操作&#xff1a;…

minio-分布式文件存储系统

minio-分布式文件存储系统 minio的简介 MinIO基于Apache License v2.0开源协议的对象存储服务&#xff0c;可以做为云存储的解决方案用来保存海量的图片&#xff0c;视频&#xff0c;文档。由于采用Golang实现&#xff0c;服务端可以工作在Windows,Linux, OS X和FreeBSD上。配置…

Stable Diffusion 硬核生存指南:WebUI 中的 CodeFormer

本篇文章聊聊 Stable Diffusion WebUI 中的核心组件&#xff0c;强壮的人脸图像面部画面修复模型 CodeFormer 相关的事情。 写在前面 在 Stable Diffusion WebUI 项目中&#xff0c;源码 modules 目录中&#xff0c;有一个有趣的目录叫做 CodeFormer&#xff0c;它就是本文的…

P3855 [TJOI2008] Binary Land(BFS)(内附封面)

[TJOI2008] Binary Land 题目背景 Binary Land是一款任天堂红白机上的经典游戏&#xff0c;讲述的是两只相爱的企鹅Gurin和Malon的故事。两只企鹅在一个封闭的迷宫中&#xff0c;你可以控制他们向上下左右四个方向移动。但是他们的移动有一个奇怪的规则&#xff0c;即如果你按…

【点云处理教程】00计算机视觉的Open3D简介

一、说明 Open3D 是一个开源库&#xff0c;使开发人员能够处理 3D 数据。它提供了一组用于 3D 数据处理、可视化和机器学习任务的工具。该库支持各种数据格式&#xff0c;例如 .ply、.obj、.stl 和 .xyz&#xff0c;并允许用户创建自定义数据结构并在程序中访问它们。 Open3D 广…

Python——调用webdriver.Chrome() 报错

今天运行脚本&#xff0c;报错内容如下&#xff1a; collecting ... login_case.py:None (login_case.py) login_case.py:11: in <module> dr webdriver.Chrome() D:\Program Files (x86)\Python\Python39\Lib\site-packages\selenium\webdriver\chrome\webdriver.p…