IBM Spectrum LSF (“LSF” ,简称为负载共享设施) 用户案例
IBM Spectrum LSF (“LSF” ,简称为负载共享设施) 软件是业界领先的企业级软件。 LSF 在现有异构 IT 资源之间分配工作,以创建共享,可扩展且容错的基础架构,从而提供更快,更可靠的工作负载性能并降低成本。 LSF 均衡负载和分配资源,并提供对这些资源的访问权。
LSF 提供了一个资源管理框架,用于满足您的作业需求,查找运行该作业的最佳资源,并监视其进度。 作业始终根据主机装入和站点策略运行。
IBM Spectrum LSF 被世界上30家最大的商业企业中的23家使用,包括众多基因组学、生物信息学、儿童医院、医药系统。
1、国内某制造企业使用 LSF 搭建高性能计算平台
挑战
- HPC 场景复杂,机器资源利用率不高
- 数据存储分散,有安全隐患
- 商业许可证使用率不高,导致资源浪费。
- 作业环境可靠性不高,导致作业出错或者突然停机等导致大量作业失效,浪费时间。
方案
- 利用 Spectrum LSF 提高复杂计算环境的性能,依据业务优先级和策略,智能地为工作负载分配计算资源。
- 同时结合 IBM Spectrum Scale 来提供高数据可用性,可靠性和安全性。
- 使用License Scheduler 来调度商业许可证。
- Spectrum RTM提供集群计算节点和作业实时监控和报警功能
结果
- 此龙头企业借助LSF,在相同的硬件上,性能提高了10倍,开发周期缩短3~4倍。
- 将作业运行在Spectrum Scale,数据高可靠性大大力高,消除了计划外停机时间。
- 将许可证利用率从70%提高到几乎100%,显著节约成本
- 提高对HPC集群的资源利用率,并确保高优先级任务快速完成。
2、Spectrum LSF 为跨国半导体公司每年节省了100 万美元的 TCO
全球重组项目背景
- 由于并购和公司重组,客户的申请许可证和机器资源被孤立,导致下面问题:
1) 机器和许可证资源利用率不足;
2) 缺乏异地资源统一管理
3)由于采购重复,业务费用飞涨。 - 独立的工程团队只能访问他们自己的应用软件和集群
- 超过10个集群需要作业调度和许可证权限,这些集群属于不同的业务单位和地域(美国、意大利、印度、日本、新加坡、中国上海)
- 缺乏多集群的作业管理和监控能力
方案
- LSF MultiCluster
- LSF License Scheduler
- LSF RTM
结果
- 最小的开销实现LSF高性能作业调度
- 缓解资源紧张问题,促进良好的资源共享机制
- 根据业务优先级,仲裁Spectrum LSF集群、业务单元、项目和功能之间的license共享
- 确保为关键项目和集群分配 license
- 统一门户对多集群管理和监控,提高管理员的掌控能力
3、国内某工业仿真系统使用LSF做动态资源扩展
挑战
- 国内某工业企业需要搭建复杂的仿真系统,已经采用了第三方的仿真软件。
- 仿真作业的周期太长,最长可以达到三个月左右,而且作业容易出错,很难恢复。
- 使用较为复杂,想通过前台的界面来提交作业。
- 资源不够用的情况下,可以扩展到云端。
方案
- 此研究机构采用了LSF来调度作业,工作效率大幅提升,原来需要三个月的作业,在数天之内就可以完成。
- 使用LSF checkpoint之后,如果作业出问题,只需要从checkpoint去运行,无需从头开始,大大的节省了时间。
- Application Center极大提高易用性,方便研发人员使用,极大提高工作效率
- 使用License Scheduler来调度商业许可证。
结果
- 部署IBM Spectrum LSF系列解决方案帮助此电子研究机构大幅提高了工作效率。
- 借助于LSF,研究成果也大幅的提升,论文数量翻倍。
- 使用人员借助于Application Center可以很好的完成了作业的提交、运行和监控。
- 当作业量激增的情况下,LSF有效的将部分作业分发到了公有云端运行,大大提高了效率。
- 云端资源共享的同时,采用许可证调度,使得许可证使用率从原有的40%提高到85%。
4、国内某超级计算中心使用LSF做作业调度
挑战
- 集群规模庞大(2000个计算节点,2.5万个核)
- 应用复杂(40多种商业软件,100多种科学计算程序)
- 商业软件许可证管理
- 资源租赁、计费
方案
- Spectrum LSF统一管理集群所有软硬件资源和不同类型作业调度
- Spectrum License Scheduler统一管理商业许可证分配和调度
- Spectrum PAC提供一个易于使用且无缝的Web门户,用于可视化提交和管理工作负载
- Spectrum RTM提供集群计算节点和作业实时监控和报警功能
- Spectrum PA提供集群运行数据的报表、分析和挖掘功能
结果
- 有效解决了多领域、复杂、大规模作业统一调度和管理
- 作业运行效率提升20%-50%,运行时间大大缩短,每天作业吞吐量超过1000
- 总体硬件资源利用率超过90%
- 全面解决方案,易于监控和管理
- 目前中国商业化运行最成功的超算中心