高性能计算资源管理解决方案
2021-09-17
各种规模用户的应用功能和数据量持续大幅增长,进而推动了对更多计算功能和高性能管理和分析工具的需要。即使在传统的高性能计算 (HPC) 环境中,多个计算孤岛、处理能力不均匀、设计周期泄漏和结果延迟均很常见。
面临越来越严峻的经济压力,用户正在寻找更好的方法来提高 IT 性能,降低基础架构成本和费用,并满足更快达成解决方案、更快投入市场的需要。要在这个环境中取得成功,用户需要集中技术计算管理解决方案和软件来帮助创建、集成和管理共享的分布式计算环境,从而提高应用性能,改善基础架构灵活性并缩短获取计算结果的时间。
如何解决下列问题,成为现在用户共同关心的话题:
硬件和软件资源分散在各处,关键时刻又不够用,无法实现资源的共享使用
仿真计算作业提交不方便
远程登录使用,应用门槛较高,网络带宽消耗较大
人为管理作业排队,效率低下
对软件license的使用无法量化分析
对资源利用没有客观统计数据
如何解决带图形交互应用的集中管理和使用
如何实现远程交互设计,降低本地硬件资源的投资成本
如何管理自编应用程序
如何管理和调度GPU资源
系统特点
• 硬件级的管理
作业调度和管理
串、并行应用计算环境的统一设置和相关应用软件的运行管理
实时监控集群状态及资源使用情况 仿真数据的集中管理及维护
仿真计算、计算结果后处理、可视化设计资源统一管理和维护
远程可视化设计资源的集中管理
• 软件级的管理
仿真过程中的软件许可证调度、管理
各类应用软件许可证使用集中监控
统计分析许可证的利用率情况
• 系统管理及维护
简化系统管理
降低人为错误带来的损失
增加资源管理的可控性
计算资源的使用审计管理
系统组成
高级的基于策略驱动的调度 – IBM LSF (Load Sharing Facility)
绿色自动CPU睡眠调度、智能网络拓扑调度、高级动态优先级调度
支持GPU和Xeon Phi调度
友好的用户集群访问入口 – IBM Application Center
支持远程GPU虚拟化、远程批处理CAE应用提交
批量多工况作业提交、分级的用户角色和权限控制
丰富的集群资源使用统计报表、所见即所得的应用程序提交页面配置
商业软件许可证优化调度– IBM License Scheduler
优化昂贵商业许可证使用效率
按策略调度商业许可证使用分布
集群实时监控 – IBM RTM(Report Track Monitor)
资源的实时负载监控、作业,队列,用户资源使用的实时汇报
应用程序许可证实时监控和汇报、应用程序运行特征分析
历史资源使用分析、非高性能计算服务器的负载健康监控
自动化工作流设计和管理 – IBM Process Manager
颠覆重复性工作流程、自动化管理计算任务处理流程
提高计算效率和简化多任务协同
并行文件系统 – IBM GPFS (General Parallel File System)
高性能、高可靠、易于管理
文件读写访问同时进行、数据条带化
无单一节点故障、全局单一命名空间
适用于:数据库应用,WEB应用,高性能应用,可扩展的高可用数据环境
系统架构
它提供了一个综合、强大的技术计算集群工作负载/资源管理平台。它的核心是一个非常强大的作业调度程序,且该程序已经经过了时间的考验,同时IBM LSF 中还有一些增值型组件。二十多年来,许多垂直行业都部署了这款行业领先的解决方案,以支持分布式计算系统中的各种工作负载。它以应用为中心的用户门户、计算工作流自动化、经过优化的软件许可、高吞吐量的资源调度程序、智能数据分级、操作仪表盘,以及商务智能与容量规划。