高性能计算(HPC)领域推动了全球许多重大科学进步。作为最值得信赖的企业 Linux 平台之一,红帽企业 Linux(RHEL) 是许多 HPC 工作负载的基础,服务于汽车、金融服务、生物医学、能源等行业。
与此同时,公共云在更广泛的计算市场中继续受到关注,提供了巨大的灵活性和动态基础架构。HPC 领域也出现了这种趋势,企业希望利用同样的灵活性和额外的计算能力,按需扩展 HPC 集群,从而缩短产品开发或研究周期。
因此,我们很高兴推出一项新产品: Azure 上用于 HPC 的 RHEL。我们与微软密切合作,以确定技术要求,以加快我们共同客户的部署时间。借助用于 Azure 上 HPC 的 RHEL,您可以实现自动化,在 Azure 基础架构上安装加速 HPC 计算环境所需的工具和库。
RHEL HPC 系统角色简介
适用于 Azure 的 RHEL HPC 9.6 云产品基于 RHEL 系统角色。
RHEL HPC 系统角色是红帽 Ansible 自动化平台角色,专为简化 HPC 环境的部署和配置而设计。此系统角色会安装客户必须手动集成的必要第三方组件,如 NVIDIA CUDA 驱动程序、CUDA 工具包、NVIDIA 集体通信库(NCCL)、NVIDIA Fabric Manager、NVIDIA RDMA 软件包以及 Open MPI。此系统角色是模块化的,允许用户有选择地安装或跳过特定的软件包,并提供配置存储卷等功能,以确保为 Azure 上的这些大型安装分配足够的磁盘空间。
您现在可以选择 Azure 市场中列出的 RHEL HPC 镜像。启动虚拟机(VM)实例后,您只需执行几个基本命令即可运行 RHEL HPC 系统角色(已安装在镜像上)。系统角色下载了所有相关的 HPC 软件包后,您可以将此镜像保存为黄金镜像,并基于此镜像创建多个 HPC 实例。
RHEL HPC 系统角色使红帽能够在未来 12 个月内持续发布 HPC 软件包(快速路径),同时避免需要与 RHEL 6 个月的发布节奏完全保持一致(慢速路径)。 随着红帽产品的扩展,您可以选择同时使用 RHEL 版本(RHEL9.8、RHEL9.9、RHEL10.2 等)或最新版本的 RHEL HPC 系统角色。
我们提供什么?
RHEL HPC MVP 的目标是生成可通过 Azure CycleCloud(微软用于创建和管理端到端 HPC 集群的平台)部署的 Azure 优化镜像实例。HPC 客户通常会利用 CycleCloud,CycleCloud 本身就可以处理复杂的集群管理和置备任务。
红帽即将在 Azure 市场推出精简版 RHEL HPC 产品,该产品以通过 Ansible 提供的新开发 RHEL HPC 系统角色为中心,面向 RHEL 9.6 镜像。该产品可显着增强 RHEL 镜像上 HPC 环境的部署体验
此系统角色旨在集成现代 HPC 工作负载所必需的多个核心依赖项:
- NVIDIA CUDA 驱动程序:安装必要的专有内核模块和驱动程序,以启用 NVIDIA GPU 进行计算。
- NVIDIA CUDA 工具包:包含编写使用 CUDA 基础架构的应用所需的开发环境。
- NVIDIA Collective Communications Library (NCCL):针对 GPU 间通信优化的原语。此库对于多 GPU 场景至关重要,包含在 NVIDIA 存储库中。
- NVIDIA Fabric Manager:此软件包与 InfiniBand 和网络实用程序相关,尤其是支持 NVSwitch 等功能,这些功能对于 GPU 之间的高速互连至关重要。
- 开放式 MPI(消息传递接口):分布式 HPC 作业的基本标准,支持集群中节点之间的通信。
有关如何部署此解决方案的更多信息,请参阅 RHEL Azure HPC 系统角色文档。
我们的目标
这个初始版本 MVP 是迈向完整产品的第一步,提供在 Azure 上运行 HPC 工作负载所需的更多工具、库和配置。在接下来的几个月中,我们将发布包含更多关键 HPC 内容的更新,并由红帽专家进行测试和验证。购买 MVP 的客户将有权访问此产品的这些更新和扩展功能。
立即释放您的云 HPC 潜能
长期以来,红帽一直是 HPC 领域值得信赖的合作伙伴,助力科学发现和产品开发。我们很高兴能成为客户将 HPC 扩展到云的值得信赖的合作伙伴。借助用于 Azure 上 HPC 的 RHEL,客户能够以前所未有的速度将 HPC 集群部署到 Azure 基础架构上。
此产品可在 Azure 市场中找到,名称为 Azure 上用于高性能计算(HPC)的红帽企业 Linux(RHEL)。立即试用,加速您的 HPC 部署。
关于作者
James Huang is a Senior Product Manager for Red Hat Enterprise Linux, where he focuses on AI and High Performance Computing.