许多现有和流行的工作负载正在融入 AI 并得到增强,未来可能会出现新一波的 AI 应用。这使得 AI 加速器变得越来越重要,包括图形处理单元(GPU)以及自定义训练和推理引擎。从独立 GPU 到在芯片上与传统 CPU 集成的 AI 加速,显然需要专门的加速硬件来提供开发和部署未来工作负载所需的性能。

因此,我们宣布在红帽企业 Linux(RHEL)上提供简化的全新 AI 加速器驱动程序体验。 无论您是构建下一个突破性 AI 应用的开发人员,还是置备服务器以部署 AI 工作负载的 IT 系统管理员,RHEL 都能提供无缝体验,以加速系统的启动和运行。您现在可以从红帽存储库获取 NVIDIA 和 AMD 的 AI 加速器驱动程序,这些驱动程序由红帽使用安全软件供应链实践和安全启动技术构建和签名。只需一个命令,即可安装最新的可用加速器驱动程序。

GPU 驱动程序管理的挑战以及我们的解决方案

一直以来,在企业级 Linux 发行版上安装和维护 GPU 加速器驱动程序都面临着一系列独特的挑战。用户经常面临以下障碍:

  • 驱动程序兼容性:确保特定内核和硬件的驱动程序版本正确。
  • 安全性和信任:通过支持安全启动来验证第三方驱动程序的真实性和完整性。
  • 维护开销:手动更新驱动程序以及管理与系统更新的潜在冲突。

红帽的这款新产品可以直面这些挑战。通过红帽存储库提供 AMD、英特尔和 NVIDIA 驱动程序,我们正在简化 RHEL 上 AI 工作负载的部署和管理,让您更有信心和控制力。

我们的新体验包括:

  • NVIDIA 和 AMD AI 加速器内核和用户模式驱动程序,由红帽构建和签名(如适用),并打包在红帽存储库中。
  • 用于无缝安装最新 NVIDIA 和 AMD 数据中心 AI 加速器驱动程序的脚本。
  • AMD 和英特尔内核模式驱动程序与上游 Linux 内核集成。
 

内核模式驱动程序

用户模式驱动程序

NVIDIA

RHEL 扩展存储库

CUDA 工具包:补充存储库

AMD

BaseOS、RHEL 扩展存储库

ROCm:RHEL 扩展存储库

英特尔

BaseOS

不适用

为什么这对您的 AI 计划至关重要

这项新功能为利用 AI 加速器的 RHEL 用户带来了几项关键优势:

  • 缩短价值实现时间:通过减少驱动程序安装和管理方面的摩擦,您的团队可以将更多时间花在构建和部署对业务至关重要的任务关键型 AI 工作负载上,并减少让工作正常运行所需的时间。
  • 增强安全性和信任度:所有驱动程序均由红帽构建和签名,可提高供应链安全性并与机密计算集成。您可以更加放心地进行部署,因为您知道驱动程序是真实的,没有被篡改过。
  • 简化访问:获取运行 AI 加速器硬件所需的所有驱动程序,这些驱动程序通过红帽生态系统(扩展和补充存储库)提供,并使用 dnf 命令与您现有的 RHEL 更新工作流无缝集成。
  • 通过合作伙伴验证增强兼容性信心:驱动程序经过我们的合作伙伴测试和验证,确保了稳定性以及与 RHEL 内核的兼容性。这降低了系统不稳定的风险,并提高了 AI 基础架构的整体可靠性。

使用 rhel-drivers 轻松安装

新的 rhel-drivers 命令会自动检测系统中存在的数据中心级 AI 加速器硬件,然后根据您的 Linux 内核版本自动安装最新的可用内核模式驱动程序。这款功能强大的工具让您不必费心筛选文档或产品兼容性页面,而是提供最新的加速器创新,让您能够充分利用所需的 AI 工具。

合作伙伴验证:在 RHEL 上运行 AI 加速器的信心

红帽与 AMD、英特尔和英伟达有着悠久的合作历史,为我们共同的客户提供企业解决方案。我们的合作伙伴对 RHEL 进行了有意义的测试,以确保其兼容性、性能和稳定性。

RHEL 扩展存储库和补充存储库

当今的软件生态系统具有多种开发模式和许可。我们知道,现代 IT 环境依赖于各种软件和工具来提供所需的业务价值。因此,我们为客户提供多个存储库的访问权限,以应对这个多样化的生态系统。

AI 加速器生态系统同样依赖于开源和专有内容的混合。借助 RHEL 扩展和补充存储库,您可以从红帽生态系统内获得运行 AI 加速器所需的一切。

RHEL 扩展存储库

RHEL 扩展存储库旨在分发由红帽构建和签署的第三方开源内容,以增强对安全供应链的信心。

红帽补充存储库

红帽补充存储库存放由红帽构建和签署的第三方专有内容。

机密计算

由红帽构建和签署的驱动程序支持机密计算,这对于安全的多租户云部署至关重要。

开始使用

以下分步指南可帮助您开始在 RHEL 上使用这些新驱动程序。

前提条件

  • 红帽企业 Linux 10.1:确保您的系统运行的是 RHEL 10.1 或更高版本。
  • 有效的红帽订阅:您需要一个有效的订阅,以提供对红帽扩展和补充存储库的访问权限。
  • 兼容的 NVIDIA 或 AMD AI 加速器:确保您的系统安装了兼容的 GPU。对于 AMD,请参阅系统要求 (Linux) — ROCm 安装 (Linux),对于 Instinct GPU,请遵循此系统优化建议中的 BIOS 设置和内核参数。

使用 rhel-drivers 的单命令安装

rhel-drivers 是一款全新的命令行工具,可为 NVIDIA 和 AMD AI 加速器驱动程序提供精简、流畅的安装体验。软件包位于 RHEL 10.1 上的应用流(AppStreams)存储库中。AppStreams 默认处于启用状态。您只需安装 rhel-drivers 软件包,即可开始使用。 

rhel-drivers 可自动执行原本需要手动完成的几个步骤:

  1. 自动检测本地系统上存在的 AI 加速器
  2. 启用 RHEL 扩展和补充存储库
  3. 从红帽存储库安装可用的最新驱动程序
    • 对于 NVIDIA 数据中心 AI 加速器,它将安装最新的 OpenRM 和 cuda-toolkit 驱动程序。
    • 对于 AMD 数据中心 AI 加速器,它将从 RHEL 扩展存储库安装最新的 AMDGPU 驱动程序。用户需要从扩展存储库单独安装 AMD ROCm 软件包。

使用 rhel-drivers 安装 NVIDIA 内核和用户模式驱动程序

# 安装 rhel-drivers 软件包(默认情况下不安装) 
sudo dnf install rhel-drivers 
# 安装 NVIDIA 内核和用户模式驱动程序 
sudo rhel-drivers install nvidia 
sudo reboot

要测试它是否正确安装,请运行以下命令:

nvidia-smi

使用 rhel-drivers 安装 AMD 内核和用户模式驱动程序

# 安装 rhel-drivers 软件包(默认情况下不安装) 
sudo dnf install rhel-drivers 
# 安装 AMD 内核模式驱动程序 
sudo rhel-drivers install amdgpu 
# 从扩展存储库安装 AMD ROCm(用户模式驱动程序) 
sudo dnf install rocm rocm-devel 
sudo reboot

测试它是否按预期安装:

$ rocm-smi --showid --showtemp --showpower --showmeminfo vram

手动安装驱动程序

我们知道,每个 IT 环境通常都各不相同,需要不同版本的驱动程序,但并不总是最新版本。对于需要其他现有版本的 AI 加速器驱动程序的环境,客户可以直接从 RHEL 扩展和补充存储库进行安装。

1.启用扩展和补充存储库

首先,为您的 RHEL 版本启用适当的存储库。对于 RHEL 10:

sudo subscription-manager repos  
--enable=rhel-10-for-x86_64-supplementary-rpms 
sudo subscription-manager repos  
--enable=rhel-10-for-x86_64-extensions-rpms

确保您的 RHEL 系统已更新至最新软件包:

sudo dnf update 
sudo reboot

并行使用扩展和 EPEL 存储库

虽然不建议这样做,但如果您希望并行启用扩展和 Extra Packages for Enterprise Linux (EPEL) 存储库,您应调整存储库优先级,以确保默认情况下从扩展安装两个存储库中可用的软件包。

sudo subscription-manager repo-override  
--repo=rhel-10-for-x86_64-extensions-rpms --add=priority:98

有关存储库优先级的定义,请参阅 DNF 配置参考

2.识别并安装驱动程序软件包

NVIDIA 和 AMD 的具体软件包名称略有不同。

NVIDIA 驱动程序

$ sudo dnf install nvidia-driver cuda-toolkit

有关可用元软件包的列表,请参阅 NVIDIA 的元软件包列表

NVIDIA AI 加速器驱动程序

您通常需要安装 kmod-nvidia 软件包以及 nvidia-driver 用户空间组件。

$ sudo dnf install kmod-nvidia nvidia-driver

此命令会自动为您的系统安装正确的内核模块和用户空间驱动程序。

AMD AI 加速器驱动程序(ROCm)

对于 AMD,请安装最新的 amdgpu 内核驱动程序和 ROCm 用户空间堆栈。

$ sudo dnf install kmod-amdgpu rocm rocm-devel

3.重新启动系统

安装后,务必要重新启动系统,以确保正确加载新的内核模块。

$ sudo reboot

4.验证安装

系统重新启动后,您可以使用供应商特定的命令验证驱动程序是否已加载。例如,要验证 NVIDIA 驱动程序是否已加载并且 GPU 是否已识别:

$ nvidia-smi

您会看到与此类似的输出,其中详细说明了您的 NVIDIA GPU 和驱动程序版本:

英特尔 NPU 内核模式驱动程序:在 BaseOS 中验证

英特尔驱动程序包含在 BaseOS 存储库中,因为它位于 Linux 内核中。与英特尔 NPU 兼容的 CPU 在 Core Ultra Meteor Lake、Arrow Lake 和 Lunar Lake SoC 上经过验证。验证内核驱动程序支持:

sudo modprobe -v intel_vpu 
lsmod | grep intel_vpu

RHEL:构建未来 AI 应用的基础

在红帽,我们正在努力将 RHEL 打造成企业 Linux 平台,支持开发和部署最先进的 AI 应用和工作负载。我们很乐意听取您的意见,告诉我们如何继续增强 RHEL 上的加速器驱动程序体验。立即在 RHEL 上试用这些驱动程序和全新安装体验。 

产品试用

红帽企业 Linux | 产品试用

此版本的红帽企业 Linux 能够编排硬件资源,并可以在物理系统、云端,或是作为虚拟机监控程序客户机运行。

关于作者

James Huang is a Senior Product Manager for Red Hat Enterprise Linux, where he focuses on AI and High Performance Computing.

UI_Icon-Red_Hat-Close-A-Black-RGB

按频道浏览

automation icon

自动化

有关技术、团队和环境 IT 自动化的最新信息

AI icon

人工智能

平台更新使客户可以在任何地方运行人工智能工作负载

open hybrid cloud icon

开放混合云

了解我们如何利用混合云构建更灵活的未来

security icon

安全防护

有关我们如何跨环境和技术减少风险的最新信息

edge icon

边缘计算

简化边缘运维的平台更新

Infrastructure icon

基础架构

全球领先企业 Linux 平台的最新动态

application development icon

应用领域

我们针对最严峻的应用挑战的解决方案

Virtualization icon

虚拟化

适用于您的本地或跨云工作负载的企业虚拟化的未来