许多现有和流行的工作负载正在融入 AI 并得到增强,未来可能会出现新一波的 AI 应用。这使得 AI 加速器变得越来越重要,包括图形处理单元(GPU)以及自定义训练和推理引擎。从独立 GPU 到在芯片上与传统 CPU 集成的 AI 加速,显然需要专门的加速硬件来提供开发和部署未来工作负载所需的性能。
因此,我们宣布在红帽企业 Linux(RHEL)上提供简化的全新 AI 加速器驱动程序体验。 无论您是构建下一个突破性 AI 应用的开发人员,还是置备服务器以部署 AI 工作负载的 IT 系统管理员,RHEL 都能提供无缝体验,以加速系统的启动和运行。您现在可以从红帽存储库获取 NVIDIA 和 AMD 的 AI 加速器驱动程序,这些驱动程序由红帽使用安全软件供应链实践和安全启动技术构建和签名。只需一个命令,即可安装最新的可用加速器驱动程序。
GPU 驱动程序管理的挑战以及我们的解决方案
一直以来,在企业级 Linux 发行版上安装和维护 GPU 加速器驱动程序都面临着一系列独特的挑战。用户经常面临以下障碍:
- 驱动程序兼容性:确保特定内核和硬件的驱动程序版本正确。
- 安全性和信任:通过支持安全启动来验证第三方驱动程序的真实性和完整性。
- 维护开销:手动更新驱动程序以及管理与系统更新的潜在冲突。
红帽的这款新产品可以直面这些挑战。通过红帽存储库提供 AMD、英特尔和 NVIDIA 驱动程序,我们正在简化 RHEL 上 AI 工作负载的部署和管理,让您更有信心和控制力。
我们的新体验包括:
- NVIDIA 和 AMD AI 加速器内核和用户模式驱动程序,由红帽构建和签名(如适用),并打包在红帽存储库中。
- 用于无缝安装最新 NVIDIA 和 AMD 数据中心 AI 加速器驱动程序的脚本。
- AMD 和英特尔内核模式驱动程序与上游 Linux 内核集成。
内核模式驱动程序 | 用户模式驱动程序 | |
NVIDIA | RHEL 扩展存储库 | CUDA 工具包:补充存储库 |
AMD | BaseOS、RHEL 扩展存储库 | ROCm:RHEL 扩展存储库 |
英特尔 | BaseOS | 不适用 |
为什么这对您的 AI 计划至关重要
这项新功能为利用 AI 加速器的 RHEL 用户带来了几项关键优势:
- 缩短价值实现时间:通过减少驱动程序安装和管理方面的摩擦,您的团队可以将更多时间花在构建和部署对业务至关重要的任务关键型 AI 工作负载上,并减少让工作正常运行所需的时间。
- 增强安全性和信任度:所有驱动程序均由红帽构建和签名,可提高供应链安全性并与机密计算集成。您可以更加放心地进行部署,因为您知道驱动程序是真实的,没有被篡改过。
- 简化访问:获取运行 AI 加速器硬件所需的所有驱动程序,这些驱动程序通过红帽生态系统(扩展和补充存储库)提供,并使用
dnf命令与您现有的 RHEL 更新工作流无缝集成。 - 通过合作伙伴验证增强兼容性信心:驱动程序经过我们的合作伙伴测试和验证,确保了稳定性以及与 RHEL 内核的兼容性。这降低了系统不稳定的风险,并提高了 AI 基础架构的整体可靠性。
使用 rhel-drivers 轻松安装
新的 rhel-drivers 命令会自动检测系统中存在的数据中心级 AI 加速器硬件,然后根据您的 Linux 内核版本自动安装最新的可用内核模式驱动程序。这款功能强大的工具让您不必费心筛选文档或产品兼容性页面,而是提供最新的加速器创新,让您能够充分利用所需的 AI 工具。
合作伙伴验证:在 RHEL 上运行 AI 加速器的信心
红帽与 AMD、英特尔和英伟达有着悠久的合作历史,为我们共同的客户提供企业解决方案。我们的合作伙伴对 RHEL 进行了有意义的测试,以确保其兼容性、性能和稳定性。
RHEL 扩展存储库和补充存储库
当今的软件生态系统具有多种开发模式和许可。我们知道,现代 IT 环境依赖于各种软件和工具来提供所需的业务价值。因此,我们为客户提供多个存储库的访问权限,以应对这个多样化的生态系统。
AI 加速器生态系统同样依赖于开源和专有内容的混合。借助 RHEL 扩展和补充存储库,您可以从红帽生态系统内获得运行 AI 加速器所需的一切。
RHEL 扩展存储库
RHEL 扩展存储库旨在分发由红帽构建和签署的第三方开源内容,以增强对安全供应链的信心。
红帽补充存储库
红帽补充存储库存放由红帽构建和签署的第三方专有内容。
机密计算
由红帽构建和签署的驱动程序支持机密计算,这对于安全的多租户云部署至关重要。
开始使用
以下分步指南可帮助您开始在 RHEL 上使用这些新驱动程序。
前提条件
- 红帽企业 Linux 10.1:确保您的系统运行的是 RHEL 10.1 或更高版本。
- 有效的红帽订阅:您需要一个有效的订阅,以提供对红帽扩展和补充存储库的访问权限。
- 兼容的 NVIDIA 或 AMD AI 加速器:确保您的系统安装了兼容的 GPU。对于 AMD,请参阅系统要求 (Linux) — ROCm 安装 (Linux),对于 Instinct GPU,请遵循此系统优化建议中的 BIOS 设置和内核参数。
使用 rhel-drivers 的单命令安装
rhel-drivers 是一款全新的命令行工具,可为 NVIDIA 和 AMD AI 加速器驱动程序提供精简、流畅的安装体验。软件包位于 RHEL 10.1 上的应用流(AppStreams)存储库中。AppStreams 默认处于启用状态。您只需安装 rhel-drivers 软件包,即可开始使用。
rhel-drivers 可自动执行原本需要手动完成的几个步骤:
- 自动检测本地系统上存在的 AI 加速器
- 启用 RHEL 扩展和补充存储库
- 从红帽存储库安装可用的最新驱动程序
- 对于 NVIDIA 数据中心 AI 加速器,它将安装最新的 OpenRM 和 cuda-toolkit 驱动程序。
- 对于 AMD 数据中心 AI 加速器,它将从 RHEL 扩展存储库安装最新的 AMDGPU 驱动程序。用户需要从扩展存储库单独安装 AMD ROCm 软件包。
使用 rhel-drivers 安装 NVIDIA 内核和用户模式驱动程序
# 安装 rhel-drivers 软件包(默认情况下不安装)
sudo dnf install rhel-drivers
# 安装 NVIDIA 内核和用户模式驱动程序
sudo rhel-drivers install nvidia
sudo reboot要测试它是否正确安装,请运行以下命令:
nvidia-smi使用 rhel-drivers 安装 AMD 内核和用户模式驱动程序
# 安装 rhel-drivers 软件包(默认情况下不安装)
sudo dnf install rhel-drivers
# 安装 AMD 内核模式驱动程序
sudo rhel-drivers install amdgpu
# 从扩展存储库安装 AMD ROCm(用户模式驱动程序)
sudo dnf install rocm rocm-devel
sudo reboot测试它是否按预期安装:
$ rocm-smi --showid --showtemp --showpower --showmeminfo vram手动安装驱动程序
我们知道,每个 IT 环境通常都各不相同,需要不同版本的驱动程序,但并不总是最新版本。对于需要其他现有版本的 AI 加速器驱动程序的环境,客户可以直接从 RHEL 扩展和补充存储库进行安装。
1.启用扩展和补充存储库
首先,为您的 RHEL 版本启用适当的存储库。对于 RHEL 10:
sudo subscription-manager repos
--enable=rhel-10-for-x86_64-supplementary-rpms
sudo subscription-manager repos
--enable=rhel-10-for-x86_64-extensions-rpms确保您的 RHEL 系统已更新至最新软件包:
sudo dnf update
sudo reboot并行使用扩展和 EPEL 存储库
虽然不建议这样做,但如果您希望并行启用扩展和 Extra Packages for Enterprise Linux (EPEL) 存储库,您应调整存储库优先级,以确保默认情况下从扩展安装两个存储库中可用的软件包。
sudo subscription-manager repo-override
--repo=rhel-10-for-x86_64-extensions-rpms --add=priority:98有关存储库优先级的定义,请参阅 DNF 配置参考。
2.识别并安装驱动程序软件包
NVIDIA 和 AMD 的具体软件包名称略有不同。
NVIDIA 驱动程序
$ sudo dnf install nvidia-driver cuda-toolkit有关可用元软件包的列表,请参阅 NVIDIA 的元软件包列表。
NVIDIA AI 加速器驱动程序
您通常需要安装 kmod-nvidia 软件包以及 nvidia-driver 用户空间组件。
$ sudo dnf install kmod-nvidia nvidia-driver此命令会自动为您的系统安装正确的内核模块和用户空间驱动程序。
AMD AI 加速器驱动程序(ROCm)
对于 AMD,请安装最新的 amdgpu 内核驱动程序和 ROCm 用户空间堆栈。
$ sudo dnf install kmod-amdgpu rocm rocm-devel3.重新启动系统
安装后,务必要重新启动系统,以确保正确加载新的内核模块。
$ sudo reboot4.验证安装
系统重新启动后,您可以使用供应商特定的命令验证驱动程序是否已加载。例如,要验证 NVIDIA 驱动程序是否已加载并且 GPU 是否已识别:
$ nvidia-smi您会看到与此类似的输出,其中详细说明了您的 NVIDIA GPU 和驱动程序版本:
英特尔 NPU 内核模式驱动程序:在 BaseOS 中验证
英特尔驱动程序包含在 BaseOS 存储库中,因为它位于 Linux 内核中。与英特尔 NPU 兼容的 CPU 在 Core Ultra Meteor Lake、Arrow Lake 和 Lunar Lake SoC 上经过验证。验证内核驱动程序支持:
sudo modprobe -v intel_vpu
lsmod | grep intel_vpuRHEL:构建未来 AI 应用的基础
在红帽,我们正在努力将 RHEL 打造成企业 Linux 平台,支持开发和部署最先进的 AI 应用和工作负载。我们很乐意听取您的意见,告诉我们如何继续增强 RHEL 上的加速器驱动程序体验。立即在 RHEL 上试用这些驱动程序和全新安装体验。
关于作者
James Huang is a Senior Product Manager for Red Hat Enterprise Linux, where he focuses on AI and High Performance Computing.