L'IA alimente et améliore de nombreuses charges de travail courantes, et une nouvelle génération d'applications d'IA va probablement émerger. C'est pourquoi les accélérateurs d'IA ont pris tant d'importance, notamment les processeurs graphiques (GPU) et les moteurs personnalisés d'inférence et d'entraînement. Qu'il s'agisse de GPU distincts ou d'accélérateurs d'IA intégrés aux processeurs traditionnels, il apparaît évident qu'il faut du matériel plus rapide et spécialisé pour fournir les performances nécessaires au développement et au déploiement des charges de travail de demain.
C'est pourquoi nous lançons une nouvelle expérience simplifiée pour la gestion des pilotes d'accélérateurs d'IA sur Red Hat Enterprise Linux (RHEL). Que ce soit pour développer une application d'IA révolutionnaire ou provisionner des serveurs afin de déployer des charges de travail d'IA, RHEL offre une expérience fluide qui permet d'accélérer le déploiement et l'exécution des systèmes. Vous pouvez désormais acquérir les pilotes des accélérateurs d'IA de NVIDIA et d'AMD à partir des référentiels Red Hat, créés et signés par Red Hat avec les pratiques de sécurité de la chaîne d'approvisionnement des logiciels et les technologies de démarrage sécurisé. En une seule commande, vous pouvez installer les derniers pilotes d'accélérateurs disponibles.
Le défi lié à la gestion des pilotes de GPU et notre solution
L'installation et la maintenance des pilotes d'accélérateurs de GPU avec des distributions Linux pour les entreprises ont toujours posé des problèmes uniques. Les utilisateurs étaient souvent confrontés à des obstacles, parmi lesquels :
- Compatibilité des pilotes : garantir l'installation de la bonne version des pilotes pour des noyaux et équipements spécifiques.
- Sécurité et confiance : vérifier l'authenticité et l'intégrité des pilotes tiers avec la prise en charge du démarrage sécurisé.
- Coûts de maintenance : mettre à jour manuellement les pilotes et gérer les conflits potentiels avec les mises à jour du système.
Avec cette nouvelle offre, nous nous efforçons de relever ces défis. En fournissant les pilotes AMD, Intel et NVIDIA via les référentiels Red Hat, nous simplifions le déploiement et la gestion des charges de travail d'IA sur RHEL, pour un plus haut niveau de confiance et de contrôle.
La nouvelle expérience que nous proposons inclut :
- Les pilotes du mode utilisateur et du mode noyau des accélérateurs d'IA de NVIDIA et d'AMD, créés et signés par Red Hat (le cas échéant) et mis en paquet dans les référentiels Red Hat
- Un script pour installer en toute fluidité les derniers pilotes d'accélérateurs d'IA de NVIDIA et d'AMD pour datacenter
- Les pilotes du mode noyau d'AMD et Intel intégrés au noyau Linux en amont
Pilote du mode noyau | Pilote du mode utilisateur | |
NVIDIA | Référentiel RHEL Extensions | Boîte à outils CUDA Toolkit : référentiel Supplementary |
AMD | BaseOS, référentiel RHEL Extensions | ROCm : référentiel RHEL Extensions |
Intel | BaseOS | S/O |
L'importance de cette fonctionnalité pour les projets d'IA
Cette nouvelle fonctionnalité apporte plusieurs avantages clés aux utilisateurs de RHEL qui exploitent des accélérateurs d'IA :
- Réduction du délai de rentabilisation : grâce à la fluidification de l'installation et de la gestion des pilotes, les équipes peuvent consacrer plus de temps à la création et au déploiement des charges de travail d'IA essentielles ainsi qu'accélérer la mise en œuvre.
- Renforcement de la sécurité et de la fiabilité : tous les pilotes sont créés et signés par Red Hat, ce qui renforce la sécurité de la chaîne d'approvisionnement et permet l'intégration de l'informatique confidentielle. Vous pouvez ainsi déployer vos applications en toute confiance, avec la garantie d'utiliser des pilotes authentiques et non altérés.
- Rationalisation des accès : tous les pilotes nécessaires pour exploiter les accélérateurs d'IA sont accessibles via l'écosystème Red Hat (référentiels Extensions et Supplementary). Ils s'intègrent facilement aux workflows existants de mise à jour de RHEL à l'aide des commandes
dnf. - Garantie de compatibilité grâce la validation par les partenaires : les pilotes sont testés et validés par nos partenaires, ce qui garantit leur stabilité et leur compatibilité avec les noyaux RHEL. Cette approche permet de réduire le risque d'instabilité du système ainsi que d'améliorer la fiabilité globale de l'infrastructure d'IA.
Installation facilitée avec la commande rhel-drivers
La nouvelle commande rhel-drivers détecte automatiquement l'accélérateur d'IA de type datacenter présent dans le système, puis installe automatiquement le dernier pilote du mode noyau disponible en fonction de la version du noyau Linux. Cet outil puissant évite d'avoir à parcourir la documentation ou les pages de compatibilité des produits, et donne accès aux dernières innovations en matière d'accélérateurs, nécessaires pour tirer parti des outils d'IA ciblés.
Validation par les partenaires : exécuter des accélérateurs d'IA en toute confiance sur RHEL
Nous collaborons depuis longtemps avec AMD, Intel et NVIDIA pour proposer des solutions d'entreprise à nos clients communs. Nos partenaires ont effectué des tests rigoureux sur RHEL afin de garantir sa compatibilité, ses performances et sa stabilité.
Référentiels RHEL Extensions et Supplementary
Actuellement, l'écosystème logiciel repose sur un large éventail de modèles de développement et de licences. Nous savons que les environnements informatiques modernes s'appuient sur un ensemble varié de logiciels et d'outils utilisés pour générer la valeur métier requise. C'est pourquoi nous fournissons un accès client à plusieurs référentiels pour gérer cet écosystème diversifié.
De même, l'écosystème des accélérateurs d'IA repose sur un mélange de contenus Open Source et propriétaires. Les référentiels RHEL Extensions et Supplementary vous permettent d'obtenir tout ce dont vous avez besoin pour exécuter vos accélérateurs d'IA au sein de l'écosystème Red Hat.
Référentiel RHEL Extensions
Le référentiel RHEL Extensions a été créé pour distribuer des contenus Open Source tiers créés et signés par Red Hat, dans le but d'offrir la fiabilité d'une chaîne d'approvisionnement sécurisée.
Référentiel Red Hat Supplementary
Le référentiel Red Hat Supplementary regroupe les contenus propriétaires et tiers, créés et signés par Red Hat.
Informatique confidentielle
Les pilotes crées et signés par Red Hat permettent d'exploiter l'informatique confidentielle, une approche essentielle pour sécuriser les déploiements cloud multi-clients.
Premiers pas
Voici un guide pas à pas pour commencer à utiliser ces nouveaux pilotes sur RHEL.
Prérequis
- Red Hat Enterprise Linux 10.1 : assurez-vous que votre système exécute RHEL 10.1 ou une version ultérieure.
- Souscription Red Hat active : vous avez besoin d'une souscription active pour accéder aux référentiels RHEL Extensions et Supplementary.
- Accélérateur d'IA de NVIDIA ou d'AMD compatible : assurez-vous qu'un GPU compatible est installé sur votre système. Pour AMD, consultez la configuration système requise (Linux) et les instructions d'installation de ROCm (Linux) ; pour les GPU Instinct, suivez ces conseils d'optimisation du système pour les paramètres du BIOS et les arguments du noyau.
Installation avec la commande unique rhel-drivers
rhel-drivers est un nouvel outil en ligne de commande qui offre une expérience d'installation fluide et rationalisée pour les pilotes d'accélérateurs d'IA de NVIDIA et d'AMD. Le paquet est disponible dans le référentiel Application Streams (AppStreams) dans RHEL 10.1. AppStreams est activé par défaut. Il vous suffit d'installer le paquet rhel-drivers.
rhel-drivers automatise plusieurs étapes qui devraient autrement être effectuées manuellement :
- Détection automatique de l'accélérateur d'IA présent sur le système local
- Activation des référentiels RHEL Extensions et Supplementary
- Installation des derniers pilotes disponibles à partir des référentiels Red Hat
- Pour les accélérateurs d'IA de type datacenter de NVIDIA : installation des dernières versions d'OpenRM et des pilotes cuda-toolkit.
- Pour les accélérateurs d'IA de type datacenter d'AMD : installation du dernier pilote AMDGPU à partir du référentiel RHEL Extensions. L'utilisateur devra installer séparément le paquet AMD ROCm à partir du référentiel Extensions.
Installation des pilotes du mode utilisateur et du mode noyau de NVIDIA avec rhel-drivers
# Install the rhel-drivers package (not installed by default)
sudo dnf install rhel-drivers
# Install the NVIDIA kernel and user mode drivers
sudo rhel-drivers install nvidia
sudo rebootPour vérifier que le paquet est correctement installé, exécutez la commande suivante :
nvidia-smiInstallation des pilotes du mode utilisateur et du mode noyau d'AMD avec rhel-drivers
# Install the rhel-drivers package (not installed by default)
sudo dnf install rhel-drivers
# Install the AMD kernel mode drivers
sudo rhel-drivers install amdgpu
# Install the AMD ROCm (user mode drivers) from the Extensions Repository
sudo dnf install rocm rocm-devel
sudo rebootVérifiez que l'installation s'est déroulée comme prévu avec la commande suivante :
$ rocm-smi --showid --showtemp --showpower --showmeminfo vramInstallation manuelle des pilotes
Nous savons que chaque environnement informatique est souvent unique et nécessite des versions de pilotes différentes qui ne sont pas toujours les plus récentes. Pour les environnements qui nécessitent d'autres versions existantes des pilotes d'accélérateurs d'IA, les utilisateurs peuvent effectuer l'installation directement à partir des référentiels RHEL Extensions et Supplementary.
1. Activation des référentiels Extensions et Supplementary
Tout d'abord, activez le référentiel approprié pour votre version de RHEL. Pour RHEL 10 :
sudo subscription-manager repos
--enable=rhel-10-for-x86_64-supplementary-rpms
sudo subscription-manager repos
--enable=rhel-10-for-x86_64-extensions-rpmsAssurez-vous que votre système RHEL est à jour avec les paquets les plus récents en exécutant la commande suivante :
sudo dnf update
sudo rebootUtilisation simultanée des référentiels Extensions et EPEL
Bien que cette approche ne soit pas recommandée, si vous souhaitez activer les référentiels Extensions et EPEL (Extra Packages for Enterprise Linux) en parallèle, vous devez modifier la priorité du référentiel pour que les paquets disponibles dans les deux référentiels soient installés par défaut à partir du référentiel Extensions.
sudo subscription-manager repo-override
--repo=rhel-10-for-x86_64-extensions-rpms --add=priority:98Consultez la documentation de référence sur la configuration DNF pour en savoir plus sur la définition de la priorité du référentiel.
2. Identification et installation des paquets de pilotes
Les noms des paquets spécifiques varient légèrement entre NVIDIA et AMD.
Pilotes NVIDIA
$ sudo dnf install nvidia-driver cuda-toolkitPour connaître les métapaquets disponibles, consultez la liste des métapaquets de NVIDIA.
Pilotes d'accélérateurs d'IA de NVIDIA
L'installation du paquet kmod-nvidia se fait généralement avec les composants de l'espace utilisateur nvidia-driver.
$ sudo dnf install kmod-nvidia nvidia-driverCette commande extrait automatiquement le module de noyau et les pilotes d'espace utilisateur adaptés à votre système.
Pilotes d'accélérateurs d'IA d'AMD (ROCm)
Pour AMD, installez le dernier pilote du noyau AMDGPU et la pile d'espace utilisateur ROCm.
$ sudo dnf install kmod-amdgpu rocm rocm-devel3. Redémarrage du système
Après l'installation, il est crucial de redémarrer votre système pour garantir le bon chargement des nouveaux modules de noyau.
$ sudo reboot4. Vérification de l'installation
Une fois que votre système a redémarré, vous pouvez vérifier que le pilote a été chargé avec une commande propre au fournisseur. Par exemple, pour vérifier que le pilote NVIDIA est chargé et que le GPU est reconnu, exécutez la commande suivante :
$ nvidia-smiLe résultat est semblable à ce qui suit et indique en détail la version de votre GPU NVIDIA et de votre pilote :
Pilote du mode noyau du NPU Intel : validation dans BaseOS
Le pilote Intel est inclus dans le référentiel BaseOS, car il se trouve dans le noyau Linux. Les processeurs compatibles avec le NPU Intel sont validés sur les architectures SoC Core Ultra Meteor Lake, Arrow Lake et Lunar Lake. Pour vérifier la prise en charge du pilote de noyau, exécutez la commande suivante :
sudo modprobe -v intel_vpu
lsmod | grep intel_vpuRHEL : la base pour créer les applications d'IA de demain
Chez Red Hat, nous travaillons sans cesse pour faire de RHEL la plateforme Linux d'entreprise qui permet de développer et déployer les applications et les charges de travail d'IA les plus avancées. Nous aimerions connaître votre avis sur la manière dont nous pourrions continuer à améliorer l'expérience liée aux pilotes d'accélérateurs sur RHEL. Essayez ces pilotes et la nouvelle expérience d'installation dès aujourd'hui sur RHEL.
Essai de produit
Red Hat Enterprise Linux | Essai de produit
À propos des auteurs
James Huang is a Senior Product Manager for Red Hat Enterprise Linux, where he focuses on AI and High Performance Computing.
Plus de résultats similaires
Red Hat Enterprise Linux now available on the AWS European Sovereign Cloud
More than meets the eye: Behind the scenes of Red Hat Enterprise Linux 10 (Part 4)
The Overlooked Operating System | Compiler: Stack/Unstuck
Linux, Shadowman, And Open Source Spirit | Compiler
Parcourir par canal
Automatisation
Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements
Intelligence artificielle
Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement
Cloud hybride ouvert
Découvrez comment créer un avenir flexible grâce au cloud hybride
Sécurité
Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies
Edge computing
Actualité sur les plateformes qui simplifient les opérations en périphérie
Infrastructure
Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde
Applications
À l’intérieur de nos solutions aux défis d’application les plus difficiles
Virtualisation
L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud