Les unités de traitement graphique (GPU) sont des éléments clés de l'IA générative et prédictive. Les data scientists et les ingénieurs en matière d'apprentissage automatique et d'IA s'appuient sur ces unités pour tester des modèles d'IA ainsi que pour les entraîner, les optimiser et les déployer. Toutefois, la gestion de ces ressources essentielles peut se révéler complexe, ce qui freine souvent le développement et l'innovation.
Les limites de l'infrastructure ne peuvent entraver votre entreprise. Votre équipe doit se concentrer sur la création, l'optimisation et l'utilisation des modèles d'IA, et non sur la gestion d'une infrastructure GPU complexe. C'est la raison pour laquelle les équipes de l'exploitation informatique (ITOps) jouent un rôle essentiel dans l'accélération du développement et de l'inférence de l'IA, grâce à un accès aux GPU à la demande (GPU en tant que service).
Le défi lié aux GPU : un problème à plusieurs facettes pour l'ITOps
La mise en place d'une infrastructure GPU efficace pour les charges de travail de l'IA n'est pas anodine. Les équipes ITOps sont confrontées à plusieurs défis importants.
- Rareté des GPU et contraintes liées aux coûts : les GPU peuvent être difficiles d'accès en raison d'une offre limitée, des contraintes liées au cloud et de la concurrence en interne. Cette situation peut également s'accompagner d'un manque de choix et de maîtrise de l'architecture sous-jacente de l'accélérateur. Les GPU engendrent déjà des coûts élevés, notamment pour l'acquisition et l'exploitation, et sont souvent sous-utilisés.
- L'absence d'accès aux GPU entraîne le shadow IT (informatique de l'ombre) : si les data scientists et les ingénieurs de l'AA et d'IA ne peuvent pas accéder immédiatement aux GPU lorsqu'ils en ont besoin, ils risquent de recourir au shadow IT. Il peut s'agir d'utiliser des services tiers, d'exposer des données sensibles de l'entreprise ou de se procurer de manière indépendante des ressources liées aux GPU auprès de différents fournisseurs de cloud, avec à la clé une augmentation des coûts et des risques pour la sécurité. Il en résulte une perte de maîtrise sur l'utilisation des ressources, la sécurité des données et la conformité.
- Infrastructure GPU fragmentée : les ressources liées aux GPU sont souvent dispersées dans des datacenters sur site, dans plusieurs clouds publics et même sur des sites d'edge computing. Cet environnement hétérogène, qui se compose de différents types d'accélérateurs (GPU, accélérateurs d'IA, architectures, etc.), complexifie la gestion et entrave l'allocation efficace des ressources, ce qui réduit l'efficacité et augmente les coûts.
- Boîte noire dans l'utilisation des GPU : les entreprises ont souvent du mal à suivre l'utilisation des GPU à l'échelle de l'entreprise, ce qui complique l'optimisation du retour sur investissement et l'identification des ressources sous-utilisées. Dans une situation multi-client, il devient difficile d'établir des politiques d'utilisation équitables, d'allouer avec précision les ressources et d'attribuer les coûts.
- Sécurisation de l'architecture multi-client des GPU : le renforcement de la sécurité des données dans une architecture multi-client est complexe et implique d'isoler le trafic réseau des clients pour éviter les accès non autorisés et les fuites de données, de protéger les données sensibles contre tout accès non autorisé ou vol et de respecter les exigences réglementaires en conservant les preuves de conformité.
Notre solution : résoudre le casse-tête lié aux GPU à l'aide du concept de GPU en tant que service
Nous proposons une stratégie complète pour relever ces défis. Notre approche se concentre sur la consolidation et la simplification de l'infrastructure GPU sous-jacente. En regroupant des accélérateurs (notamment différents types, différentes tailles et différents emplacements de GPU) à partir d'environnements sur site, dans le cloud et à la périphérie du réseau, les entreprises peuvent simplifier la gestion et l'orchestration des GPU à l'aide d'une plateforme unique et unifiée.
L'offre de solutions Red Hat AI optimise les performances et l'efficacité en associant intelligemment les charges de travail aux ressources liées aux GPU les plus appropriées, ce qui optimise l'utilisation grâce à un ordonnancement et un placement efficaces. Pour aider les entreprises à conserver la visibilité et la maîtrise, nous proposons une surveillance en temps réel des GPU afin d'identifier les goulets d'étranglement et d'améliorer l'allocation des ressources. Les améliorations en cours permettront de suivre la consommation et les schémas d'utilisation pour faciliter l'optimisation des coûts.
Ce système permet également de mettre en place une architecture multi-client visant à protéger et optimiser les GPU. Il isole les environnements client par un niveau élevé de sécurité réseau et d'isolation des données. Il met également en œuvre un contrôle d'accès granulaire et des quotas de ressources pour chaque client, ce qui simplifie la conformité et assure la maintenance des pistes d'audit pour la sécurité et la gouvernance.
Composants clés pour la distribution des GPU en tant que service
Nous utilisons de puissantes technologies Open Source pour proposer une offre de GPU en tant que service, principalement au sein de Red Hat OpenShift et de Red Hat OpenShift AI.
Kueue est un planificateur de charges de travail Open Source intelligent pour Kubernetes, qui hiérarchise et anticipe les tâches de manière à exécuter les charges de travail essentielles en priorité, en anticipant les tâches prioritaires le cas échéant. Il gère les quotas afin d'allouer équitablement les ressources entre les équipes et optimise leur utilisation pour éviter les goulets d'étranglement et maximiser l'efficacité. Kueue se charge de la répartition, la mise en file d'attente et l'ordonnancement des tâches.
La possibilité de partitionner des GPU permet de partager plus efficacement les GPU en divisant les GPU en GPU virtuels plus petits et en allouant des ressources de manière dynamique. Cette approche facilite le partage des ressources : plusieurs utilisateurs partagent ainsi un même GPU physique, ce qui améliore l'utilisation des ressources et maximise l'utilisation du GPU.
Notre solution repose également sur d'autres technologies Open Source qui optimisent le cycle de vie de l'IA, de l'entraînement à l'inférence, en passant par le réglage fin. Pour l'entraînement et le réglage fin, la pile comprend des technologies telles que PyTorch, Ray, Kubeflow Trainer et KubeRay. Elle fait appel à CodeFlare pour répartir les tâches et à Kueue pour mettre en file d'attente et ordonnancer.
Pour l'inférence, Red Hat AI utilise le vLLM afin de distribuer plus efficacement la mémoire de grands modèles de langage, ainsi que KServe afin de mettre les modèles plus largement à disposition. Il prend également en charge des frameworks tels que PyTorch, Hugging Face TGI et ONNX.
Red Hat OpenShift AI permet aussi de gérer les accélérateurs et les GPU. Cette approche permet notamment d'éliminer les logiciels inactifs des workbenches et de configurer les tranches de GPU disponibles, afin d'optimiser l'allocation des ressources. La plateforme fournit également des images prêtes à l'emploi, contenant les bibliothèques nécessaires pour la prise en charge des accélérateurs. En outre, elle offre des outils d'observabilité pour surveiller l'état des charges de travail de chaque utilisateur, l'état des charges de travail à l'échelle du cluster, les files d'attente et l'utilisation des GPU.
Red Hat : votre partenaire dans l'innovation basée sur l'IA
Red Hat, premier éditeur mondial de solutions logicielles Open Source destinées aux entreprises, peut vous aider à configurer votre système de GPU en tant que service. Nous fournissons des GPU à la demande pour les charges de travail d'IA en mettant l'accent sur la sécurité et la confidentialité. Ainsi, vos data scientists et ingénieurs d'AA/IA pourront se concentrer sur l'IA plutôt que l'infrastructure.
Apprenez-en plus sur nos solutions d'IA sur la page Red Hat AI et parlez dès aujourd'hui avec un représentant Red Hat.
Ressource
Bien débuter avec l'inférence d'IA
À propos de l'auteur
My entrepreneurial spirit led me to co-found an AI startup. This experience, combined with my work driving key go-to-market initiatives at Red Hat and building strategic partnerships, has shaped my ability to translate complex technologies into effective market strategies. I enjoy sharing these insights, whether speaking at UC Berkeley and Stanford or engaging with C-level executives. My background in AI research, including a collaboration between the Royal Institute of Technology and Stanford (with findings presented at SSDL 2017), continues to inform my passion for innovation.
Plus de résultats similaires
Implementing best practices: Controlled network environment for Ray clusters in Red Hat OpenShift AI 3.0
Solving the scaling challenge: 3 proven strategies for your AI infrastructure
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Parcourir par canal
Automatisation
Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements
Intelligence artificielle
Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement
Cloud hybride ouvert
Découvrez comment créer un avenir flexible grâce au cloud hybride
Sécurité
Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies
Edge computing
Actualité sur les plateformes qui simplifient les opérations en périphérie
Infrastructure
Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde
Applications
À l’intérieur de nos solutions aux défis d’application les plus difficiles
Virtualisation
L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud