Le pouvoir transformateur des grands modèles de langage (LLM) n’est plus à prouver. En revanche, leur déploiement en production peut s'avérer difficile.

Ce défi n'est pas nouveau. Dans un épisode récent du podcast Technically Speaking, Chris Wright s'est entretenu avec Nick Hill, ingénieur logiciel principal chez Red Hat, qui a travaillé il y a des années sur la commercialisation du système IBM Watson original « Jeopardy! ». Hill a noté que ces premiers efforts visaient à optimiser Watson en le faisant passer d'une salle remplie de serveurs à une seule machine, établissant ainsi que l'ingénierie de niveau système est essentielle pour rendre l'IA puissante et pratique.

Wright et Hill ont également discuté de la manière dont ce même principe s'applique aux grands modèles de langage modernes et au projet Open Source vLLM, qui révolutionne l'inférence de l'IA en rendant l'IA pratique et performante à grande échelle.

vLLM, qu'est-ce que c'est ?

vLLM est un serveur d'inférence qui aborde directement les défis d'efficacité et d'évolutivité rencontrés lors de l'utilisation de l'IA générative. En optimisant l'utilisation des ressources GPU coûteuses, vLLM rend les technologies d'IA puissantes accessibles et pratiques.

Red Hat s'est investi dans le projet vLLM en tant que contributeur commercial de premier plan. Nous avons intégré une version renforcée, prise en charge et adaptée à l'entreprise de vLLM dans Red Hat AI Inference Server. Ce produit est disponible en tant qu'offre conteneurisée autonome ou comme composant clé du portefeuille plus vaste Red Hat AI, incluant Red Hat Enterprise Linux AI (RHEL AI) et Red Hat OpenShift AI. Notre collaboration avec la communauté vLLM constitue un élément fondamental de notre stratégie globale d'IA Open Source.

L'importance de vLLM pour l'inférence des grands modèles de langage

L'inférence des grands modèles de langage désigne le processus par lequel un modèle d'IA applique son entraînement à de nouvelles données ou requêtes, et présente des goulets d'étranglement inhérents. Les méthodes d'inférence traditionnelles peuvent s'avérer inefficaces en raison de la génération séquentielle de jetons et de la faible utilisation du processeur graphique, ce qui entraîne une latence élevée en charge, des architectures inflexibles et non évolutives, ainsi que des contraintes sur la bande passante de la mémoire.

vLLM propose une approche rationalisée. Son principal objectif consiste à optimiser l'utilisation et le débit du processeur graphique, et y parvient grâce à une série d'optimisations clés.

  • PagedAttention : cette innovation de base utilise un concept similaire à la mémoire virtuelle d'un ordinateur pour gérer efficacement le cache clé-valeur (KV). Le cache KV est constitué des données intermédiaires dont un modèle doit se souvenir d’un jeton à l’autre.
  • Batch continu : cette technique permet au serveur d'inférence de traiter efficacement les nouvelles requêtes entrantes lorsqu'un lot est déjà en cours de traitement, ce qui réduit les temps d'inactivité et augmente le débit global.
  • Autres optimisations critiques : vLLM s'appuie également sur des techniques comme le décodage spéculatif, qui utilise un modèle plus petit et plus rapide pour prédire les prochains tokens, ainsi que des noyaux CUDA optimisés pour maximiser les performances sur du matériel spécifique.

vLLM agit comme une couche d'interface qui aide à gérer le flux global de données, le traitement par lots et la planification, permettant aux grands modèles de langage de s'intégrer à un large éventail de matériels et d'applications.

Avantages stratégiques pour l'IA d'entreprise

Si vLLM présente un intérêt technique, cette solution offre également des avantages stratégiques importants aux responsables informatiques. Ses optimisations aident à gérer les coûts, à optimiser l'évolutivité et à maintenir un contrôle rigoureux sur la pile technologique.

Démocratisation de l'IA et optimisation des coûts

vLLM aide votre organisation à tirer un parti optimal de son matériel existant. En augmentant considérablement l'utilisation du processeur graphique, vLLM contribue à réduire la quantité de matériel nécessaire à l'exécution de vos charges de travail, ce qui diminue en retour les coûts. Ces capacités d'IA avancées sont ainsi rendues accessibles à davantage d'organisations.

Mise à l'échelle des applications d'IA en toute confiance

L'utilisation accrue du GPU et l'optimisation des temps de réponse se traduisent directement par la prise en charge de déploiements de modèles et d'applications à grande échelle. Votre organisation peut ainsi prendre en charge davantage d'utilisateurs et gérer des charges de travail d'IA complexes sans compromettre les performances. Cette capacité permet de fournir l'évolutivité de niveau entreprise nécessaire pour faire passer les projets d'IA d'une preuve de concept à un environnement de production.

Flexibilité du matériel et choix croissant

La nature Open Source de vLLM et sa large prise en charge de divers accélérateurs matériels d'entreprises telles que NVIDIA, AMD et Intel, ainsi que des modèles majeurs de fournisseurs comme Meta, Mistral et IBM, constituent un avantage stratégique important. Cette solution confère à votre organisation une flexibilité accrue dans le choix des solutions matérielles. Elle vous aide également à conserver la capacité de choisir les accélérateurs qui répondent au mieux à vos besoins spécifiques, même s'ils évoluent.

Accélération de l'innovation et de l'impact sur la communauté

La valeur de la communauté Open Source active de vLLM est significative. La communauté est active et en pleine croissance, ce qui conduit à l'intégration rapide des nouvelles recherches et avancées. Cette accélération du développement et de l'innovation a contribué à établir vLLM comme une référence pour l'inférence des grands modèles de langage, et votre organisation peut bénéficier en permanence des dernières innovations.

IA de niveau entreprise avec vLLM

La vision de Red Hat est de rendre l'IA pratique, transparente et accessible dans l'environnement de cloud hybride. vLLM est une pierre angulaire de cette stratégie et un facteur clé de notre vision directrice : « Tout modèle, tout accélérateur, tout cloud. »

Red Hat AI Inference Server

Nous avons intégré vLLM dans Red Hat AI Inference Server, une distribution de vLLM renforcée, prise en charge et adaptée à l'entreprise. En plus de notre référentiel de modèles tiers optimisés et validés, nous proposons des outils comme LLM Compressor, qui favorisent des déploiements accélérés et économiques dans vos environnements de cloud hybride.

Tout comme Red Hat a contribué à l'unification du paysage Linux fragmenté, le serveur Red Hat AI Inference Server, optimisé par vLLM, fournit une couche unifiée similaire pour l'inférence de l'IA. Cela aide à simplifier les déploiements complexes pour les organisations qui nécessitent un moyen cohérent et fiable d'exécuter les charges de travail d'IA.

Unification de l'infrastructure d'IA

Red Hat AI Inference Server est disponible sous forme d'offre conteneurisée autonome. Il joue également un rôle central dans le portefeuille Red Hat AI :

  • Les composants principaux sont fournis avec Red Hat Enterprise Linux AI (RHEL AI), qui fournit une plateforme de base pour le développement, les tests et le déploiement des grands modèles de langage.
  • Il s'agit d'un composant clé de Red Hat OpenShift AI, une plateforme MLOps intégrée qui permet de gérer le cycle de vie complet des modèles d'IA à grande échelle.
  • En outre, notre référentiel de modèles optimisés Hugging Face donne accès à des modèles tiers validés qui sont pré-optimisés pour fonctionner efficacement avec vLLM, tels que Llama, Mistral, Qwen et Granite.

Notre engagement envers la communauté Open Source se poursuit. En plus de notre implication dans la communauté vLLM, nous avons récemment lancé le llm-d project, un cadre d'inférence de grands modèles de langage distribués, natif pour Kubernetes, hautement performant et intégrant vLLM. Cette nouvelle initiative implique d'autres contributeurs, tels que Google et NVIDIA, et a été conçue pour faciliter l'exécution de l'IA à très grande échelle, et ainsi offrir des performances compétitives pour la plupart des modèles sur différents accélérateurs matériels.

Comment Red Hat peut vous aider

Red Hat AI fournit une plateforme d'IA d'entreprise complète pour l'entraînement des modèles et l'inférence, qui augmente l'efficacité, simplifie l'expérience et offre la flexibilité nécessaire au déploiement dans tout type d'environnement de cloud hybride. Notre vision est de rendre l'IA pratique, transparente et accessible, et notre portefeuille est conçu pour vous aider à élaborer et à exécuter des solutions d'IA qui répondent aux besoins de votre entreprise, des expérimentations initiales à la pleine production.

Notre approche du cloud hybride vous donne la liberté de mettre en œuvre l'IA comme vous le souhaitez, que ce soit pour moderniser vos applications ou en créer de nouvelles. Red Hat propose également des formations et certifications en IA, dont des cours gratuits sur les technologies d'IA, pour aider vos équipes à développer les compétences en IA dont votre organisation a tant besoin.

Ressource

Bien débuter avec l'inférence d'IA

Découvrez comment créer des systèmes d'inférence d'IA plus intelligents et plus efficaces. Apprenez-en plus sur la quantification, l'élagage et les techniques avancées telles que vLLM avec Red Hat AI.

À propos de l'auteur

The Technically Speaking team is answering one simple question: What’s next for enterprise IT? But they can’t answer that question alone. They speak to tech experts and industry leaders who are working on innovative tools. Tune in to their show for a front-row seat to the industry’s visions for the future of technology.

UI_Icon-Red_Hat-Close-A-Black-RGB

Parcourir par canal

automation icon

Automatisation

Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements

AI icon

Intelligence artificielle

Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement

open hybrid cloud icon

Cloud hybride ouvert

Découvrez comment créer un avenir flexible grâce au cloud hybride

security icon

Sécurité

Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies

edge icon

Edge computing

Actualité sur les plateformes qui simplifient les opérations en périphérie

Infrastructure icon

Infrastructure

Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde

application development icon

Applications

À l’intérieur de nos solutions aux défis d’application les plus difficiles

Virtualization icon

Virtualisation

L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud