Réduire les coûts et la complexité de l'inférence d'IA à grande échelle

21 octobre 2025Brian Stevens4 minutes (temps de lecture)

L'exploitation des modèles d'IA à grande échelle représente un défi majeur pour les responsables informatiques. Si le coût initial de l'entraînement d'un grand modèle de langage (LLM) peut s'avérer important, ce sont en fait les dépenses liées à l'inférence, souvent sous-estimées, qui augmentent les frais.

L'inférence d'IA désigne l'étape durant laquelle un modèle entraîné génère un résultat. Ce processus consomme beaucoup de ressources et génère des coûts très élevés, en particulier parce qu'il implique des opérations continues au cours de la phase de production. À ce stade, toute inefficacité risque de compromettre le retour sur investissement potentiel d'un projet d'IA et d'augmenter la latence, ce qui nuit à l'expérience client.

Approche globale de l'optimisation des performances d'IA

Pour distribuer efficacement des LLM à grande échelle, il est nécessaire d'adopter une démarche stratégique et globale qui cible à la fois le modèle et l'environnement d'exécution. Une approche unique ne suffit pas. Pour atteindre des performances élevées et rentabiliser les investissements, il faut à la fois gérer la consommation des ressources et optimiser le débit.

Optimisation du modèle d'IA

Cette approche repose sur la compression des modèles, qui permet de réduire la taille et la consommation de ressources d'un modèle sans perdre en précision.

La quantification est l'une des principales techniques d'optimisation des modèles. Elle diminue la précision des valeurs numériques d'un modèle, notamment les pondérations et les activations, pour passer du format standard de 16 bits à 8 ou 4 bits. Cette méthode réduit la taille de la mémoire du modèle, qui nécessite alors moins de ressources matérielles.

La parcimonie permet de renforcer l'efficacité des modèles en supprimant les connexions inutiles (pondérations). En fin de compte, le réseau est plus petit et plus rapide, tandis que la précision reste quasiment inchangée.

Optimisation de l'environnement d'exécution pour l'inférence

Il est tout aussi important d'optimiser l'environnement d'exécution. Les environnements de base se caractérisent souvent par une latence élevée et la présence de processeurs graphiques (GPU) inactifs, en raison d'une utilisation inefficace de la mémoire et d'une génération lente des jetons textuels, alors que les environnements hautes performances optimisent l'utilisation du matériel GPU coûteux et réduisent la latence.

Le projet Open Source vLLM est devenu la norme pour les opérations d'inférence hautes performances, car il résout les problèmes liés à l'environnement d'exécution à l'aide de techniques optimisées pour gagner en efficacité.

Le traitement par lots continu réduit le temps d'inactivité des GPU en traitant simultanément les jetons textuels de différentes demandes. Au lieu de traiter une seule demande à la fois, il regroupe les jetons textuels de différentes séquences en lots. Cette approche améliore considérablement l'utilisation des GPU et le débit d'inférence.
PagedAttention, une nouvelle stratégie de gestion de la mémoire, gère efficacement les caches clé-valeur à grande échelle, ce qui permet de traiter plus de demandes simultanées et d'exécuter des séquences plus longues, sans saturer la mémoire.

Déployer des modèles d'IA distribués à grande échelle

Avec les applications à fort trafic, les déploiements sur un seul serveur s'avèrent souvent insuffisants. Le projet Open Source llm-d s'appuie sur les capacités de vLLM pour distribuer les opérations d'inférence sur plusieurs nœuds. Les entreprises peuvent ainsi mettre à l'échelle les charges de travail d'IA sur plusieurs serveurs afin de gérer l'augmentation de la demande et des modèles plus volumineux, tout en assurant des performances prévisibles et la rentabilité.

Le projet llm-d est un plan de contrôle Open Source qui enrichit Kubernetes de fonctionnalités nécessaires aux charges de travail d'IA. Il cible des fonctions qui ont une influence sur les performances et l'efficacité de l'inférence :

Routage sémantique : llm-d utilise des données en temps réel pour acheminer intelligemment les demandes d'inférence vers l'instance la plus adaptée. Ainsi, les ressources sont utilisées plus efficacement et les coûts liés au provisionnement excessif diminuent.
Désagrégation des charges de travail : cette technique sépare les phases de préremplissage et de décodage afin d'allouer les meilleures ressources à chaque tâche.
Prise en charge d'architectures avancées : llm-d est compatible avec les architectures de modèles émergentes (par exemple les modèles MoE) qui nécessitent des processus d'orchestration et de parallélisme sur plusieurs nœuds.

En créant un plan de contrôle flexible qui fonctionne avec différents équipements et environnements, la communauté llm-d s'efforce d'établir une norme pour l'IA d'entreprise à grande échelle.

Nos solutions pour simplifier la mise en œuvre de l'IA à grande échelle

Pour adopter l'IA à l'échelle de l'entreprise, il ne suffit pas de choisir un modèle. Il faut également élaborer une stratégie de développement, de déploiement et de gestion dans une infrastructure de cloud hybride. Nous proposons de nombreux produits pour les entreprises qui visent à simplifier et accélérer ce processus, du développement initial du modèle à l'inférence à grande échelle.

Red Hat AI

La gamme Red Hat AI fournit une approche globale pour l'optimisation de l'IA. Cette offre intégrée comprend les solutions Red Hat Enterprise Linux AI (RHEL AI), Red Hat OpenShift AI et Red Hat AI Inference Server.

RHEL AI fournit une base pour le développement de l'IA. Cette plateforme met en paquet RHEL avec des composants Open Source clés, tels que les modèles Granite d'IBM et des bibliothèques comme PyTorch. Portable, elle peut s'exécuter sur site, dans le cloud public ou à la périphérie du réseau.
Red Hat OpenShift AI s'appuie sur Red Hat OpenShift. Cette solution est conçue pour gérer tout le cycle de vie des applications d'IA. Elle offre un environnement cohérent dans lequel les équipes informatiques, de développement et de science des données peuvent collaborer. Elle met à l'échelle les charges de travail d'IA dans les environnements de cloud hybride et simplifie la gestion des accélérateurs matériels.
Red Hat AI Inference Server optimise l'inférence en fournissant une distribution de vLLM prise en charge qui se caractérise par un débit élevé et une latence faible. Cette solution se présente sous la forme d'un conteneur qui peut s'exécuter dans diverses infrastructures et inclut un outil de compression de modèles pour réduire l'utilisation des ressources de calcul. Dans le cas d'une mise à l'échelle sur plusieurs serveurs, Red Hat AI Inference Server s'appuie sur le projet Open Source llm-d.

Pour les responsables informatiques, l'adoption d'une stratégie d'IA basée dans le cloud hybride pour toute la pile est le moyen le plus efficace de mettre en œuvre l'IA à grande échelle. Conformément à notre volonté de relier tous les modèles, tous les accélérateurs et tous les clouds, Red Hat AI fournit une base cohérente pour aider les entreprises à passer de la phase d'expérimentation à une stratégie d'IA prête pour la production à grande échelle.

Pour en savoir plus

Si vous souhaitez simplifier et mettre à l'échelle vos modèles d'IA, consultez les ressources disponibles sur le site web de Red Hat AI.

À propos de l'auteur

Brian Stevens

SVP and AI CTO

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.

Read full bio