Si l'entraînement des grands modèles de langage (LLM) est une tâche de grande envergure, l'inférence d'IA représente un défi financier considérable et souvent négligé. L'inférence correspond au processus selon lequel un modèle d'IA déjà entraîné traite de nouvelles données pour générer un résultat. Pour les entreprises qui déploient ces modèles en production, les coûts peuvent augmenter rapidement et considérablement, notamment en raison du volume élevé de jetons textuels, de la longueur des instructions génératives et d'une croissance de l'utilisation. Pour exécuter des LLM de manière rentable et efficace, il est essentiel d'adopter une stratégie complète.
Cette approche couvre deux domaines essentiels : l'optimisation de l'environnement d'exécution pour l'inférence et celle du modèle lui-même.
Optimisation de l'environnement d'exécution pour l'inférence
Avec les méthodes de distribution de base, l'utilisation de la mémoire GPU est souvent inefficace, le traitement par lot sous-optimal et la génération de jetons textuels lente. C'est pourquoi il est crucial de choisir un environnement d'exécution hautes performances pour l'inférence. vLLM est la bibliothèque Open Source de référence qui permet aux LLM d'effectuer des calculs plus efficaces à grande échelle.
vLLM relève ces défis liés à l'environnement d'exécution à l'aide de techniques avancées :
- Traitement par lots continu : au lieu de traiter les demandes une par une, vLLM regroupe les jetons textuels issus de plusieurs séquences par lots. Cette approche permet de réduire le temps d'inactivité des GPU et d'améliorer considérablement leur utilisation ainsi que le débit d'inférence.
- PagedAttention : cette stratégie de gestion de la mémoire gère efficacement les grands caches clé-valeur. Grâce à l'allocation et la gestion dynamiques des pages de mémoire GPU, PagedAttention augmente considérablement le nombre de requêtes simultanées et prend en charge des séquences plus longues sans saturer la mémoire.
Optimisation du modèle d'IA
En plus d'optimiser l'environnement d'exécution, les entreprises peuvent compresser les modèles pour réduire la taille de la mémoire et les exigences en matière de calcul. Les deux techniques principales sont la quantification et la parcimonie.
- Quantification : cette technique réduit la précision des valeurs numériques d'un modèle, notamment les pondérations et les activations, en utilisant moins de bits par valeur. Ce processus réduit considérablement la mémoire nécessaire pour stocker les paramètres du modèle. Par exemple, un modèle Llama contenant 70 milliards de paramètres peut être réduit de 140 Go à 40 Go environ. Il faut ainsi moins de ressources pour exécuter ces modèles et le débit de calcul est multiplié par deux sans dégradation significative de la précision.
- Parcimonie : la parcimonie permet de réduire la demande de ressources de calcul en fixant la valeur de certains paramètres du modèle à 0. Les systèmes évitent ainsi d'effectuer des opérations inutiles. Cette méthode permet de simplifier considérablement le modèle, et donc de diminuer l'utilisation de la mémoire ainsi que la charge de calcul. En fin de compte, l'inférence est plus rapide et les coûts d'exploitation sont réduits.
Red Hat AI : mise en pratique de la stratégie
Pour aider les entreprises à mettre en œuvre cette approche stratégique, la gamme Red Hat AI propose un ensemble unifié de solutions qui permettent de réaliser des opérations d'inférence hautes performances à grande échelle.
Avec ses puissants outils et ressources, la gamme Red Hat AI permet d'optimiser les modèles aussi bien que l'environnement d'exécution :
- Red Hat AI Inference Server : Red Hat fournit un moteur vLLM pris en charge et adapté aux entreprises, qui allie traitement par lots continu et utilisation efficace de la mémoire. En augmentant le débit et en réduisant l'utilisation des GPU, cet environnement d'exécution contribue à optimiser le retour sur investissement du matériel d'IA coûteux.
- Accès à des modèles validés et optimisés : la gamme Red Hat AI fournit un accès à un référentiel de modèles préévalués et prêts à l'emploi dont les performances ont été testées. Ces modèles sont rigoureusement évalués sur plusieurs tâches, puis publiés dans le référentiel Red Hat AI Hugging Face, qui aide les entreprises à réduire le délai de rentabilisation.
- Outil LLM Compressor inclus : notre boîte à outils pour les LLM fournit un moyen standardisé d'appliquer des techniques de compression telles que la quantification. Nous l'utilisons pour proposer des modèles optimisés qui permettent aux clients d'améliorer leurs propres modèles, qu'ils soient personnalisés ou optimisés par réglage fin.
Grâce à la gamme Red Hat AI, les entreprises peuvent déployer des modèles performants et rentables sur des configurations matérielles très variées, et ainsi répondre aux demandes croissantes en matière d'IA tout en contrôlant les coûts et la complexité.
Si vous souhaitez en savoir plus sur les techniques de bases pour optimiser les performances de l'inférence et des modèles, téléchargez le livre numérique gratuit Débuter avec l'inférence d'IA.
Ressource
Se lancer avec l'IA en entreprise : guide pour les débutants
À propos de l'auteur
Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.
With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.
Plus de résultats similaires
Resilient model training on Red Hat OpenShift AI with Kubeflow Trainer
Red Hat to acquire Chatterbox Labs: Frequently Asked Questions
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Parcourir par canal
Automatisation
Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements
Intelligence artificielle
Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement
Cloud hybride ouvert
Découvrez comment créer un avenir flexible grâce au cloud hybride
Sécurité
Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies
Edge computing
Actualité sur les plateformes qui simplifient les opérations en périphérie
Infrastructure
Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde
Applications
À l’intérieur de nos solutions aux défis d’application les plus difficiles
Virtualisation
L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud