Les grands modèles de langage (LLM) transforment de nombreux secteurs, du service clientèle aux applications de pointe, stimulant ainsi l'innovation. Les vastes possibilités qu'ils offrent s'accompagnent toutefois de coûts de calcul élevés et d'une grande complexité. Souvent, le déploiement de LLM nécessite du matériel onéreux et beaucoup d'efforts de gestion, ce qui empêche de nombreuses entreprises de bénéficier de solutions efficaces et évolutives. L'enjeu est donc d'exploiter la puissance des LLM à moindre coût. Avec le vLLM, les entreprises de toutes tailles peuvent profiter de la compression des modèles et d'opérations d'inférence efficaces, ce qui leur permet de réaliser des économies et d'accélérer le déploiement.
Priorité à la rapidité (et à l'efficacité)
L'exécution de LLM à grande échelle est une opération assez complexe. Ces modèles ont besoin de matériel puissant et coûteux, qui augmente les dépenses d'infrastructure et pose des problèmes d'exploitation. L'essor des applications en temps réel, telles que les dialogueurs (ou chatbots) ou les workflows multimodèles, ne fait qu'accroître la pression, exigeant à la fois rapidité et rentabilité. L'optimisation permet non seulement de réduire les coûts, mais aussi de libérer du temps pour l'ingénierie, d'accélérer les cycles de développement et de recentrer l'attention des équipes sur les priorités stratégiques plutôt que sur la gestion du matériel.
Compression des LLM : la clé d'opérations d'inférence efficaces
L'une des solutions pour relever ces défis est d'utiliser la compression des modèles, qui va réduire les demandes de ressources des LLM sans compromettre les performances d'inférence. Il existe deux grandes techniques :
- Quantification : conversion des pondérations de haute précision en formats réduits (par exemple, FP8, INT8 ou INT4), qui fait considérablement baisser les besoins en mémoire et en calcul. Les 500 000 évaluations de Neural Magic sur des LLM quantifiés montrent des opérations d'inférence 2 à 4 fois plus rapides en moyenne, avec des baisses de précision très faibles de l'ordre de 0,5 % à 1 % (récupération supérieure à 99 %).
- Élagage : suppression des paramètres redondants pour optimiser et accélérer les modèles. La réduction du nombre de connexions diminue les besoins en stockage et en traitement, ce qui simplifie le déploiement et baisse les coûts.
Pour permettre des opérations d'inférence encore plus rapides et efficaces sur tout type de matériel, Red Hat a récemment acquis Neural Magic, l'un des leaders de la compression de LLM. Au cours de l'année dernière, Neural Magic a optimisé des modèles très utilisés, tels que Granite, Llama, Mistral et Qwen, à l'aide d'une technique de quantification de pointe. Ces modèles Open Source prêts pour l'inférence sont disponibles sur Hugging Face.
La bibliothèque Open Source LLM Compressor offre des outils pratiques pour l'optimisation :
- Un ensemble riche d'algorithmes de quantification pour les pondérations et les activations
- L'intégration aux modèles et référentiels Hugging Face
- La prise en charge du format safetensors pour le stockage sécurisé des tenseurs, compatible avec le vLLM
- La gestion des grands modèles avec Accelerate
- La prise en charge d'algorithmes éprouvés, notamment GPTQ, SmoothQuant et SparseGPT
vLLM : rationaliser l'inférence sur différents types de matériel
La compression n'est efficace que si elle est associée à un moteur d'inférence hautes performances comme le vLLM, une bibliothèque Open Source dont le but est de faciliter et d'accélérer la mise à disposition des LLM. Né à l'Université de Berkeley, le vLLM compte près de 40 000 étoiles sur GitHub. Il est très apprécié dans les milieux universitaires et professionnels. En plus d'accélérer le déploiement des LLM, le vLLM le rend pratique, évolutif et accessible. Voici ses principaux avantages :
- Hautes performances : grâce à des techniques comme PagedAttention (qui optimise la mémoire des modèles les plus grands en gérant dynamiquement les caches clé-valeur), le vLLM offre un débit plus élevé que les frameworks traditionnels, tels que Hugging Face Transformers, avec des frais de latence quasi nuls. Les applications, des dialogueurs aux outils d'analyse en temps réel, réagissent plus rapidement et évoluent plus facilement. Pour en savoir plus sur les tests récents du vLLM, consultez cette page et cette page.
- Vaste compatibilité matérielle : processeurs graphiques (GPU) NVIDIA et AMD, unités de traitement de tenseur Google, Intel Gaudi, AWS Neuron, processeurs… Le vLLM s'adapte à d'innombrables configurations. Quel que soit l'accélérateur choisi, il permet d'exploiter l'infrastructure existante ou de sélectionner des options rentables sans avoir à changer d'outils. Pour vérifier le matériel compatible avec les méthodes de quantification, consultez cette page.
- Traitement par lots dynamique et évolutivité : la fonction de traitement avancé des requêtes du vLLM permet de regrouper les demandes entrantes de manière dynamique, ce qui optimise l'utilisation des ressources sans réglage manuel. Cette fonction est utile en cas de fort trafic, par exemple avec les bots d'assistance client ou sur les plateformes d'intelligence artificielle (IA) multi-utilisateurs, lorsqu'il est impossible de prévoir l'évolution de la demande.
- Simplification du déploiement : le vLLM simplifie la gestion des LLM grâce à des points de terminaison intégrés et compatibles avec le format d'API OpenAI pour la mise à disposition. Il suffit d'utiliser la commande
vllm serve [nom du modèle]pour déployer un modèle, avec à la clé moins de coûts d'exploitation et plus de temps pour l'innovation. C'est un moyen d'accéder plus rapidement à des solutions prêtes pour la production. - Personnalisation pour les spécialistes : facile à utiliser, le vLLM offre aussi des scripts automatiques plus avancés, notamment pour la génération de jetons personnalisés, le sharding de modèles et l'optimisation en vue du réglage fin. Il s'agit d'un outil flexible pour les équipes d'ingénierie qui repoussent les limites des LLM.
- Projet Open Source et communautaire : soutenu par The Linux Foundation et une communauté en pleine expansion, le vLLM offre de la transparence, une mise à jour rapides de ses fonctions et un haut niveau de compatibilité. Les contributions des leaders du secteur et des équipes de recherche permettent au vLLM de rester à la pointe de la technologie, et une documentation complète facilite la prise en main.
En association avec les modèles compressés, le vLLM crée un pipeline de bout en bout plus rapide, plus économique et plus facile à gérer. Que ce soit pour distribuer un seul dialogueur ou pour faire fonctionner un écosystème d'IA tentaculaire, le vLLM s'adapte à toutes les ambitions sans complexifier les systèmes.
Conclusion : le vLLM, le choix idéal pour l'optimisation
Les LLM peuvent apporter un avantage concurrentiel aux entreprises, si elles parviennent à maîtriser leur coût et leur complexité. C'est ce que permet la technologie du vLLM en optimisant les modèles, avec la garantie de générer des bénéfices et de renforcer l'efficacité opérationnelle. Les entreprises peuvent s'attendre à des coûts d'exploitation plus faibles (40 % à 50 % de gain au niveau des GPU), à un délai de mise sur le marché plus court grâce à un déploiement rationalisé et à une meilleure satisfaction des clients liée à la réactivité en temps réel. Quel que soit leur objectif, cette approche leur permet de déployer l'IA plus intelligemment et à moindre coût.
Les résultats parlent d'eux-mêmes. Une grande entreprise de jeux vidéo a utilisé le modèle quantifié Llama 70B INT8 de Neural Magic avec le vLLM pour alimenter des centaines de milliers de générations de code chaque jour, atteignant 10 requêtes par seconde à 50 ms par jeton textuel. En divisant par deux l'utilisation du GPU, elle a réduit de moitié les coûts d'infrastructure sans sacrifier les performances.
Lancez-vous
Vous souhaitez profiter des avantages des LLM optimisés et du vLLM ? Voici les étapes à suivre :
- Apprenez-en plus sur les modèles optimisés : découvrez les LLM préoptimisés sur Hugging Face, prêts pour un déploiement instantané.
- Optimisez vos propres modèles : utilisez l'outil LLM Compressor pour tester les techniques de compression et adapter les modèles à vos besoins.
- Essayez le vLLM : exécutez un exemple d'inférence pour vous faire une idée de la rapidité et de la simplicité d'utilisation du vLLM.
Si vous recherchez des solutions prêtes pour la production, vous pouvez vous adresser à nos spécialistes. Contactez-nous pour découvrir comment nous pouvons aider votre entreprise à exploiter efficacement les LLM.
Ressource
Se lancer avec l'IA en entreprise : guide pour les débutants
À propos de l'auteur
Saša Zelenović is a Principal Product Marketing Manager at Red Hat, joining in 2025 through the Neural Magic acquisition where he led as Head of Marketing. With a passion for developer-focused marketing, Sasa drives efforts to help developers compress models for inference and deploy them with vLLM. He co-hosts the bi-weekly vLLM Office Hours, a go-to spot for insights and community around all things vLLM.
Plus de résultats similaires
How Red Hat OpenShift AI simplifies trust and compliance
A 5-step playbook for unified automation and AI
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Parcourir par canal
Automatisation
Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements
Intelligence artificielle
Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement
Cloud hybride ouvert
Découvrez comment créer un avenir flexible grâce au cloud hybride
Sécurité
Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies
Edge computing
Actualité sur les plateformes qui simplifient les opérations en périphérie
Infrastructure
Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde
Applications
À l’intérieur de nos solutions aux défis d’application les plus difficiles
Virtualisation
L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud