Red Hat AI Inference

La solution Red Hat® AI Inference est une pile intégrée qui permet d'exécuter des opérations d'inférence rapides, cohérentes et économiques à grande échelle.

Essayer

Parler à un représentant Red Hat

Liens rapides

Voir la documentation du produit

Accéder aux ressources de formation

Suivre des formations pratiques

Télécharger le livre numérique

Vidéo : Is AI inference costing you too much? (durée : 2 min 16 s)

Présentation de Red Hat AI Inference

La solution Red Hat AI Inference offre le niveau de maîtrise de l'exploitation nécessaire pour exécuter tous les modèles sur tous les accélérateurs, dans l'ensemble du cloud hybride.

Basée sur les frameworks vLLM et llm-d, cette pile d'inférence de bout en bout optimise l'utilisation économique des jetons textuels ainsi que la capacité du matériel pour réduire les délais de réponse. Utilisée comme moteur pour l'IA agentique et l'approche MaaS (Model-as-a-Service), cette technologie Open Source augmente l'efficacité des modèles sans dégrader les performances.

Comprendre l'importance de l'inférence d'IA

vLLM : la technologie Open Source de base

vLLM est un moteur d'inférence hautement efficace qui résout les problèmes d'utilisation des processeurs graphiques (GPU) en offrant un coût par jeton textuel réduit et une latence stable à grande échelle.

Open Source et portable, ce projet communautaire en pleine croissance s'impose progressivement comme la plateforme de référence pour l'inférence de l'IA générative.

Nous contribuons activement au projet, et nous vous proposons de bénéficier de notre expertise unique pour vous aider à atteindre vos objectifs en matière d'IA.

Découvrir la communauté vLLM

La communauté vLLM en quelques chiffres

Plus de 500 000 GPU déployés 24 h/24 et 7 j/7¹

Plus de 200 types d'accélérateurs différents²

Plus de 500 architectures de modèles prises en charge²

24 fois plus de débit que les concurrents³

Avantages

Flexibilité du matériel et des modèles

Assurez la cohérence opérationnelle avec tous les types de modèles, quels que soient le matériel et le cloud.

Dissociez l'IA de son infrastructure sous-jacente pour créer une architecture MaaS unifiée, mettez à disposition les modèles et alimentez les agents efficacement.

Utilisation économique des jetons textuels

Utilisez vLLM et llm-d pour augmenter le débit et réduire le coût par jeton textuel.

Optimisez les ressources existantes pour une exécution économique des agents et une mise à l'échelle durable de l'IA.

Évolutivité prévisible

Distribuez le trafic d'inférence de manière intelligente pour servir davantage d'utilisateurs et d'agents sur l'infrastructure existante.

Gérez de manière fiable une variété de cas d'utilisation et de demandes, des workflows agentiques multimodaux aux dialogueurs et assistants de codage basés sur la RAG.

Accès anticipé à llm-d

Red Hat AI Inference propose désormais un accès anticipé au framework llm-d dans des environnements Kubernetes tiers ainsi que des fonctionnalités d'inférence distribuée sur Red Hat OpenShift®.

En savoir plus sur llm-d

Les modèles de votre choix

Créez une architecture MaaS unifiée sans reconstruire votre pile d'IA.

La solution Red Hat AI Inference assure la cohérence opérationnelle avec toutes les combinaisons de modèles Open Source et d'accélérateurs matériels. Accélérez les déploiements en toute confiance avec notre collection de modèles optimisés, validés pour une exécution efficace avec Red Hat AI.

Découvrir le référentiel de modèles sur Hugging Face

233 % de ROI avec Red Hat AI

Nous avons chargé Forrester Consulting de réaliser une étude Total Economic Impact™ (TEI) pour déterminer le potentiel retour sur investissement (ROI) que les entreprises peuvent réaliser en déployant Red Hat AI.

L'enquête menée auprès de clients qui utilisent Red Hat AI a révélé qu'une entreprise typique avait obtenu un ROI de 233 % sur trois ans, ce qui représente une valeur totale de plus du triple de l'investissement initial⁴.

Lire l'étude

Points forts du produit

Bénéficiez d'une pile d'inférence complète et entièrement intégrée, conçue pour mettre à disposition efficacement les modèles à grande échelle.

Télécharger la fiche technique

Fonction	Détails	Avantage
llm-d	Exécutez des fonctionnalités d'inférence distribuée sur OpenShift ou bénéficiez d'un accès anticipé au framework llm-d dans des environnements Kubernetes tiers.	Accélérez l'inférence et exploitez pleinement votre infrastructure d'IA exécutée sur les distributions Kubernetes de votre choix.	Voir la documentation
Télémétrie spécifique de l'IA générative	Consultez les indicateurs de performances propres aux modèles, comme le délai de génération du premier jeton textuel, le taux de réussite du cache clé-valeur et l'utilisation des GPU.	Obtenez des informations utiles pour atteindre des objectifs de niveau de service stricts, et découvrez les possibilités d'amélioration de vos modèles.
Boîte à outils pour l'optimisation des modèles	Optimisez les modèles de fondation ou personnalisés à l'aide de techniques comme la parcimonie ou la quantification.	Maximisez la capacité du matériel pour minimiser les coûts et accélérer l'inférence.	Voir la documentation
Approche Sparse MoE (Mixture of Experts)	Exécutez des architectures Sparse MoE avec des agents à faible latence et des modèles de raisonnement sophistiqués.	Réduisez les coûts d'inférence sans dégrader les performances grâce à une architecture de modèle efficace.	Voir la documentation
Compatibilité avec tous nos produits	Les fonctionnalités de Red Hat AI Inference sont intégrées aux solutions Red Hat AI Enterprise et Red Hat OpenShift® AI. La solution est également compatible avec Red Hat OpenShift et Red Hat Enterprise Linux.	Utilisez des produits Red Hat ou d'autres plateformes Linux et Kubernetes conformément à notre politique d'assistance pour les composants tiers.	Voir la documentation

Options d'achat

La solution Red Hat AI Inference est disponible sous forme de produit autonome, ou dans le cadre de l'offre Red Hat AI. Ses fonctionnalités basées sur llm-d et vLLM sont intégrées aux solutions Red Hat AI Enterprise et Red Hat OpenShift AI.

Parler à un représentant Red Hat

Avantages de la gamme Red Hat AI

Appuyez-vous sur une base fiable qui prend en charge tous les modèles et tous les agents dans le cloud hybride, sur tout type d'accélérateur matériel. L'offre Red Hat AI permet aux entreprises de déployer des applications en fonction des exigences en matière de données, de conformité et de coûts.

Inférence

Gérez la complexité des modèles grâce à des opérations d'inférence rapides et efficaces optimisées par vLLM, ainsi qu'à la possibilité d'exécuter tous les modèles sur tous les accélérateurs dans le cloud hybride.

Données

Personnalisez des cas d'utilisation de l'IA agentique propres à un domaine à l'aide de modèles connectés aux données privées de votre entreprise.

Agents

Simplifiez et accélérez l'adoption de l'IA agentique en maintenant un niveau élevé de contrôle et de gouvernance.

Plateforme

Déployez des solutions d'IA fiables et résilientes qui reposent sur la transparence Open Source et l'évolutivité du cloud hybride.

Déployez votre solution avec l'aide de nos partenaires

Nos clients bénéficient à la fois des connaissances de spécialistes et de technologies pour en faire plus avec l'IA. Découvrez tous les partenaires qui s'efforcent d'obtenir une certification de compatibilité avec nos solutions.

Découvrir les partenaires de Red Hat pour l'IA

Foire aux questions

Faut-il acheter Red Hat AI Enterprise ou Red Hat OpenShift AI pour utiliser Red Hat AI Inference ?

Non. Vous pouvez acheter Red Hat AI Inference sous forme de produit Red Hat autonome.

Faut-il acheter Red Hat AI Inference et Red Hat AI Enterprise ?

Non. Les fonctionnalités basées sur vLLM et llm-d de Red Hat AI Inference sont déjà intégrées aux solutions Red Hat AI Enterprise et Red Hat OpenShift AI.

Acheter la solution Red Hat Enterprise Linux AI

Est-il possible d'exécuter Red Hat AI Inference sur Red Hat Enterprise Linux ou Red Hat OpenShift ?

Oui. Basée sur vLLM, cette solution peut également être exécutée dans d'autres environnements Linux et Kubernetes dans le cadre d'un contrat avec un tiers. Elle offre aussi un accès anticipé à des fonctionnalités d'inférence distribuée basées sur llm-d dans des environnements Kubernetes tiers.

Combien coûte la solution Red Hat AI Inference ?

Le tarif est calculé en fonction du nombre d'accélérateurs.

Autres ressources sur l'IA

Se lancer avec l'IA en entreprise

Se lancer avec l'inférence d'IA

Mettre à l'échelle l'inférence d'IA dans le cloud hybride

Webinar sur l'amélioration des performances et la maîtrise des coûts

Contacter notre équipe commerciale

Parlez de Red Hat AI avec un représentant Red Hat

¹ Goin, Michael, « [vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap », YouTube, 18 décembre 2025

² Kwon, Woosuk, « Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale », X, 26 janvier 2026

³ Kwon, Woosuk, et coll., « vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention », blog vLLM, 20 juin 2023

⁴ Étude de Forrester Consulting, commissionnée par Red Hat, « Forrester Total Economic Impact™ of Red Hat AI », février 2026