Red Hat AI Inference

La solution Red Hat® AI Inference est une pile intégrée qui permet d'exécuter des opérations d'inférence rapides, cohérentes et économiques à grande échelle.

Vidéo : Is AI inference costing you too much? (durée : 2 min 16 s)

Présentation de Red Hat AI Inference

La solution Red Hat AI Inference offre le niveau de maîtrise de l'exploitation nécessaire pour exécuter tous les modèles sur tous les accélérateurs, dans l'ensemble du cloud hybride. 

Basée sur les frameworks vLLM et llm-d, cette pile d'inférence de bout en bout optimise l'utilisation économique des jetons textuels ainsi que la capacité du matériel pour réduire les délais de réponse. Utilisée comme moteur pour l'IA agentique et l'approche MaaS (Model-as-a-Service), cette technologie Open Source augmente l'efficacité des modèles sans dégrader les performances.

vLLM : la technologie Open Source de base

vLLM est un moteur d'inférence hautement efficace qui résout les problèmes d'utilisation des processeurs graphiques (GPU) en offrant un coût par jeton textuel réduit et une latence stable à grande échelle. 

Open Source et portable, ce projet communautaire en pleine croissance s'impose progressivement comme la plateforme de référence pour l'inférence de l'IA générative.

Nous contribuons activement au projet, et nous vous proposons de bénéficier de notre expertise unique pour vous aider à atteindre vos objectifs en matière d'IA.

La communauté vLLM en quelques chiffres

Plus de 500 000 GPU déployés 24 h/24 et 7 j/71

Plus de 200 types d'accélérateurs différents2

Plus de 500 architectures de modèles prises en charge2

24 fois plus de débit que les concurrents3

Avantages

Flexibilité du matériel et des modèles

Assurez la cohérence opérationnelle avec tous les types de modèles, quels que soient le matériel et le cloud.

Dissociez l'IA de son infrastructure sous-jacente pour créer une architecture MaaS unifiée, mettez à disposition les modèles et alimentez les agents efficacement. 

Utilisation économique des jetons textuels

Utilisez vLLM et llm-d pour augmenter le débit et réduire le coût par jeton textuel. 

Optimisez les ressources existantes pour une exécution économique des agents et une mise à l'échelle durable de l'IA. 

Évolutivité prévisible

Distribuez le trafic d'inférence de manière intelligente pour servir davantage d'utilisateurs et d'agents sur l'infrastructure existante. 

Gérez de manière fiable une variété de cas d'utilisation et de demandes, des workflows agentiques multimodaux aux dialogueurs et assistants de codage basés sur la RAG. 

Icône de llm-d

Accès anticipé à llm-d

Red Hat AI Inference propose désormais un accès anticipé au framework llm-d dans des environnements Kubernetes tiers ainsi que des fonctionnalités d'inférence distribuée sur Red Hat OpenShift®. 

Les modèles de votre choix

Créez une architecture MaaS unifiée sans reconstruire votre pile d'IA. 

La solution Red Hat AI Inference assure la cohérence opérationnelle avec toutes les combinaisons de modèles Open Source et d'accélérateurs matériels. Accélérez les déploiements en toute confiance avec notre collection de modèles optimisés, validés pour une exécution efficace avec Red Hat AI. 

233 % de ROI avec Red Hat AI

Nous avons chargé Forrester Consulting de réaliser une étude Total Economic Impact™ (TEI) pour déterminer le potentiel retour sur investissement (ROI) que les entreprises peuvent réaliser en déployant Red Hat AI. 

L'enquête menée auprès de clients qui utilisent Red Hat AI a révélé qu'une entreprise typique avait obtenu un ROI de 233 % sur trois ans, ce qui représente une valeur totale de plus du triple de l'investissement initial4.

Points forts du produit

Bénéficiez d'une pile d'inférence complète et entièrement intégrée, conçue pour mettre à disposition efficacement les modèles à grande échelle.

FonctionDétailsAvantage 
llm-d
Exécutez des fonctionnalités d'inférence distribuée sur OpenShift ou bénéficiez d'un accès anticipé au framework llm-d dans des environnements Kubernetes tiers.Accélérez l'inférence et exploitez pleinement votre infrastructure d'IA exécutée sur les distributions Kubernetes de votre choix. Voir la documentation
Télémétrie spécifique de l'IA générative
Consultez les indicateurs de performances propres aux modèles, comme le délai de génération du premier jeton textuel, le taux de réussite du cache clé-valeur et l'utilisation des GPU. 

Obtenez des informations utiles pour atteindre des objectifs de niveau de service stricts, et découvrez les possibilités d'amélioration de vos modèles. 

 
Boîte à outils pour l'optimisation des modèles
Optimisez les modèles de fondation ou personnalisés à l'aide de techniques comme la parcimonie ou la quantification.Maximisez la capacité du matériel pour minimiser les coûts et accélérer l'inférence.Voir la documentation
Approche Sparse MoE (Mixture of Experts) 
Exécutez des architectures Sparse MoE avec des agents à faible latence et des modèles de raisonnement sophistiqués. Réduisez les coûts d'inférence sans dégrader les performances grâce à une architecture de modèle efficace.Voir la documentation
Compatibilité avec tous nos produits
Les fonctionnalités de Red Hat AI Inference sont intégrées aux solutions Red Hat AI Enterprise et Red Hat OpenShift® AI. La solution est également compatible avec Red Hat OpenShift et Red Hat Enterprise Linux.Utilisez des produits Red Hat ou d'autres plateformes Linux et Kubernetes conformément à notre politique d'assistance pour les composants tiers.Voir la documentation

Options d'achat

La solution Red Hat AI Inference est disponible sous forme de produit autonome, ou dans le cadre de l'offre Red Hat AI. Ses fonctionnalités basées sur llm-d et vLLM sont intégrées aux solutions Red Hat AI Enterprise et Red Hat OpenShift AI. 

L'IA à votre service, selon vos conditions

IA générative

IA générative

Produisez des contenus, comme du texte et du code logiciel. 

La gamme Red Hat AI vous permet d'exécuter plus rapidement les modèles d'IA générative de votre choix, en utilisant moins de ressources et en réduisant les coûts d'inférence. 

IA prédictive

IA prédictive

Mettez en relation des schémas et prévoyez des résultats futurs. 

Grâce à la gamme Red Hat AI, les entreprises peuvent développer, entraîner, surveiller et mettre à disposition des modèles prédictifs, tout en assurant la cohérence dans le cloud hybride.

Mise en œuvre de l'IA

Mise en œuvre de l'IA

Créez des systèmes qui prennent en charge la maintenance et le déploiement de l'IA à grande échelle. 

Grâce à la gamme Red Hat AI, gérez et surveillez le cycle de vie des applications basées sur l'IA, tout en économisant des ressources et en garantissant la conformité avec les réglementations en matière de confidentialité. 

IA agentique

IA agentique

Créez des workflows capables de réaliser des tâches complexes avec une supervision limitée. 

La gamme Red Hat AI propose une approche flexible et une base solide pour concevoir, gérer et déployer des workflows d'IA agentique dans vos applications existantes.

Déployez votre solution avec l'aide de nos partenaires

Nos clients bénéficient à la fois des connaissances de spécialistes et de technologies pour en faire plus avec l'IA. Découvrez tous les partenaires qui s'efforcent d'obtenir une certification de compatibilité avec nos solutions. 

Logo Dell Technologies
Logo Lenovo
Logo Intel
Logo NVIDIA
Logo AMD

Témoignages client du Red Hat Summit et d'AnsibleFest 2025 en lien avec l'IA

Turkish Airlines

Avec un accès aux données à l'échelle de l'entreprise, Turkish Airlines a pu déployer des systèmes deux fois plus vite.

Logo JCCM

La JCCM a amélioré les processus d'évaluation environnementale de la région grâce à l'IA.

DenizBank

DenizBank a fait passer le délai de mise sur le marché de plusieurs jours à quelques minutes seulement.

Logo Hitachi

Hitachi a mis en œuvre l'IA dans toutes ses activités avec Red Hat OpenShift AI.

Foire aux questions

Faut-il acheter Red Hat AI Enterprise ou Red Hat OpenShift AI pour utiliser Red Hat AI Inference ?

Non. Vous pouvez acheter Red Hat AI Inference sous forme de produit Red Hat autonome. 

Faut-il acheter Red Hat AI Inference et Red Hat AI Enterprise ?

Non. Les fonctionnalités basées sur vLLM et llm-d de Red Hat AI Inference sont déjà intégrées aux solutions Red Hat AI Enterprise et Red Hat OpenShift AI. 

Est-il possible d'exécuter Red Hat AI Inference sur Red Hat Enterprise Linux ou Red Hat OpenShift ?

Oui. Basée sur vLLM, cette solution peut également être exécutée dans d'autres environnements Linux et Kubernetes dans le cadre d'un contrat avec un tiers. Elle offre aussi un accès anticipé à des fonctionnalités d'inférence distribuée basées sur llm-d dans des environnements Kubernetes tiers. 

Combien coûte la solution Red Hat AI Inference ?

Le tarif est calculé en fonction du nombre d'accélérateurs. 

Autres ressources sur l'IA

Se lancer avec l'IA en entreprise

Se lancer avec l'inférence d'IA

Mettre à l'échelle l'inférence d'IA dans le cloud hybride

Webinar sur l'amélioration des performances et la maîtrise des coûts

Contacter notre équipe commerciale

Parlez de Red Hat AI avec un représentant Red Hat

1 Goin, Michael, « [vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap », YouTube, 18 décembre 2025

2 Kwon, Woosuk, « Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale », X, 26 janvier 2026 

3 Kwon, Woosuk, et coll., « vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention », blog vLLM, 20 juin 2023

4 Étude de Forrester Consulting, commissionnée par Red Hat, « Forrester Total Economic Impact™ of Red Hat AI », février 2026