L'IA d'entreprise évolue des simples chatbots vers l'IA agentique. Ces systèmes utilisent un raisonnement indépendant et une planification en plusieurs étapes pour accomplir des tâches complexes de manière autonome. Pour créer ces applications basées sur l'IA, les équipes d'ingénierie de l'IA et de développement d'agents requièrent un accès immédiat aux modèles via des points de terminaison d'API fiables s'exécutant comme des charges de travail à hautes performances. 

La conception des agents autonomes nécessite d'importantes ressources. Ces agents fonctionnent 24h00/24 et 7j/7 à grande échelle et peuvent solliciter l'infrastructure des dizaines de fois pour résoudre une seule tâche, ce qui génère une charge soutenue et des pics de demande de calcul importants. Sans base dédiée, les performances diminuent et les coûts augmentent. Associées aux exigences de sécurité et de gouvernance liées aux données d'entreprise sensibles, ces pressions constituent de sérieux obstacles à la production.

Red Hat AI aide à relever ces défis en proposant une plateforme unifiée couvrant toute la chaîne, de l’infrastructure aux agents, qui simplifie le déploiement de solutions d'IA. En fournissant un cadre cohérent pour les équipes de création et d'exploitation, Red Hat aide les entreprises à passer du statut de consommatrices de jetons à celui de fournisseuses de jetons. Cette évolution permet aux entreprises de mettre à l'échelle des systèmes autonomes tout en conservant l'efficacité matérielle et le contrôle des coûts de calcul nécessaires pour transformer les expérimentations d'IA en ressources prêtes pour la production.

De la distribution statique à l'orchestration précise : Réduction des coûts d'inférence

Le moteur d'inférence constitue la base de toute application basée sur l'IA. Pour créer des agents efficaces, les équipes de développement requièrent une faible latence et un débit élevé afin de prendre en charge le raisonnement par chaîne de pensée. Red Hat AI 3.4 introduit des outils qui garantissent ces performances tout en préservant la viabilité économique.

  • Model-as-a-Service (MaaS) for the enterprise : Dans cette nouvelle version, MaaS fournit aux équipes d'ingénierie de plateforme une interface utilisateur [disponibilité générale, GA] pour permettre la gestion des clés de jetons en libre-service pour l'administration basée sur les rôles [GA], le suivi de l'utilisation et la refacturation [version préliminaire, TP], ainsi que l'application des normes de sécurité lors de l'utilisation de modèles autohébergés [GA] et basés sur le cloud [TP].
  • Distributed inference with llm-d : Cette version simplifie l'exploitation de l'inférence distribuée et améliore la rentabilité à grande échelle. Les personnes déployant des modèles via l'interface utilisateur (UI) peuvent désormais découvrir les passerelles disponibles dans leur espace de noms et en sélectionner une ou plusieurs pour leur déploiement, ce qui supprime la dépendance à un seul paramètre par défaut à l'échelle du cluster [TP]. Un éditeur YAML intégré permet d'inspecter et de modifier les ressources sous-jacentes [TP]. La hiérarchisation des requêtes [TP] permet à llm-d de distinguer le trafic interactif du trafic d'arrière-plan sur le même point de terminaison, en traitant d'abord les requêtes sensibles à la latence et en abandonnant les tâches de moindre priorité en cas de saturation. La mise à l'échelle automatique [TP] ajuste les réplicas en fonction du nombre de requêtes actives, de la profondeur de la file d'attente et de l'utilisation des GPU. L'inférence par lots compatible avec OpenAI [version préliminaire pour les développeurs, DP] ajoute un mécanisme persistant de traitement asynchrone pour les charges de travail volumineuses telles que la classification de documents ou l'analyse de journaux.
  • Speculative decoding for performance [GA] : La plateforme Red Hat AI intègre le serveur d'inférence vLLM, qui inclut désormais la prise en charge du décodage spéculatif. Grâce à l'utilisation de modèles de brouillon très efficaces pour accélérer le traitement, cette technique peut augmenter la vitesse de réponse par deux ou trois sans perte de qualité, ce qui réduit directement le coût par interaction.
  • Hardware flexibility across GPUs, CPUs, and NPUs : Red Hat AI 3.4 élargit le choix des accélérateurs pour l'inférence d'entreprise grâce à la nouvelle prise en charge d'AMD pour les GPU et les CPU, notamment la prise en charge du GPU AMD Instinct MI355X, la prise en charge préliminaire d'AMD Instinct MI350P PCIe et la disponibilité générale du service CPU vLLM sur les processeurs AMD EPYC. Cette version inclut également la disponibilité générale du service d’inférence vLLM sur processeurs Intel Xeon et un conteneur Rebellions certifié pour ATOM NPU. Ce choix offre aux entreprises plus de flexibilité pour faire correspondre chaque charge de travail au niveau de calcul approprié : des GPU pour les charges de travail de raisonnement exigeantes, des processeurs pour des inférences légères et permanentes, et des NPU pour une distribution à haut débit et économe en énergie. Ensemble, ces fonctionnalités contribuent à réduire le coût par interaction, à améliorer l'utilisation de l'infrastructure et à fournir une expérience Red Hat AI cohérente dans des environnements d'accélérateurs hétérogènes.

Red Hat AI Inference, qui fournit une assistance d'entreprise pour vLLM et un accès aux modèles validés et optimisés par Red Hat, ajoute désormais des fonctionnalités d'inférence distribuée avec llm-d sur Red Hat OpenShift et des distributions Kubernetes tierces [TP]. La version initiale inclut la disponibilité sur CoreWeave et les services Kubernetes gérés d'Azure. Les entreprises peuvent désormais exécuter la même pile d'inférence dans tous les environnements sans modifier l'architecture pour chaque fournisseur. Cette approche garantit la cohérence des opérations d'IA et l'utilisation d'un socle ouvert et performant, quel que soit le matériel sous-jacent ou le fournisseur de cloud.

Validation de l'intégrité des modèles par le développement axé sur l'évaluation

L'efficacité d'un modèle dépend de la qualité des données qui le sous-tendent. Red Hat AI 3.4 privilégie le développement axé sur l'évaluation (EDD) en remplaçant les tests subjectifs par des données concrètes et des tests de performance afin de vérifier que les modèles et les agents sont prêts pour la production.

  • Suivi des expériences avec MLflow [GA] : L'intégration de MLflow constitue le socle de l'enregistrement automatique des métriques, des paramètres et des artéfacts pour assurer la reproductibilité et faciliter la comparaison des résultats pour les charges de travail prédictives et génératives. Ce processus inclut la gestion des instructions (prompts), qui traite ces dernières comme des ressources d'entreprise gouvernées et versionnées.
  • Expériences automatisées [TP] : Des outils comme AutoRAG et AutoML automatisent les tâches d'IA complexes pour réduire les approximations coûteuses et les tâtonnements manuels. AutoRAG automatise la sélection de modèles d'intégration (embedding) et de stratégies de segmentation pour la génération augmentée de récupération (RAG), ce qui aide les équipes à passer plus rapidement des données brutes à un pipeline performant. De même, AutoML gère l'ingénierie des caractéristiques et la sélection de modèles pour l'analyse prédictive, ce qui permet aux équipes de développement de se concentrer sur les résultats métier plutôt que sur la préparation des données.
  • Hub d'évaluation [TP] : Red Hat AI 3.4 introduit eval hub, un plan de contrôle d'évaluation d'IA unifié et indépendant du framework pour évaluer les grands modèles de langage (LLM), les applications d'IA et les agents. Ce plan remplace les méthodes de test fragmentées par une API REST unifiée et un contrôleur Kubernetes en proposant des collections d'évaluation organisées et personnalisées, un tableau de bord avec MLflow intégré, ainsi qu'un accès par interface en ligne de commande (CLI) et kit de développement logiciel (SDK). Grâce à l'utilisation des fiches de modèles OCI (Open Container Initiative) pour la gouvernance et d'un serveur MCP (Model Context Protocol) pour les évaluations détectables par les agents, il fournit un environnement natif pour les clusters permettant de mettre à l'échelle les tests de performance reproductibles, du poste de travail aux pipelines de production. 

Réduction des risques pour l'entreprise agentique : Maturité et traçabilité

Les agents autonomes exigent des niveaux élevés de visibilité, de traçabilité et d'accès contrôlé aux outils afin de rester dans les limites opérationnelles prescrites. Red Hat AI fournit le framework AgentOps pour garantir l'observabilité et la protection de ces systèmes.

  • Gestion gouvernée des instructions [TP] : L'intégration de MLflow alimente également de nouvelles capacités de gestion des instructions au sein du studio d'IA générative, un environnement centralisé où les équipes de développement peuvent prototyper des instructions, comparer les modèles et vérifier la sécurité sans passer d'un outil à l'autre. Cette fonctionnalité permet aux équipes de développement de versionner, de tester et d'affiner les instructions d'agent en tant que ressources gouvernées. La gestion des instructions en tant que code aide les entreprises à accélérer la création de valeur tout en maintenant la cohérence.
  • Gestion des identités [DP] : Red Hat AI met en œuvre SPIFFE/SPIRE pour les identités d'agent de chiffrement, en utilisant des jetons à courte durée de vie pour éliminer les clés codées en dur. Cette approche permet de mettre en œuvre une sécurité « zero trust » (confiance zéro) et permet aux agents de fonctionner selon les principes du moindre privilège dans les environnements de production.
  • Gestion du cycle de vie avec Kagenti [DP] : Pour les entreprises qui gèrent des ressources agentiques en constante évolution, la plateforme introduit Kagenti, un outil de gestion du cycle de vie qui permet aux équipes de déployer, de mettre à l'échelle et de gouverner des agents sans modifier le code sous-jacent. Kagenti permet la découverte et l'intégration d'agents tout au long de leur cycle de vie, facilitant ainsi la transition du développement à la production.
  • Traçabilité des agents via MLflow [GA] : MLflow assure la traçabilité des agents de bout en bout. Le système suit chaque appel de LLM, chaque exécution d'outil et chaque étape décisionnelle. Il s’agit d’une condition fondamentale pour le débogage, l'audit et l'évaluation des systèmes autonomes.
  • Gestion du MCP d'entreprise [DP/TP] : Red Hat AI introduit une approche de plateforme pour gouverner l'accès aux outils basés sur le MCP. Le MCP catalog [DP] permet aux équipes de découvrir et de déployer des serveurs MCP fiables provenant de Red Hat et de ses partenaires technologiques. L'opérateur de cycle de vie MCP [DP] gère ces ressources comme des charges de travail natives pour Kubernetes. La MCP gateway [TP] fournit l'authentification centralisée, le contrôle d'accès au niveau des outils et l'observabilité, de sorte que les agents accèdent uniquement aux outils autorisés.

Extension de la base : Sécurité et observabilité

Pour être durable, l'IA doit s'exécuter sur une base stable et transparente. Red Hat AI 3.4 constitue un hub d'exploitation complet qui intègre les processus MLOps, GenAIOps et AgentOps dans une seule et même plateforme.

  • Création intégrée avec prompt lab et registre [GA] : La plateforme fournit des outils unifiés pour créer et gérer des prompts, de sorte que la logique régissant le comportement agentique est stockée dans un registre central, offrant ainsi une source unique de vérité pour le personnel de développement et d'administration.
  • Sécurité de l'IA et « red teaming » [TP] : Red Hat AI 3.4 intègre l’analyse d’attaques adversariales automatisée directement dans le cycle de vie de développement. Grâce aux technologies issues de l'acquisition de Chatterbox Labs, la plateforme utilise Garak pour analyser les modèles et les systèmes agentiques afin de détecter les risques tels que les « jailbreaks » (débridages), les injections de prompt et les biais. Cette fonctionnalité fournit une analyse avancée des risques pour détecter les failles de sécurité dans la logique du modèle lors de la phase de développement plutôt que lors de l'exécution. L'identification et l'atténuation précoces des vulnérabilités permettent aux équipes d'évaluer l'intégrité de leurs applications d'IA afin de sécuriser la transition vers le déploiement en production.
  • Indicateurs de mesure et observabilité centralisés [TP] : Cette version offre une instance Prometheus unifiée et sans configuration dotée de tableaux de bord de base natifs. Le personnel d'administration des clusters peut surveiller l'utilisation du matériel et les indicateurs de mesure MaaS [TP] à partir d'une console unique. Elle permet également de visualiser les traces d'exécution étape par étape des agents, les chaînes de raisonnement, les appels d'outils et les interactions LLM directement dans la console [DP]. La plateforme conserve la flexibilité nécessaire pour acheminer ces indicateurs de mesure vers les collecteurs d'observabilité tiers existants.

Red Hat AI sur les marketplaces cloud

Red Hat AI Enterprise sera bientôt disponible pour l'approvisionnement direct sur AWS Marketplace, Microsoft Azure Marketplace et Google Cloud Marketplace. Cela offre aux entreprises une voie plus agile et flexible pour déployer une infrastructure d'IA sur le cloud de leur choix. Les organisations peuvent désormais appliquer les programmes Enterprise Discount Programs (EDP) existants ainsi que les dépenses cloud engagées aux souscriptions Red Hat AI, ce qui simplifie les processus financiers et d'approvisionnement.

Cette disponibilité constitue une extension des options cloud existantes de Red Hat AI. Red Hat propose déjà Red Hat Enterprise Linux AI sur les trois principales marketplaces pour les organisations qui souhaitent exécuter des LLM en mode image Red Hat Enterprise Linux. 

Red Hat AI Inference on IBM Cloud 

En association avec IBM Cloud, nous annonçons également la disponibilité de Red Hat AI Inference sur IBM Cloud, un service d'inférence entièrement géré qui permet aux clients d'exécuter des modèles d'IA de classe entreprise. Ce service offre un accès rapide et rentable aux modèles fondamentaux Open Source avec une gouvernance intégrée, telle que des contrôles d'accès de classe entreprise, l'audit et la gouvernance de l'utilisation. Exemples actuels du catalogue de modèles : Granite 4.0 H Small (IBM), Mistral-Small-3.2-24B-Instruct, Llama 3.3 70B Instruct et GPT-OSS-120B.

Conclusion

Red Hat AI 3.4 étend les fonctionnalités requises pour passer de chatbots expérimentaux à une entreprise agentique complète. Grâce à l'intégration de l'inférence distribuée, de pipelines de données automatisés, d'AgentOps indépendants des frameworks et d'une sécurité proactive de l'IA, Red Hat fournit une base complète pour le cloud hybride. Cette version élargit les outils permettant de créer des systèmes autonomes prévisibles, axés sur la sécurité et économiquement viables dans n'importe quel environnement. En tant que plateforme complète pour l'ère agentique, Red Hat AI aide les organisations à mettre l'innovation à l'échelle tout en conservant un contrôle total sur leurs ressources d'IA.

En savoir plus sur Red Hat AI et découvrir comment développer l'IA selon vos besoins. Red Hat AI 3.4 devrait être disponible d'ici la fin du mois.

Ressource

L'entreprise adaptable : quand s'adapter à l'IA signifie s'adapter aux changements

Ce livre numérique de Michael Ferris, directeur de l'exploitation et de la stratégie chez Red Hat, aborde le rythme des changements et des bouleversements technologiques liés à l'IA auxquels sont confrontés les responsables informatiques.

À propos des auteurs

Jennifer Vargas is a marketer — with previous experience in consulting and sales — who enjoys solving business and technical challenges that seem disconnected at first. In the last five years, she has been working in Red Hat as a product marketing manager supporting the launch of a new set of cloud services. Her areas of expertise are AI/ML, IoT, Integration and Mobile Solutions.

Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.

With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.

Younes Ben Brahim is a Principal Product Marketing Manager at Red Hat, focusing on the strategic positioning and market adoption of Red Hat's AI platform offerings. Younes has spent over 15 years in the IT industry leading product marketing initiatives, managing product lifecycles for HPC & AI, and delivering consulting services.
Prior to Red Hat, he has worked with companies like NetApp, Dimension Data, and Cisco Systems, providing technical solutions and product strategy for enterprise infrastructure and software projects.

Will McGrath is a Senior Principal Product Marketing Manager at Red Hat. He is responsible for marketing strategy, developing content, and driving marketing initiatives for Red Hat OpenShift AI. He has more than 30 years of experience in the IT industry. Before Red Hat, Will worked for 12 years as strategic alliances manager for media and entertainment technology partners.

UI_Icon-Red_Hat-Close-A-Black-RGB

Parcourir par canal

automation icon

Automatisation

Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements

AI icon

Intelligence artificielle

Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement

open hybrid cloud icon

Cloud hybride ouvert

Découvrez comment créer un avenir flexible grâce au cloud hybride

security icon

Sécurité

Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies

edge icon

Edge computing

Actualité sur les plateformes qui simplifient les opérations en périphérie

Infrastructure icon

Infrastructure

Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde

application development icon

Applications

À l’intérieur de nos solutions aux défis d’application les plus difficiles

Virtualization icon

Virtualisation

L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud