Avec la précédente version de Red Hat OpenShift AI, nous avons établi une base solide pour l'infrastructure d'IA des entreprises. Aujourd'hui, avec le lancement d'OpenShift AI 3.3, nous tentons de répondre à deux questions qui divisent et qui empêchent souvent les projets d'IA d'atteindre la phase de production : la nécessité d'une gouvernance rigoureuse et le besoin d'un accès rapide pour les équipes de développement.
La solution OpenShift AI 3.3 introduit une suite d'outils conçus pour gérer un hub centralisé de ressources d'IA et se préparer à un avenir multimodèle et multiagent.
Ressources centralisées : AI Hub
À mesure que les entreprises déploient des cas d'utilisation qui reposent sur plus d'un modèle, les lacunes en matière de découvrabilité créent des goulets d'étranglement. Les équipes de plateforme ont besoin d'une source de vérité centralisée pour leurs ressources d'IA, qui leur permet d'enregistrer et de versionner les modèles avant leur configuration pour le déploiement, ainsi que de consulter les modèles déployés.
Elles ont également besoin de conseils pour déployer au mieux ces modèles, car il est souvent difficile d'évaluer les exigences matérielles et de comprendre le niveau de latence et de débit auquel s'attendre.
La plateforme AI Hub vise à apporter cette aide. Elle sert désormais de référentiel centralisé pour toutes les ressources d'IA de l'entreprise, des grands modèles de langage (LLM) dans OpenShift AI 3.3 aux serveurs MCP (Model Context Protocol) dans les prochaines versions.
Dans OpenShift AI 3.3, AI Hub fournit des données sur les performances et des conseils issus du programme de validation de modèles de Red Hat AI pour trouver le juste équilibre entre performances, coûts et exigences matérielles. Les équipes de plateforme peuvent ainsi guider les équipes de développement vers les configurations les plus efficaces avant tout déploiement.
Gouvernance à grande échelle : MaaS (Model-as-a-Service)
Si vous devez configurer et gérer vos propres GPU, puis y déployer des modèles d'IA, l'assemblage d'applications d'IA est un vrai défi. La plupart des équipes de développement, d'ingénierie de l'IA et de science des données préfèrent commencer avec un point de terminaison pour un modèle déjà opérationnel. Autrement, les tâches supplémentaires à réaliser les ralentissent et réduisent les délais de rentabilisation. De plus, cette approche n'est ni évolutive ni efficace en matière de coûts, de temps et de gouvernance.
De l'autre côté, lorsque les équipes de plateforme ont les moyens de fournir à toutes les équipes, notamment métier et de science des données, les modèles dont elles ont besoin, elles peuvent appliquer le paradigme qu'elles suivent pour les plateformes d'applications.
Dans ce scénario, les équipes de plateforme gèrent la mise à disposition et l'optimisation des modèles. Elles fournissent un ensemble centralisé de modèles d'IA contrôlés à l'aide de politiques d'accès basées sur les rôles, définissent des limites et conditions d'utilisation et gèrent les versions. De leur côté, les utilisateurs finaux reçoivent un point de terminaison d'API à utiliser pour commencer l'assemblage d'applications.
OpenShift AI 3.3 inclut une version préliminaire du système MaaS, conçu pour aider les entreprises à devenir leurs propres fournisseurs de modèles d'IA.
- Pour les administrateurs : définissez des politiques détaillées de limitation de débit dans l'interface utilisateur. Par exemple, vous pouvez allouer des quotas d'accès élevés aux modèles de petite taille utilisés pour les tâches quotidiennes, et définir des limites plus strictes pour les modèles frontier qui consomment beaucoup de ressources.
- Routage optimisé avec
llm-d: ce système fonctionne en tandem avec llm-d, le framework d'inférence distribuée natif pour Kubernetes. Tandis que vous définissez les politiques,llm-doptimise le routage des requêtes pour garantir l'utilisation la plus efficace possible du matériel, sans enfreindre les contrats de niveau de service (SLA).
Rapidité de développement : Gen AI Studio
Les modèles ou ressources que déploient les équipes de plateforme doivent être enregistrés et accessibles de manière centralisée pour permettre aux équipes d'ingénierie et de développement de commencer directement à les utiliser pour créer des applications.
Les équipes de développement ont également besoin d'un espace centralisé et déjà prêt pour tester ces modèles et ressources, dans lequel elles peuvent trouver le modèle, l'instruction ou l'outil le plus adapté à leur cas d'utilisation, sans avoir à se soucier de la complexité de l'infrastructure nécessaire à leur déploiement.
C'est ce que propose la version préliminaire de Gen AI Studio, ainsi que les outils nécessaires pour passer d'une instruction générative à un projet pilote.
- Environnement d'expérimentation de l'IA : testez des instructions génératives, des paramètres de modèle et des outils MCP. Dans OpenShift AI 3.3, vous pouvez importer vos propres serveurs MCP et activer ou désactiver des outils spécifiques, ce qui vous permet de définir le niveau de déterminisme requis pour garantir la fiabilité du comportement des agents. Lorsque vous passez de l'interface utilisateur d'OpenShift AI à votre environnement local, la fonction « View Code » d'OpenShift AI 3.3 permet d'afficher et de copier la configuration de l'espace d'expérimentation. Notre prochaine feuille de route s'appuie sur ces bases en vue d'améliorer l'expérience des équipes d'ingénierie de l'IA avec l'exportation du code, notamment la gestion des instructions génératives, les fonctionnalités de génération augmentée de récupération (RAG) et la sélection plus fine d'outils MCP.
- Points de terminaison des ressources d'IA : récupérez instantanément les clés d'API et les points de terminaison afin de commencer les tests dans votre IDE local.
Écart avec la production : évaluation et optimisation continues
L'un des principaux obstacles au déploiement en production n'est pas d'assembler le modèle, mais de gérer les coûts et de garantir une qualité constante.
- Optimisation des coûts grâce à la compression des modèles : OpenShift AI 3.3 inclut des workbenches guidés pour LLM Compressor (GitHub) et GuideLLM (GitHub), des outils Open Source que nous développons et utilisons pour évaluer et compresser des modèles dans le cadre de notre programme de validation. Vous pouvez désormais évaluer un modèle, le compresser (par exemple, avec la quantification) et comparer les gains de performances directement dans votre environnement. Apprenez-en plus sur les avantages des modèles compressés dans cet article de blog sur LLM Compressor.
- Suivi des expérimentations avec MLflow : nous lançons une version préliminaire pour les développeurs de l'intégration de MLflow. Tandis que la compression et l'évaluation aident à résoudre les problèmes de performances immédiats, MLflow fournit la « mémoire historique » pour le cycle de vie de l'IA. En enregistrant les résultats de
GuideLLMet les réponses des applications dans MLflow, vous pouvez suivre les régressions et la qualité au fil du temps, et ainsi vous assurer que vos optimisations n'altèrent pas la précision. - Vue d'ensemble de la boucle : désormais, vous pouvez voir la corrélation directe entre vos tests de compression et la latence d'inférence dans le tableau de bord MLflow, pour une approche de résolution des problèmes liés aux performances basée sur les données plutôt qu'empirique.
Essayez Red Hat OpenShift AI
Les nouvelles fonctions d'OpenShift AI 3.3 sont conçues pour transformer la manière dont vous gérez l'accès aux fonctionnalités d'IA sur la plateforme. Installez OpenShift AI 3.3 pour tester AI Hub et découvrir Gen AI Studio en version préliminaire ainsi que nos nouveaux workbenches d'optimisation. Lisez le communiqué de presse pour plus d'informations.
Vous pouvez également essayer OpenShift AI depuis le centre d'essai des produits Red Hat. Vous bénéficierez d'un accès gratuit pendant 60 jours à un environnement entièrement géré dans lequel tester ces outils adaptés à la production.
Essai de produit
Red Hat OpenShift AI (autogéré) | Essai de produit
À propos des auteurs
Jenny is a Technical Product Manager at Red Hat AI, where she focuses on the end-to-end platform experience for Red Hat AI Enterprise. She joined Red Hat through the Neural Magic acquisition, where she created user interfaces for LLM benchmarking and an AI control plane. Before moving into AI, she consulted for healthcare organizations and public health agencies, experiences that shape her focus on building AI tooling that supports practitioners in high-stakes, deeply specialized domains.
Jehlum is a Product Manager in the Red Hat AI team. She's focused on building platforms for generative AI applications. I am especially interested in data processing, observability, safety, evaluation - all key components to build production-grade generative AI applications on platforms that scale.
Taylor specializes in helping global enterprises transition Generative AI from experimental pilots to production-scale deployments. A specialist in large-scale inference and agentic systems, Taylor bridges the gap between complex infrastructure and practical application development. She is a dedicated advocate for open-source ecosystems, leveraging projects such as vLLM, llm-d and MLflow to build sovereign, secure, and observable AI stacks. Her work is centered on empowering organizations to reclaim control over their AI lifecycle through transparent and scalable open-source solutions.
Plus de résultats similaires
When AI finds the bugs: Why defense in depth was always the answer
Control your AI agent traffic at scale: Model Context Protocol gateway for Red Hat OpenShift is now in technology preview
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Parcourir par canal
Automatisation
Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements
Intelligence artificielle
Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement
Cloud hybride ouvert
Découvrez comment créer un avenir flexible grâce au cloud hybride
Sécurité
Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies
Edge computing
Actualité sur les plateformes qui simplifient les opérations en périphérie
Infrastructure
Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde
Applications
À l’intérieur de nos solutions aux défis d’application les plus difficiles
Virtualisation
L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud