Déployer l'IA à grande échelle et à moindre coût avec l'approche MaaS (Models-as-a-Service)

10 juin 2025Ishu Verma, Ritesh Shah, Juliano Mohr7 minutes (temps de lecture)

De plus en plus d'entreprises adoptent des solutions d'intelligence artificielle (IA). Toutefois, les modèles publics ont un coût croissant et risquent davantage de laisser les données de l'entreprise exposées à des tiers. L'approche MaaS (Models-as-a-Service) permet de mettre des modèles Open Source (et la pile technologique d'IA requise) à la disposition de l'ensemble de l'entreprise.

En outre, à mesure que l'adoption de l'IA s'accélère, la cohérence diminue, car chaque service s'efforce de créer sa propre solution d'IA pour couvrir un large éventail de cas d'utilisation (dialogueur, assistant de code, génération de texte/d'image, etc.).

En savoir plus sur l'approche MaaS

L'étude d'IDC sur les tendances en matière d'adoption de l'IA révèle que les entreprises passent de solutions ponctuelles à des solutions gérées qui peuvent transformer toute l'entreprise.

Souvent, chaque service a besoin de différents types de modèles d'IA adaptés à des cas d'utilisation spécifiques :

Modèles d'IA générative : créer des contenus, comme du texte ou des images
Modèles d'IA prédictive : classer ou prédire des schémas au sein des données
Modèles d'IA avec réglage fin : personnaliser les modèles avec des données propres à une entreprise ou à un domaine
Génération augmentée de récupération : améliorer les informations génériques des modèles à l'aide de données propres à une entreprise ou à un domaine

Malgré une prise en main facile, les modèles d'IA générative accessibles via des services hébergés par des tiers, comme OpenAI, Claude et Gemini, deviennent très coûteux à grande échelle. Il existe également des problèmes de confidentialité et de sécurité des données, car les données de l'entreprise peuvent être exposées à ces tiers. En cas d'autohébergement des modèles, les différents services de l'entreprise risquent de dupliquer leurs efforts, ce qui augmente les coûts et les délais de mise sur le marché.

La rapidité du lancement de modèles d'IA générative et des progrès en matière d'IA est telle que les entreprises n'arrivent plus à suivre le rythme. Elles doivent choisir parmi des dizaines de modèles, allant de modèles de très grande taille (450 milliards de paramètres) à des versions plus petites (quantifiées ou dotées d'un nombre réduit de paramètres), en passant par divers modèles spécialisés. Rares sont les développeurs qui possèdent l'expertise nécessaire pour faire le bon choix ou pour exploiter de manière optimale des ressources coûteuses (comme des GPU).

La création de solutions d'IA propres à chaque service pose plusieurs défis :

Coûts élevés : le déploiement et la maintenance des modèles d'IA nécessitent des clusters GPU coûteux, des connaissances en apprentissage automatique (AA) et un réglage fin continu. L'entraînement et le réglage fin des modèles en interne entraînent des frais élevés de calcul, de stockage et d'expertise. De plus, ces coûts peuvent devenir imprévisibles sans gouvernance centralisée.
Duplication : la duplication ou la sous-utilisation de ressources d'IA limitées peut peser inutilement sur les budgets.
Complexité : les équipes de développement souhaitent simplement accéder au modèle, sans avoir à gérer la complexité de l'infrastructure ou une pile d'IA en constante évolution.
Manque de compétences : les entreprises ne disposent pas des équipes d'ingénierie de l'AA, de science des données et de recherche en IA nécessaires à l'assemblage de modèles personnalisés.
Contrôle de l'exploitation : lorsque plusieurs services mènent chacun des projets d'IA de leur côté, les entreprises ont du mal à gérer la mise à l'échelle, le suivi des versions et la dérive des modèles.

Il est essentiel d'adopter une meilleure approche pour tirer parti de l'IA à moindre coût.

Avantages de l'approche MaaS

L'approche MaaS permet de mettre des modèles Open Source (et la pile d'IA nécessaire) à la disposition de chacun. Le service informatique de l'entreprise devient ainsi le fournisseur des services d'IA, qui peuvent être utilisés par toute l'entreprise.

Les utilisateurs ont le choix entre des modèles de pointe et des modèles quantifiés ou de petite taille, qui offrent des performances similaires à un coût très inférieur. Les modèles peuvent être réglés et personnalisés à l'aide de données d'entreprise privées et fonctionner sur du matériel moins puissant qui consomme moins d'énergie. Plusieurs instances de modèles peuvent s'adapter à différents cas d'utilisation et environnements de déploiement. Leur mise à disposition est optimisée pour exploiter pleinement les ressources matérielles disponibles.

Les équipes de développement peuvent accéder facilement aux modèles et concentrer leur attention sur le développement d'applications d'IA, sans avoir à se préoccuper des complexités de l'infrastructure sous-jacente (comme les GPU).

Le service informatique peut surveiller l'utilisation des modèles et facturer la consommation des services d'IA. Il peut également appliquer les meilleures pratiques de gestion de l'IA pour rationaliser le déploiement et la maintenance des modèles (par exemple, la gestion des versions et les tests de régression).

Voici les avantages qu'une entreprise peut s'assurer en faisant du service informatique son fournisseur privé pour l'IA :

Complexité réduite : infrastructure d'IA moins complexe pour les utilisateurs grâce à une approche MaaS centralisée
Coûts plus faibles : réduction des coûts grâce à la mise à disposition centralisée de services d'inférence des modèles
Sécurité renforcée : conformité avec les politiques de sécurité, de données et de confidentialité existantes, sans hébergement des modèles par des tiers
Innovation plus rapide : accélération du déploiement des modèles et de l'innovation, avec à la clé une mise sur le marché plus rapide des applications d'IA
Aucune duplication : duplication des ressources d'IA limitées entre les différents services évitée grâce à des data scientists capables de fournir des modèles optimisés pour les tâches courantes
Liberté de choix : aucune dépendance vis-à-vis d'un fournisseur et garantie de portabilité des charges de travail d'IA

Exemple de solution MaaS

Cette pile de solutions MaaS comprend Red Hat OpenShift AI, une passerelle d'API (incluse dans Red Hat 3scale API Management) et Red Hat Single Sign-on (SSO). Sur une seule et même plateforme, vous bénéficiez d'une gouvernance d'IA de bout en bout, d'un accès Zero Trust (Red Hat build of Keycloak), d'un serveur d'inférence d'IA (vLLM) et d'un cloud hybride flexible (OpenShift AI). Cette pile comprend également des outils cohérents pour déployer la solution sur site et dans le cloud avecRed Hat OpenShift.

Logical view of Model-as-a-Service solution

Voici une présentation détaillée de chacun de ces composants.

Passerelle d'API

La passerelle d'API fournit des capacités de contrôle adaptées aux entreprises pour les API des modèles. Cette pile de solutions repose sur la passerelle d'API 3scale, mais toute passerelle d'API d'entreprise peut être utilisée à la place. Voici les avantages de cette passerelle d'API :

Sécurité et conformité
- Appliquer l'authentification d'API via JWT/OAuth2 pour l'accès aux grands modèles de langage (LLM)
- Chiffrer tout le trafic d'API vers et depuis les services de LLM
- Consigner les audits de conformité (RGPD, HIPAA, SOC2)
Optimisation de l'utilisation
- Fixer des limites et des quotas pour éviter tout dépassement des coûts
- Surveiller l'utilisation des API de LLM par équipe/projet
- Identifier les points de terminaison inutilisés ou surutilisés
Prise en charge du déploiement hybride
- Gestion cohérente des API dans le cloud et sur site (via l'intégration à OpenShift)
- Déployer des passerelles d'API dédiées pour les instances de LLM privées
Aide aux équipes de développement
- Offrir un portail de développement en libre-service pour découvrir les API de LLM
- Automatiser la documentation et les tests pour les API
Intégration à OpenShift AI
- Appliquer la gouvernance pour les modèles déployés sur OpenShift AI
- Suivre l'utilisation des API d'IA/AA en parallèle des services traditionnels

Authentification

Le composant d'authentification fournit des capacités de gestion unifiée des identités pour les services de LLM. Cette pile de solutions repose sur Red Hat SSO, mais toute autre solution d'authentification d'entreprise peut être utilisée à la place. Voici les avantages de l'authentification :

Sécurité Zero Trust
- Centraliser l'authentification pour tous les outils de LLM (OIDC/SAML)
- Mettre en place un contrôle d'accès basé sur les rôles pour des autorisations précises
- Configurer l'authentification à plusieurs facteurs pour les charges de travail d'IA sensibles
Intégration des identités d'entreprise
- Se connecter à Active Directory, à LDAP ou à d'autres fournisseurs d'identité
- Automatiser le provisionnement / déprovisionnement des utilisateurs
Gestion évolutive des accès
- Mettre en œuvre l'authentification unique et unifiée pour tous les portails d'IA en interne
- Gérer les sessions pour assurer la conformité
Compatibilité avec le cloud hybride
- Sécuriser l'accès aux LLM exécutés dans tous les environnements (cloud public/sur site)
- Appliquer des politiques cohérentes entre les environnements

Intégration à OpenShift AI

Utiliser SSO pour les tableaux de bord OpenShift AI et les points de terminaison de modèles
Unifier les identités pour les utilisateurs de la plateforme et les clients de l'API

Serveur d'inférence

Cette pile de solutions utilise vLLM comme serveur d'inférence. Le framework vLLM prend en charge les modèles multimodaux, les incorporations et la modélisation des récompenses. Il est de plus en plus utilisé pour l'apprentissage par renforcement basé sur les commentaires humains. Grâce à des fonctions telles que l'ordonnancement avancé, le préremplissage par blocs, le traitement par lots avec plusieurs adaptateurs LoRA et des sorties structurées, vLLM est optimisé pour l'accélération de l'inférence et le déploiement à l'échelle de l'entreprise.

vLLM fournit également des outils de compression de LLM qui permettent aux clients d'optimiser leurs propres modèles.

Plateforme d'IA

Cette pile de solutions utilise OpenShift AI pour mettre à disposition des modèles et distribuer des applications innovantes. OpenShift AI intervient dans plusieurs domaines, notamment l'accélération du matériel, l'acquisition et la préparation des données, ainsi que l'entraînement, le réglage fin, la mise à disposition et la surveillance des modèles.

La version la plus récente d'OpenShift AI vise à améliorer l'efficacité en fournissant un accès à des modèles préoptimisés de plus petite taille. Elle réduit également les coûts de l'inférence grâce à la mise à disposition distribuée qui s'appuie sur le framework vLLM.

Disponible sous forme de logiciel autogéré ou de service cloud entièrement géré et exécuté sur OpenShift, OpenShift AI offre une plateforme sûre et flexible qui vous permet de développer et déployer vos modèles dans l'environnement de votre choix : sur site, dans le cloud public ou à la périphérie du réseau.

Developer and user workflows for Model-as-a-Service solution

Conclusion

Avec le développement et la mise à l'échelle de solutions d'IA, l'utilisation de modèles hébergés par des tiers devient très coûteuse et présente souvent des risques majeurs pour la confidentialité des données, car les données de l'entreprise sont exposées à ces tiers. L'autohébergement des modèles d'IA peut contribuer à assurer la confidentialité des données, mais non sans entraîner une duplication des efforts au sein des différents services, ce qui augmente les coûts et ralentit la mise sur le marché.

La nouvelle approche MaaS (Models-as-a-Service) permet de mettre des modèles Open Source à la disposition de toute l'entreprise. Ces modèles sont facilement accessibles aux équipes de développement, qui peuvent désormais concentrer leur attention sur la création d'applications d'IA sans avoir à se préoccuper de l'infrastructure sous-jacente. Le service informatique peut surveiller l'utilisation des modèles par les différents services et facturer à chaque équipe ou projet sa consommation des services d'IA.

L'approche MaaS permet de laisser de côté les solutions d'IA ponctuelles pour transformer les capacités d'IA de l'ensemble de l'entreprise.

Pour en savoir plus

Consultez l'architecture de solution MaaS pour en savoir plus ou découvrez une courte démonstration de la solution.
Accédez au référentiel MaaS pour configurer votre propre solution.
Contactez les services de consulting Red Hat pour bénéficier d'autres services.
Apprenez-en plus sur les avantages de la quantification.
Découvrez une démonstration d'InstructLab.

¹ IDC Directions, « Completing the Agentic Journey », avril 2025

À propos des auteurs

Ishu Verma

Emerging Technology Evangelist

Ishu Verma is Technical Evangelist at Red Hat focused on emerging technologies like edge computing, IoT and AI/ML. He and fellow open source hackers work on building solutions with next-gen open source technologies. Before joining Red Hat in 2015, Verma worked at Intel on IoT Gateways and building end-to-end IoT solutions with partners. He has been a speaker and panelist at IoT World Congress, DevConf, Embedded Linux Forum, Red Hat Summit and other on-site and virtual forums. He lives in the valley of sun, Arizona.

Read full bio

Ritesh Shah

Principal Architect

Ritesh Shah is a Principal Architect with the Red Hat Portfolio Technology Platform team and focuses on creating and using next-generation platforms, including artificial intelligence/machine learning (AI/ML) workloads, application modernization and deployment, Disaster Recovery and Business Continuity as well as software-defined data storage.

Ritesh is an advocate for open source technologies and products, focusing on modern platform architecture and design for critical business needs. He is passionate about next-generation platforms and how application teams, including data scientists, can use open source technologies to their advantage. Ritesh has vast experience working with and helping enterprises succeed with open source technologies.

Read full bio

Juliano Mohr

Principal Architect

Juliano Mohr is a Principal Architect at Red Hat, where he builds demos, labs, and workshops for the Red Hat demo platform. He was previously a Consulting Architect at Red Hat, applying his expertise in application development to support digital transformation. During his global career, he has deepened his knowledge in agile, DevOps, and modern software practices.

Read full bio