Offrez un accès partagé à l'IA en centralisant l'exploitation des modèles
- Pour les équipes d'ingénierie de l'IA, le MaaS fournit un accès plus rapide aux modèles hautement performants via les API, ce qui évite d'avoir à télécharger des modèles, à gérer les dépendances ou à solliciter l'allocation de GPU par le biais de tickets chronophages.
Dans le cadre du MaaS, l'équipe d'exploitation de l'IA devient responsable des ressources d'IA partagées. Les modèles sont déployés sur une plateforme évolutive (comme Red Hat® OpenShift® AI ou d'autres solutions similaires), puis exposés via une passerelle d'API. Cette configuration permet à plusieurs utilisateurs, équipes de développement et services métier de fournir un accès simplifié aux utilisateurs finaux, tout en répondant aux priorités de sécurité et de gouvernance définies par les équipes informatiques et financières. Ces priorités peuvent inclure la mise en œuvre de fonctionnalités de refacturation interne afin d'adopter un modèle de consommation qui ne nécessite pas d'accès direct au matériel ni d'expertise technique approfondie. L'objectif est de fournir un accès intuitif aux modèles d'IA et non aux ressources nécessaires à leur exécution (comme les GPU et les unités de traitement de tenseur), tout en respectant les exigences de performances et de conformité des entreprises et sans compliquer l'accès pour les utilisateurs finaux.
En pratique, les utilisateurs interagissent uniquement avec des API qui produisent des réponses générées par les modèles. À l'instar des fournisseurs d'IA publics qui épargnent aux utilisateurs finaux les difficultés liées au matériel, les déploiements MaaS internes visent à simplifier la vie des équipes. Elles n'ont plus à gérer directement l'infrastructure matérielle et logicielle, à attendre la résolution de tickets, ni à patienter pendant la configuration des environnements. Les équipes d'IA et d'exploitation informatique sont responsables de la gestion du cycle de vie des modèles, de la sécurité, des mises à jour et de la mise à l'échelle de l'infrastructure, offrant ainsi aux utilisateurs finaux un accès simplifié, mais contrôlé.
Cette centralisation permet non seulement de rationaliser l'exploitation de l'IA en interne, mais aussi de renforcer la sécurité et la gouvernance. L'accès aux modèles d'IA est strictement contrôlé par le biais d'un système de gestion des informations d'identification via une passerelle d'API. Les entreprises peuvent facilement suivre l'utilisation des ressources, mettre en place des mécanismes de refacturation interne, s'assurer que les exigences de confidentialité sont respectées et établir des limites d'exploitation claires, ce qui rend l'IA plus pratique et plus simple à gérer. Pour ce faire, le suivi de l'utilisation au niveau des jetons textuels (entrants et sortants) est la méthode idéale, plus granulaire et précise que tout autre indicateur de mesure au niveau des GPU.
Contrôlez l'utilisation, limitez les accès et gérez les coûts
- La supervision centralisée permet aux équipes informatiques et d'ingénierie de plateforme d'éviter les déploiements de modèles non autorisés, d'appliquer les normes de sécurité et de conformité, et, de manière générale, simplifie la gestion du cycle de vie et de l'infrastructure.
- Pour les équipes financières, le suivi centralisé de l'utilisation et les mécanismes de refacturation interne contribuent à réduire le gaspillage. En exploitant les GPU de façon plus prévisible et plus responsable, les entreprises évitent les dépenses excessives liées à la sous-utilisation des ressources matérielles spécialisées.
Dans une architecture MaaS, le contrôle passe principalement par l'intégration d'une passerelle d'API à l'infrastructure d'IA. Cette approche permet aux équipes de gérer et surveiller l'utilisation de l'IA à un niveau très précis.
Les déploiements d'IA traditionnels sont souvent mal gérés ou inefficaces, car les modèles sont déployés de manière indépendante et sans supervision centralisée. Cette approche fragmentée entraîne l'inactivité ou de la sous-utilisation des ressources GPU, ce qui génère des inefficacités coûteuses. Les passerelles d'API placées au cœur de l'infrastructure d'IA créent un point d'accès contrôlé entre les utilisateurs et les modèles.
Cette configuration facilite le suivi précis de l'utilisation, jusqu'au niveau du jeton textuel. Les équipes peuvent clairement identifier la quantité consommée par chaque utilisateur, équipe ou application, et attribuer avec exactitude les coûts correspondants. Il est ainsi possible de déterminer si un utilisateur ou une application spécifique utilise trop de ressources et de prendre des mesures correctives, par exemple en limitant l'utilisation ou en recourant à des mécanismes de refacturation interne.
Les fonctions de limitation de requêtes fournies par la passerelle d'API assurent la cohérence des performances et évitent l'épuisement des ressources. Elles aident à réguler les accès, afin d'empêcher un seul utilisateur de monopoliser les ressources GPU ou de dégrader l'expérience des autres.
De plus, les passerelles d'API garantissent une gestion des identifiants et un contrôle des accès précis. Les utilisateurs internes ont la possibilité de générer des informations d'identification pour accéder aux modèles d'IA de manière indépendante, ce qui limite la charge de travail administrative. Ces informations d'identification peuvent également être annulées ou modifiées plus rapidement afin de s'adapter à l'évolution des exigences en matière de sécurité ou aux schémas d'utilisation.
De cette manière, la gestion des coûts devient plus transparente et plus responsable. Il est possible d'attribuer avec précision les dépenses liées aux GPU et à l'infrastructure aux équipes ou services concernés.
Prenez en charge tous les modèles, tous les accélérateurs et tous les clouds
Le contrôle est au cœur de l'approche MaaS. Elle permet aux entreprises de sélectionner et déployer de nombreux modèles d'IA, de choisir leurs accélérateurs matériels et de poursuivre l'exploitation dans leurs environnements cloud ou sur site existants. Elles ont ainsi toute la liberté de mettre en œuvre une IA qui répond à leurs besoins techniques, exigences de sécurité et préférences opérationnelles.
- Les entreprises qui souhaitent adopter l'IA se heurtent à diverses limitations, dont les plus communes sont les suivantes :
- Limitations inhérentes aux services cloud spécifiques
- Dépendance vis-à-vis d'écosystèmes de modèles propriétaires
- Contraintes liées à l'utilisation d'infrastructures matérielles fixes
- Le MaaS contribue à lever ces obstacles de plusieurs façons :
- Il prend en charge des modèles Open Source ou propriétaires, des modèles entraînés sur mesure et les LLM prisés comme Llama et Mistral.
- Outre la prise en charge des modèles textuels, cette approche permet l'analyse prédictive, la vision par ordinateur, la transcription audio et d'autres cas d'utilisation de l'IA générative multimodale comme la génération d'images ou de vidéos.
- Le MaaS reste indépendant des accélérateurs matériels :
- Aux entreprises de sélectionner les GPU ou autres accélérateurs adaptés à leurs charges de travail, leurs structures de coûts et leurs besoins en matière de performances
- Aux équipes responsables de l'IA de prendre les décisions critiques concernant le dimensionnement et le déploiement, ce qui améliore l'efficacité et réduit les erreurs des utilisateurs inexpérimentés
- La gestion centralisée assure :
- Une allocation et une utilisation optimales des ressources de l'infrastructure
- Une réduction des coûts d'exploitation et la prévention des erreurs de configuration des ressources
- Le MaaS peut être déployé dans tous les types d'environnement, notamment :
- Sur site, dans le cloud hybride, dans les environnements air gap et dans les clouds publics. Cette flexibilité s'avère particulièrement utile pour assurer la souveraineté des données, la conformité réglementaire et des contrôles de sécurité stricts dans les secteurs très réglementés.