Création d'une base d'exploitation pour l'avenir de l'IA générative

7 mai 2024Jeff DeMoss, Will McGrath6 minutes (temps de lecture)

Aujourd'hui, l'intelligence artificielle (IA) générative continue de susciter l'intérêt du public, mais une chose semble plus évidente que jamais : l'innovation s'accélère. L'innovation se manifeste non seulement dans les améliorations révolutionnaires apportées aux modèles d'IA générative, mais aussi dans les technologies sous-jacentes qui les rendent utiles aux entreprises. La génération augmentée de récupération (RAG) a remplacé le réglage fin comme méthode privilégiée pour intégrer les données des entreprises aux grands modèles de langage (LLM).

Face à l'évolution rapide de l'IA générative, de nombreuses entreprises prennent le risque d'opter pour un fournisseur de plateforme d'IA de type hyperscaler et de miser sur un seul cloud principal dans leur plateforme d'IA afin de mieux aborder cette nouvelle technologie. Bon nombre d'entre elles recherchent une base d'IA sous-jacente cohérente et flexible pour l'IA générative et l'IA prédictive afin d'obtenir des capacités essentielles pour la création et l'amélioration des modèles, leur mise à disposition dans les applications basées sur l'IA, leur gestion et leur surveillance. Cette approche permet aux entreprises de réduire le risque de dépendance vis-à-vis d'un fournisseur en adoptant une plateforme d'IA suffisamment flexible pour être exécutée sur site, sur différentes plateformes cloud ou en périphérie du réseau. Les entreprises peuvent ainsi s'adapter à mesure que l'IA générative évolue.

Avant de lancer Red Hat OpenShift AI en tant que service cloud entièrement géré, nous avons constaté un fort intérêt pour une version sur site de cette offre de la part de nos premiers clients de la version bêta. Aujourd'hui, plus de 80 % des clients de Red Hat OpenShift AI adoptent la version autogérée pour une utilisation sur site. En tant que module complémentaire de la plateforme d'applications leader Red Hat OpenShift, qui fonctionne sur site et dans tous les principaux clouds publics (même en périphérie du réseau), Red Hat OpenShift AI contient de nombreuses fonctionnalités sous-jacentes de Red Hat OpenShift. En traitant l'IA comme une extension de votre environnement d'applications, vous pouvez améliorer l'efficacité des équipes de développement et de science des données.

Résumé des fonctions de Red Hat OpenShift AI

Voici les capacités principales de Red Hat OpenShift AI en tant que plateforme unique pour l'IA générative et l'IA prédictive.

Entraînement des modèles : projets

La solution Red Hat OpenShift AI propose plusieurs images de workbench et il est possible d'ajouter des images personnalisées via une interface utilisateur d'administration. L'interface utilisateur de projet permet d'organiser les fichiers de développement de modèles, les connexions de données et d'autres artéfacts nécessaires à un projet donné. Les fichiers de développement de modèles peuvent être créés à partir d'images de workbench personnalisées ou prêtes à l'emploi qui permettent d'accéder aux bibliothèques, paquets et outils prisés, notamment les notebooks Jupyter, PyTorch et RStudio. Les projets peuvent être partagés avec des autorisations spécifiques à des fins de collaboration. Ils permettent également de configurer le stockage en cluster pour l'enregistrement des données du projet et donnent aux data scientists, aux développeurs et aux autres utilisateurs qui contribuent au cycle de vie de l'IA accès à des fonctionnalités telles que les pipelines, la mise à disposition de modèles et leur surveillance.

Entraînement des modèles : charges de travail distribuées

L'entraînement de modèles distribué exploite simultanément plusieurs nœuds de cluster pour un entraînement de modèles plus rapide et plus efficace. Cette approche peut être utilisée pour l'entraînement de l'IA prédictive ainsi que pour l'entraînement et le réglage de l'IA générative, ce qui permet de réaliser des tâches qui seraient autrement impossibles sur le plan informatique.

La pile de charges de travail distribuées intégrée à Red Hat OpenShift AI comprend des technologies d'entraînement, de validation, de réglage et d'inférence. Le composant CodeFlare fournit un framework intuitif pour la pile d'entraînement qui simplifie l'orchestration et la surveillance des tâches. Il est intégré à des technologies telles que Ray pour les charges de travail distribuées et Kueue pour la planification des tâches et leur mise en file d'attente.

La fonction de charges de travail distribuées permet une intégration fluide de façon à optimiser l'utilisation des nœuds grâce à la prise en charge avancée des accélérateurs. Les tâches peuvent être hiérarchisées et distribuées, de manière interactive ou par lots. Il est également possible d'utiliser des charges de travail distribuées à partir de pipelines de science des données afin d'exploiter l'augmentation des capacités de calcul.

GPU et accélérateurs

L'un des principaux avantages de la solution Red Hat OpenShift AI est l'accès en libre-service au processeur graphique (GPU). Les spécialistes ITOps peuvent facilement prédéfinir leur environnement de ressources GPU, tant sur site que dans le cloud, pour que les équipes de science des données et de développement d'applications puissent facilement sélectionner les configurations adaptées à leurs tâches. Ce produit prend en charge une variété d'accélérateurs, notamment les GPU NVIDIA, les périphériques Intel Habana Gaudi et les GPU AMD. La fonction de profils d'accélérateurs permet aux administrateurs de configurer différents types d'accélérateurs qui conviennent le mieux à une charge de travail. Les utilisateurs peuvent sélectionner des accélérateurs de la solution Red Hat OpenShift AI à partir des interfaces utilisateur de développement et de mise à disposition des modèles.

Pipelines de science des données

Conçu pour l'entraînement de l'apprentissage automatique et basé sur les pipelines KubeFlow, le composant réservé aux pipelines de science des données permet aux data scientists d'automatiser les étapes de distribution et de test des modèles, en développement et en production. Un exemple de pipeline peut être utilisé pour collecter des données, les traiter, entraîner le modèle, télécharger le modèle existant, le comparer avec le nouveau modèle et faire passer le nouveau modèle vers l'environnement de développement et de test s'il est plus performant. Il est possible de versionner, suivre et gérer les pipelines comme les autres artéfacts de projet d'IA. En outre, un éditeur visuel permet de créer et d'automatiser ces pipelines via une interface par glisser-déposer. Les pipelines de science des données peuvent également exécuter des charges de travail distribuées.

Mise à disposition des modèles

L'interface utilisateur de mise à disposition de modèles est intégrée directement au tableau de bord et à l'interface utilisateur des projets Red Hat OpenShift AI pour mettre à disposition des modèles de fournisseurs et de frameworks tels que Hugging Face, ONNX, PyTorch ou TensorFlow. Les utilisateurs peuvent opter pour une plateforme de mise à disposition de modèles basée sur KServe ou ModelMesh, choisir parmi les divers serveurs de modèles et environnements d'exécution fournis avec Red Hat OpenShift AI, ou intégrer leurs propres moteurs d'inférence ou environnements d'exécution personnalisés, comme NVIDIA Triton. Les ressources de cluster, telles que les CPU et les GPU, peuvent être mises à l'échelle en fonction de la charge de travail. La pile de mise à disposition de modèles améliorée utilise des technologies Open Source telles que KServe, Caikit, vLLM et TGIS pour faciliter la mise à disposition de modèles.

Surveillance des modèles

Le tableau de bord de l'interface utilisateur de surveillance des modèles aide les spécialistes de l'exploitation à surveiller les indicateurs d'exploitation et de performances des serveurs de modèles et des modèles déployés. Les visualisations de surveillance des modèles comprennent des indicateurs de mesure tels que le nombre de requêtes d'inférence ayant abouti ou échoué, le délai moyen de réponse de l'inférence et l'utilisation spécifique du calcul. Ces données peuvent aider les utilisateurs à prendre les mesures appropriées, par exemple ajouter des ressources de calcul si le nombre de requêtes et le délai de réponse moyen augmentent avec le temps.

Intégrations de partenaires technologiques

En plus des intégrations précédentes à Red Hat OpenShift AI, proposées par des fournisseurs tels que Starburst, Anaconda, Pachyderm, NVIDIA et Intel, Red Hat collabore avec d'autres partenaires, notamment AMD, Elastic, Run:ai et Stability AI, afin de fournir davantage d'intégrations pour un large éventail de cas d'utilisation de l'IA générative.

En ce qui concerne la plateforme matérielle, Red Hat a annoncé une prise en charge optimisée et des intégrations aux microservices Intel® Enterprise AI et NVIDIA NIM sur Red Hat OpenShift AI. Dell a amélioré la solution Dell APEX Cloud Platform for Red Hat OpenShift afin de prendre en charge les cas d'utilisation de l'IA avec Red Hat OpenShift AI. Par ailleurs, Cisco a créé Cisco Validated Design pour les MLOps sur Red Hat OpenShift AI.

Red Hat OpenShift AI est un composant fondamental d'IBM watsonx.ai qui fournit des outils et des services d'IA essentiels pour les charges de travail d'IA générative. Watsonx.ai propose un studio professionnel afin de créer des applications d'IA générative en rédigeant peu de code, voire pas du tout. Il offre également des workflows faciles à utiliser pour le développement de modèles, ainsi qu'un accès à une bibliothèque de modèles de fondation IBM et de modèles Open Source. Red Hat OpenShift et Red Hat OpenShift IA sont des prérequis techniques intégrés pour le logiciel watsonx.ai.

Environnements déconnectés

Pour des raisons de sécurité et de conformité réglementaire, de nombreux clients Red Hat OpenShift AI nécessitent des déploiements déconnectés. Certaines entreprises, telles que celles du secteur public, des services financiers, de la santé et de la fabrication, ont besoin d'une prise en charge des installations air gap. Les clusters déconnectés se trouvent généralement sur un réseau restreint, souvent derrière un pare-feu. Les déploiements sont donc beaucoup plus complexes et exigent la prise en charge de registres privés pour mettre en miroir des images.

Edge computing

L'un des principaux tests pour une plateforme d'IA est sa capacité à prendre en charge des environnements d'edge computing. La mise à disposition de modèles en périphérie du réseau qu'offre Red Hat OpenShift AI étend le déploiement des modèles d'IA aux sites distants à grande échelle, de façon sécurisée et cohérente. Cette fonction permet de simplifier le déploiement des modèles en périphérie du réseau, d'assurer la cohérence entre les environnements et de sécuriser le processus d'inférence en périphérie du réseau. Cette fonctionnalité n'est disponible que pour les instances Red Hat OpenShift à nœud unique.

Testez Red Hat OpenShift AI dans votre propre cluster, découvrez nos modèles, démonstrations et recettes d'IA générative et d'IA prédictive et apprenez-en plus sur la création d'une base d'exploitation pour l'IA générative.

À propos des auteurs

Jeff DeMoss

Senior Product Manager, Red Hat OpenShift AI

Jeff DeMoss is a Senior Manager of Product Management for Red Hat OpenShift AI, a platform for developing, training, serving, and monitoring AI/ML models. Jeff was previously a product leader at SAS Institute for a suite of Software-as-a-Service (SaaS) applications used by organizations to apply analytics capabilities to optimize their marketing activities.

Read full bio

Will McGrath

Senior Principal Product Marketing Manager

Will McGrath is a Senior Principal Product Marketing Manager at Red Hat. He is responsible for marketing strategy, developing content, and driving marketing initiatives for Red Hat OpenShift AI. He has more than 30 years of experience in the IT industry. Before Red Hat, Will worked for 12 years as strategic alliances manager for media and entertainment technology partners.

Read full bio