Votre preuve de concept des grands modèles de langage s'est avérée concluante. Et maintenant ? La plupart des entreprises rencontrent des difficultés lors du passage d'un serveur unique à une inférence d'IA distribuée et adaptée à la production. L'infrastructure qui vous a mené jusqu'ici ne peut plus suivre le rythme.
Comme cela a été abordé dans un épisode récent du podcast Technically Speaking, le parcours IA de la plupart des entreprises et leurs preuves de concept commencent par une tâche simple : le déploiement d'un modèle sur un serveur unique. Toutefois, l'étape suivante requiert souvent un saut majeur vers l'inférence d'IA distribuée et adaptée à la production. Il ne s'agit pas simplement d'ajouter des machines. Nous sommes convaincus qu'un nouveau type d'intelligence est requis au sein même de l'infrastructure : un plan de contrôle compatible avec l'IA capable de gérer la complexité de ces charges de travail uniques et dynamiques.
Un nouveau défi : l'inférence d'IA distribuée
Le déploiement de ce type de modèle à grande échelle s'accompagne de défis que les infrastructures traditionnelles n’ont pas été conçues pour relever. Un serveur Web standard, par exemple, traite des requêtes uniformes. En revanche, une requête d'inférence d'IA peut s'avérer imprévisible et gourmande en ressources, avec des exigences variables en matière de calcul, de mémoire et de réseau.
Cette situation peut être comparée à la logistique moderne. Le déplacement d'un petit paquet d'une ville à une autre est simple. Toutefois, la coordination d'une chaîne d'approvisionnement mondiale nécessite une gestion intelligente de la logistique. Ce système est capable de suivre des milliers de livraisons, d'acheminer de manière dynamique différents types de marchandises et d'ajuster la planification pour que tout arrive en temps voulu. Sans cette intelligence et une coordination minutieuse, c'est tout le système qui tombe en panne. De même, sans couche d'infrastructure intelligente, la mise à l'échelle de l'IA devient inefficace, coûteuse et peu fiable.
La complexité de ces charges de travail est liée aux phases de préremplissage et de décodage de l'inférence des grands modèles de langage. La phase de préremplissage traite l'ensemble de l'invite de saisie en une fois et constitue une tâche gourmande en calcul, tandis que la phase de décodage génère les jetons de sortie un par un et dépend davantage de la bande passante de la mémoire.
La plupart des déploiements sur serveur unique placent ces deux phases sur le même matériel, ce qui peut créer des goulets d'étranglement et dégrader les performances, en particulier pour les charges de travail volumineuses qui comportent des modèles de requêtes variés. Le véritable défi consiste à optimiser à la fois le délai de création du premier jeton (à partir de la phase de préremplissage) et la latence entre les jetons (à partir de la phase de décodage), afin de maximiser le débit, de gérer un nombre élevé de requêtes simultanées et, surtout pour les entreprises, de répondre de manière cohérente aux objectifs de niveau de service (SLO).
Une vision commune d'un problème commun
La puissance de l'Open Source se manifeste clairement pour relever ce défi complexe qui touche l'ensemble du secteur. Lorsqu'un problème est partagé entre les fournisseurs de matériel, les fournisseurs de cloud et les constructeurs de plateformes, une solution collaborative s'avère souvent la plus probante. Au lieu que des dizaines d'organisations travaillent de manière indépendante pour résoudre le même problème, un projet Open Source partagé permet d'accélérer l'innovation et d'établir une norme commune.
Le projet llm-d constitue un exemple éloquent de cette collaboration. Lancé par Red Hat et IBM Research, ce projet a été rapidement rejoint par une coalition de leaders du secteur, notamment Google et NVIDIA, travaillant tous à l'élaboration d'une vision collaborative.
La technologie llm-d est conçue pour fournir un « chemin éclairé », c'est-à-dire un modèle clair et éprouvé pour la gestion des inférences d'IA à grande échelle. Au lieu de tout construire à partir de zéro, la communauté se concentre sur l'optimisation et la standardisation des défis opérationnels liés à l'exécution de charges de travail d'IA à grande échelle.
llm-d : un modèle pour l'IA en production
Le projet llm-d développe un plan de contrôle Open Source qui enrichit Kubernetes de fonctionnalités spécifiques nécessaires aux charges de travail d'IA. Il ne remplace pas Kubernetes, mais ajoute une couche d'intelligence spécialisée et étend les performances d'exécution de vLLM dans une couche distribuée.
La communauté llm-d se concentre sur le développement de fonctionnalités qui ont un impact direct sur les performances et l'efficacité de l'inférence d'IA, notamment :
- Routage sémantique : l'ordonnanceur de llm-d connaît les exigences uniques en matière de ressources de chaque requête d'inférence. Il peut prendre des décisions éclairées quant à l'emplacement d'exécution d'une charge de travail, exploitant ainsi les ressources coûteuses de manière plus efficiente et évitant un surprovisionnement onéreux. Ce processus dépasse l'équilibrage de charge traditionnel grâce à l'utilisation de données en temps réel, comme le taux d'utilisation du cache clé-valeur (KV) d'un modèle, afin d'acheminer les requêtes vers l'instance la plus pertinente.
- Désagrégation de la charge de travail : llm-d sépare les tâches d'inférence complexes en sous-ensembles plus petits et gérables, en particulier les phases de préremplissage et de décodage. Cette approche offre un contrôle granulaire et permet l'utilisation de matériel hétérogène, en affectant la ressource adéquate à la tâche appropriée, ce qui contribue à réduire les coûts d'exploitation globaux. Par exemple, un pod de préremplissage peut être optimisé pour les tâches gourmandes en calcul, tandis qu'un pod de décodage est conçu pour être efficient en termes de bande passante mémoire. Cette approche permet d'atteindre un niveau d'optimisation granulaire impossible avec une approche monolithique.
- Prise en charge des architectures avancées : llm-d est conçu pour gérer les architectures de modèles émergents, telles que le mélange d'experts (MoE), qui nécessitent une orchestration complexe et un parallélisme sur plusieurs nœuds. En prenant en charge un parallélisme large, llm-d permet une utilisation efficiente de ces modèles épars. Ceux-ci se révèlent performants et économiques par rapport à leurs homologues denses, mais leur déploiement à grande échelle est plus complexe.
La communauté llm-d s'appuie sur des idées novatrices issues de domaines tels que l'informatique haute performance (HPC) et les systèmes distribués à grande échelle, et s'efforce d'éviter les configurations rigides et spécialisées qui peuvent rendre ces environnements difficiles à utiliser. Il combine stratégiquement des technologies ouvertes, comme vLLM pour la mise à disposition des modèles et la passerelle d'inférence pour la planification, au sein d'un cadre unique et unifié.
L'accent mis sur l'exploitabilité et la flexibilité constitue un principe fondamental de conception, et le projet prend en charge plusieurs accélérateurs matériels de fournisseurs tels que NVIDIA, AMD et Intel. En créant un plan de contrôle flexible qui fonctionne sur différents matériels et environnements, llm-d s'emploie à établir une norme solide et durable pour l'avenir de l'IA d'entreprise.
Conclusions
Pour les responsables informatiques qui se concentrent aujourd'hui sur l'opérationnalisation de l'IA, la valeur du projet llm-d s'étend au-delà de sa communauté. Le travail réalisé au sein de cette coalition Open Source, en particulier le développement d'un plan de contrôle intelligent et compatible avec l'IA, répond directement aux défis de production auxquels de nombreuses organisations sont aujourd'hui confrontées.
Les avantages de llm-d sont clairs :
- Dépasser la limite du serveur unique : La mise à l'échelle des grands modèles de langage ne consiste pas à ajouter davantage de machines. Elle consiste à mettre en œuvre une couche stratégique d'infrastructure capable de gérer intelligemment les charges de travail distribuées, de prendre en charge le matériel complexe et d'optimiser les coûts et les performances.
- Exploiter les normes ouvertes : Les solutions particulièrement robustes sont issues des efforts collaboratifs de l'Open Source, et non de silos propriétaires. L'adoption d'une plateforme conforme à ces normes ouvertes permet d'éviter toute dépendance vis-à-vis d'un fournisseur et offre un environnement flexible et pérenne pour les initiatives d'IA.
- Opérationnaliser avec un partenaire de confiance : Vous n'avez pas besoin d'être un spécialiste des systèmes distribués ni de contribuer directement au projet llm-d pour bénéficier de son innovation. La valeur créée au sein de la communauté est intégrée dans des plateformes d'entreprise prises en charge, telles que Red Hat AI, qui fournit une base cohérente et fiable pour le déploiement et la gestion de l'IA à grande échelle.
L'avenir de l'IA d'entreprise dépend d'une base d'infrastructure solide. La communauté llm-d s'emploie à construire cette fondation, et une plateforme telle que Red Hat AI peut vous aider à la mettre en pratique.
Ressource
L'entreprise adaptable : quand s'adapter à l'IA signifie s'adapter aux changements
À propos de l'auteur
Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.
During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.
Plus de résultats similaires
Resilient model training on Red Hat OpenShift AI with Kubeflow Trainer
Red Hat to acquire Chatterbox Labs: Frequently Asked Questions
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Parcourir par canal
Automatisation
Les dernières nouveautés en matière d'automatisation informatique pour les technologies, les équipes et les environnements
Intelligence artificielle
Actualité sur les plateformes qui permettent aux clients d'exécuter des charges de travail d'IA sur tout type d'environnement
Cloud hybride ouvert
Découvrez comment créer un avenir flexible grâce au cloud hybride
Sécurité
Les dernières actualités sur la façon dont nous réduisons les risques dans tous les environnements et technologies
Edge computing
Actualité sur les plateformes qui simplifient les opérations en périphérie
Infrastructure
Les dernières nouveautés sur la plateforme Linux d'entreprise leader au monde
Applications
À l’intérieur de nos solutions aux défis d’application les plus difficiles
Virtualisation
L'avenir de la virtualisation d'entreprise pour vos charges de travail sur site ou sur le cloud