Standardiser l'avenir de l'IA grâce au projet llm-d de la CNCF

24 mars 20264 minutes (temps de lecture)

SVP and CTO for AI

Aujourd'hui, nous apportons notre contribution à la Cloud Native Computing Foundation (CNCF) sous la forme d'un projet Sandbox.

Ce projet ne constitue pas un simple transfert de code. Cet engagement vise à faire de l'inférence d'IA hautes performances une capacité centrale et portable de la pile cloud-native. Lors du lancement de llm-d en mai 2025, nous avons cherché à combler l'écart de capacités considérable entre l'expérimentation d'IA et l'inférence de production stratégique à grande échelle. En intégrant llm-d à la CNCF, nous élargissons les efforts d'une coalition multi-fournisseurs (y compris CoreWeave, IBM, Google et NVIDIA) afin d'élaborer la norme ouverte pour l'inférence distribuée.

L’inférence au cœur de l’ère agentique

À l'aube d'un avenir fondé sur les agents, l'inférence d'IA qui soutient de vastes domaines d'agents d'entreprise est sur le point de se développer considérablement. Il devient essentiel que le coût et la complexité de l'inférence ne dépassent pas la valeur métier des agents eux-mêmes. Toutefois, l'inférence peut s'avérer extrêmement coûteuse et consommer de nombreux accélérateurs spécialisés ; à grande échelle, les coûts peuvent s'accroître davantage. Les fonctionnalités avancées de llm-d répondent directement à ce besoin en respectant les objectifs de niveau de service (Service Level Objectives) de l'entreprise tout en maximisant l'efficacité de l'infrastructure. De plus, les entreprises ont besoin de flexibilité pour déployer l'inférence là où cela est judicieux (centre de données, cloud ou périphérie) sur le matériel de leur choix. Cette flexibilité n'est possible que si l'écosystème sous-jacent repose sur l'open source et des normes ouvertes.

Combler le fossé du paysage cloud-native

Bien que Kubernetes constitue la norme du secteur pour l'orchestration, cet outil n'a pas été conçu à l'origine pour les exigences stateful uniques de l'inférence des grands modèles de langage (LLM). Dans un microservice traditionnel, chaque requête est identique : chaque réplica peut la traiter aussi efficacement que les autres. Avec l'IA générative, le coût d'une requête varie énormément selon la longueur des jetons (tokens) d'instruction et de sortie, la taille et l'architecture du modèle, l'emplacement du cache, et selon que le modèle se trouve en phase de pré-remplissage (limitée par le calcul) ou de décodage (limitée par la mémoire).

Le routage de services standard ignore ces dynamiques, ce qui entraîne un placement inefficace et une latence imprévisible. C'est ici que llm-d permet de combler l'écart. Celui-ci fonctionne comme une couche d'orchestration de plan de données spécialisée entre des plans de contrôle de haut niveau tels que KServe et des moteurs de bas niveau tels que vLLM. Grâce à des primitives natives pour Kubernetes, comme Gateway API et LeaderWorkerSet (LWS), llm-d transforme les charges de travail d'inférence distribuée complexes en tâches cloud-natives gérables et observables.

Renforcer l'écosystème par le biais de la contribution

En contribuant au projet llm-d de la CNCF, nous établissons des parcours balisés (des modèles éprouvés et reproductibles) qui transforment des composants d'IA fragmentés en microservices modulaires et interopérables. Cette contribution dépasse le cadre d'un projet unique ; elle enrichit l'ensemble du paysage cloud-native afin de faire de l'inférence un composant de premier ordre au sein du même environnement que les applications traditionnelles basées sur des conteneurs.

L'outil EPP (Endpoint Picker) constitue un élément central de ce travail. Le framework llm-d sert de mise en œuvre principale pour l'extension GAIE (Kubernetes gateway API inference extension), et l'EPP permet un routage programmable et sensible aux inférences. Le système prend ainsi des décisions de routage en fonction de l'état réel du moteur, optimisant les taux de réussite du cache clé-valeur et les caractéristiques des accélérateurs matériels. Cette exigence s'avère fondamentale pour maintenir un débit soutenu dans le cadre d'objectifs de niveau de service stricts.

llm-d complète et étend le paysage existant au sein de la CNCF :

Kubernetes : Fournit la principale plateforme d’infrastructure pour les charges de travail d'IA.
Gateway API : Ce projet favorise l'alignement en amont pour le routage spécifique à l'IA, garantissant ainsi que la gestion du trafic reste un composant ouvert essentiel.
KServe : Ce composant agit en tant que plan de contrôle de haut niveau qui s'intègre à llm-d pour prendre en charge des fonctions avancées telles que le service désagrégé et la mise en cache de préfixes.
LeaderWorkerSet : Ce projet utilise des primitives natives de Kubernetes pour orchestrer des répliques multi-nœuds complexes et le parallélisme d'experts, transformant des moteurs tels que vLLM en charges de travail cloud-native gérables.
Prometheus et Grafana : Ces outils exportent des indicateurs de mesure spécialisés, tels que le délai du premier jeton (TTFT), pour apporter une observabilité de classe entreprise à l'IA générative.

Faire évoluer ensemble l’avenir de l’inférence

La collaboration est au cœur de llm-d depuis sa création. Lorsque nous avons annoncé llm-d l'année dernière lors du Red Hat Summit, les efforts conjoints des contributeurs fondateurs du projet, des leaders du secteur et des soutiens universitaires ont fait la fierté de Red Hat, non seulement pour le lancement de llm-d, mais aussi pour l'établissement d'une base collaborative prête pour l'avenir. Au cours des 10 mois qui se sont écoulés depuis, les organisations ont adopté llm-d tant pour le MaaS (Model-as-a-Service) privé d'IA d'entreprise que pour les initiatives d'IA à grande échelle. Plus important encore, les fondations Open Source du projet continuent de s'élargir avec un écosystème croissant de contributeurs et de partenaires. Les équipes de développement et les entreprises accordent leur confiance à llm-d, et la contribution du projet à la CNCF soutiendra et maintiendra un avenir ouvert. La voie vers une innovation fructueuse en matière d'IA open source est longue, mais nous construisons ensemble l'infrastructure pour y parvenir.

À propos de l'auteur

Brian Stevens

SVP and CTO for AI

Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.

After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.