Optimisation des ressources critiques avec llm-d et l'orchestrateur AI-RAN de SoftBank

18 février 2026Tushar Katarki4 minutes (temps de lecture)

Tandis que la réalité technique de l'AI-RAN se précise, de nombreux fournisseurs de services de télécommunications constatent qu'il ne s'agit plus seulement de savoir s'ils peuvent exécuter l'IA et un réseau d'accès radio (RAN) sur le même matériel. La question porte désormais sur la gestion de l'IA à grande échelle.

Dans le cadre de notre dernière collaboration avec SoftBank Corp., nous avons intégré llm-d dans l'orchestrateur AI-RAN de SoftBank, AITRAS. Fondé par Red Hat et d'autres leaders du secteur, llm-d constitue un framework Open Source conçu pour distribuer de manière dynamique et intelligente l'inférence des grands modèles de langage (LLM) au sein d'un RAN de manière plus efficace et performante.

Souhaitez-vous en savoir plus sur llm-d ? Obtenir une présentation de base

Le problème : Unification des charges de travail d'IA et de RAN en périphérie du réseau

Les fournisseurs de services déploient largement les applications RAN traditionnelles en périphérie du réseau sur des CPU et des GPU. Ces déploiements utilisent souvent des plateformes Kubernetes comme Red Hat OpenShift. Cependant, l'essor récent de l'IA générative et des modèles de langage basés sur les transformateurs permet de nouvelles formes de calcul et d'analyse en périphérie du réseau. Désormais, en plus des RAN traditionnels, des applications et des agents RAN basés sur l'IA nécessitent des points de terminaison d'exécution et d'inférence en périphérie du réseau.

La question essentielle pour les fournisseurs de services consiste donc à permettre la coexistence efficace des RAN traditionnels et de ces nouveaux modèles de langage et agents sur les sites RAN. Cette approche permet de débloquer de nouveaux cas d'utilisation, de générer de la valeur et de créer des opportunités de monétisation. Cette unification s'avère indispensable pour réduire les dépenses d'exploitation (OpEx) et accélérer la mise sur le marché des nouveaux services de périphérie générateurs de revenus.

Afin de rendre l'AI-RAN commercialement viable, les fournisseurs de services doivent traiter les charges de travail d'IA avec la même flexibilité que les fonctions réseau cloud-native (CNF) et les applications. Découvrez la collaboration entre SoftBank et Red Hat utilisant llm-d et vLLM pour l'AI-RAN.

llm-d : le lien entre l'inférence et les orchestrateurs

vLLM s'est imposé comme le leader Open Source pour l'inférence d'IA. Ce projet permet le déploiement de modèles hautes performances sur un seul nœud GPU. Cependant, cet outil n'est pas conçu pour gérer le déploiement de modèles sur une empreinte complexe à plusieurs nœuds. C'est précisément le problème que le projet llm-d doit résoudre. En s'appuyant sur Kubernetes, llm-d orchestre vLLM sur plusieurs nœuds afin de réaliser des inférences d'IA à l'échelle de la production. llm-d étend ainsi l'efficacité de vLLM à un environnement distribué.

L'intégration de llm-d dans l'orchestrateur SoftBank AITRAS permet aux fournisseurs de services de réaliser les avancées majeures suivantes :

Unification des charges de travail d'IA et de RAN : AITRAS orchestre et optimise les charges de travail RAN et les requêtes LLM sur plusieurs clusters GPU. En parallèle, llm-d et vLLM acheminent intelligemment (en tenant compte des préfixes, du cache KV et de la charge) les requêtes d'inférence vers les GPU afin de gérer les ressources de manière fluide et de permettre la mise à l'échelle automatique.
Optimisation tenant compte du matériel : L'inférence des LLM implique deux phases distinctes : le préremplissage (traitement des requêtes intensif en calcul) et le décodage (génération de jetons liée à la bande passante mémoire). Afin de maximiser l'utilisation du matériel dans des configurations hétérogènes, llm-d permet à AITRAS d'exploiter la désagrégation du préremplissage et du décodage en attribuant de manière dynamique des ressources GPU spécialisées à chaque phase. Cette approche, associée à d'autres capacités Kubernetes pour la gestion des ressources, aide à atténuer le risque de saturation des fonctions RAN critiques par les demandes d'IA hautes performances sur un même matériel. Cette mesure s'avère indispensable pour protéger la résilience du réseau et garantir une qualité de service (QoS) supérieure pour l'ensemble de la clientèle.
Mise à l'échelle autonome pour la demande variable : Les requêtes des personnes utilisant les services LLM sont très variables. Grâce à llm-d, AITRAS peut attribuer et mettre à l'échelle automatiquement des rôles de préremplissage et de décodage en fonction du profil de la charge de travail. Cette allocation optimisée réduit la latence pour les personnes utilisatrices et réduit considérablement la consommation d’énergie. Ce résultat diminue le coût total de possession (TCO) et soutient les objectifs de durabilité du fournisseur de services.

Importance pour l'avenir de la 5G et de la 6G

L'intégration de llm-d au sein d'AITRAS fournit le système d'exploitation pour l'IA en périphérie de réseau (edge AI). Cette solution permet à SoftBank d'exécuter des charges de travail RAN et d'inférence de haute performance sur des architectures économes en énergie, notamment des systèmes basés sur Arm. Ce projet démontre que l'AI-RAN peut atteindre l'évolutivité et la flexibilité requises pour les réseaux mobiles de nouvelle génération. Le passage des configurations manuelles à un modèle de déploiement automatisé piloté par llm-d permet aux fournisseurs de services de supprimer la complexité opérationnelle qui freinait jusqu'alors l'IA en périphérie de réseau.

Les fournisseurs de services entrent dans une ère où le réseau ne se contente plus de transporter des données : il les traite de manière intelligente et efficace. Les résultats de cette intégration sont présentés sur le stand Red Hat au MWC Barcelona 2026. Des spécialistes y expliqueront comment llm-d et AITRAS concrétisent les promesses de l'AI-RAN.

En attendant, découvrez les avantages de Red Hat AI et la collaboration entre Red Hat et SoftBank pour développer les technologies AI-RAN et optimiser les performances du réseau.

En savoir plus : explications sur llm-d