Wie llm-d mit dem AI-RAN-Orchestrator von SoftBank kritische Ressourcen optimiert

18. Februar 2026Tushar Katarki3 Minuten (Lesedauer)

Da die technische Realität von AI-RAN in den Fokus rückt, erkennen viele Telekommunikationsanbieter, dass es nicht mehr nur darum geht, ob sie KI und Radio Access Network (RAN) auf derselben Hardware ausführen können. Es geht vielmehr darum, wie sie KI in großem Umfang verwalten.

Im Rahmen der neuesten Zusammenarbeit von Red Hat mit der SoftBank Corp. haben wir llm-d in den AI-RAN-Orchestrator AITRAS von SoftBank integriert. Das von Red Hat gemeinsam mit anderen Branchenführenden entwickelte Open Source-Framework llm-d verteilt die Inferenzierung von Large Language Models (LLMs) innerhalb eines RAN dynamisch und intelligent. Dies sorgt für mehr Effizienz und eine gesteigerte Performance.

Möchten Sie Ihre Kenntnisse zu llm-d auffrischen? Erhalten Sie einen Überblick über das 1x1

Das Problem: Vereinheitlichung von KI- und RAN-Workloads am Edge der Serviceanbieter

Serviceanbieter stellen traditionelle RAN-Anwendungen häufig am Edge auf CPUs und GPUs bereit. Dabei nutzen sie oft Kubernetes-Plattformen wie Red Hat OpenShift. Der jüngste Anstieg von Gen KI und transformer-basierten Sprachmodellen ermöglicht jedoch neue Berechnungsformen und Insights am Edge. Mittlerweile gibt es neben herkömmlichen RANs KI-gestützte RAN-Anwendungen und -Agenten, die Runtime- und Inferenzendpunkte am Edge benötigen.

Die entscheidende Frage für Serviceanbieter ist daher, wie sie eine effektive Koexistenz von traditionellem RAN und diesen neuen Sprachmodellen und Agenten an RAN-Standorten ermöglichen. So lassen sich neue Use Cases erschließen, Werte schaffen und die Monetarisierung fördern. Diese Vereinheitlichung ist wichtig, um die Betriebsausgaben (OpEx) zu senken und die Markteinführungszeit für neue, umsatzstarke Edge-Services zu verkürzen.

Damit AI-RAN kommerziell rentabel wird, müssen Serviceanbieter KI-Workloads mit der gleichen Flexibilität behandeln wie cloudnative Netzfunktionen (CNFs) und Anwendungen. Erfahren Sie mehr über die Zusammenarbeit zwischen SoftBank und Red Hat unter Verwendung von llm-d und vLLM für AI-RAN.

llm-d: die Brücke zwischen Inferenz und Orchestratoren

vLLM hat sich zum Open Source-Marktführer für KI-Inferenz entwickelt und bietet ein hochleistungsfähiges Modell-Deployment auf einer einzelnen GPU-Node. Es ist jedoch nicht für die Verwaltung des Modell-Deployments in einem komplexen Footprint mit mehreren Knoten konzipiert. Genau dieses Problem löst llm-d. Durch die Nutzung von Kubernetes orchestriert llm-d vLLM über mehrere Nodes hinweg, um eine KI-Inferenz im Produktionsmaßstab zu erreichen. So weitet llm-d die Effizienz von vLLM auf eine verteilte Umgebung aus.

Durch die Integration von llm-d in den SoftBank AITRAS-Orchestrator erzielen Serviceanbieter die folgenden wichtigen Neuerungen:

Einheitliche KI- und RAN-Workloads: AITRAS orchestriert und optimiert RAN-Workloads und LLM-Anforderungen in mehreren GPU-Clustern. Gleichzeitig leiten llm-d und vLLM Inferenzanforderungen intelligent (Prefix, KVcache und Load Aware) an die GPUs weiter, um GPU-Ressourcen nahtloser zu verwalten und die automatische Skalierung zu ermöglichen.
Hardwarebewusste Optimierung: Die LLM-Inferenz umfasst 2 verschiedene Phasen: Prefill (rechenintensive Prompt-Verarbeitung) und Decode (speicherbandbreitengebundene Token-Generierung). Zur Maximierung der Hardwarenutzung in heterogenen Konfigurationen ermöglicht llm-d AITRAS die Nutzung der Disaggregation von Prefill und Decode durch die dynamische Zuweisung spezialisierter GPU-Ressourcen zu jeder Phase. Zusammen mit anderen Kubernetes-Funktionen für das Ressourcenmanagement trägt dies dazu bei, das Risiko zu mindern, dass leistungsstarke KI-Anforderungen die kritischen RAN-Funktionen auf derselben Hardware beeinträchtigen. Dies schützt die Netzwerkresilienz und stellt eine herausragende Servicequalität (QoS) für die meisten Kunden sicher.
Autonome Skalierung für variablen Bedarf: Nutzeranfragen nach LLM-Services sind sehr unterschiedlich. Mithilfe von llm-d kann AITRAS Worker-Rollen für Prefill und Decode basierend auf dem Workload-Profil automatisch zuweisen und skalieren. Diese optimierte Zuweisung reduziert die Latenz für die Nutzenden und verbessert den Stromverbrauch erheblich. Dies senkt die Gesamtbetriebskosten (TCO) und unterstützt die Nachhaltigkeitsziele des Serviceanbieters.

Warum dies für die Zukunft von 5G und 6G wichtig ist

Die Integration von llm-d in AITRAS stellt das Betriebssystem für KI am Edge effektiv bereit. SoftBank kann hochleistungsfähige Inferenz- und RAN-Workloads auf energieeffizienten Architekturen, einschließlich Arm-basierter Systeme, ausführen. Dies beweist, dass AI-RAN die Skalierbarkeit und Flexibilität für Mobilfunknetze der nächsten Generation erreicht. Durch die Umstellung von manuellen Konfigurationen auf ein automatisiertes, llm-d-gesteuertes Deployment-Modell beseitigen Serviceanbieter die operative Komplexität, die Edge-KI in der Vergangenheit ausgebremst hat.

Serviceanbieter erreichen ein Zeitalter, in dem das Netzwerk nicht nur Daten überträgt, sondern diese auch intelligent und effizient verarbeitet. Erfahren Sie mehr über die Ergebnisse dieser Integration am Stand von Red Hat auf dem MWC Barcelona 2026. Dort erklären Fachleute, wie llm-d und AITRAS das Versprechen von AI-RAN in die Realität umsetzen.

In der Zwischenzeit entdecken Sie die Vorteile von Red Hat AI und erfahren mehr über die Zusammenarbeit von Red Hat mit SoftBank, um AI-RAN-Technologien zu entwickeln und die Netzwerk-Performance zu optimieren.

Mehr erfahren: llm-d erklärt

Über den Autor

Tushar Katarki

Mehr erfahren

Nach Thema durchsuchen

Entdecken Sie alle Themen

Wie llm-d mit dem AI-RAN-Orchestrator von SoftBank kritische Ressourcen optimiert

Das Problem: Vereinheitlichung von KI- und RAN-Workloads am Edge der Serviceanbieter

llm-d: die Brücke zwischen Inferenz und Orchestratoren

Warum dies für die Zukunft von 5G und 6G wichtig ist

Über den Autor

Tushar Katarki

Ähnliche Einträge

Mehr erfahren

Nach Thema durchsuchen

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links