Da die technische Realität von AI-RAN in den Fokus rückt, erkennen viele Telekommunikationsanbieter, dass es nicht mehr nur darum geht, ob sie KI und Radio Access Network (RAN) auf derselben Hardware ausführen können. Es geht vielmehr darum, wie sie KI in großem Umfang verwalten.

Im Rahmen der neuesten Zusammenarbeit von Red Hat mit der SoftBank Corp. haben wir llm-d in den AI-RAN-Orchestrator AITRAS von SoftBank integriert. Das von Red Hat gemeinsam mit anderen Branchenführenden entwickelte Open Source-Framework llm-d verteilt die Inferenzierung von Large Language Models (LLMs) innerhalb eines RAN dynamisch und intelligent. Dies sorgt für mehr Effizienz und eine gesteigerte Performance.

Möchten Sie Ihre Kenntnisse zu llm-d auffrischen? Erhalten Sie einen Überblick über das 1x1 

Das Problem: Vereinheitlichung von KI- und RAN-Workloads am Edge der Serviceanbieter

Serviceanbieter stellen traditionelle RAN-Anwendungen häufig am Edge auf CPUs und GPUs bereit. Dabei nutzen sie oft Kubernetes-Plattformen wie Red Hat OpenShift. Der jüngste Anstieg von Gen KI und transformer-basierten Sprachmodellen ermöglicht jedoch neue Berechnungsformen und Insights am Edge. Mittlerweile gibt es neben herkömmlichen RANs KI-gestützte RAN-Anwendungen und -Agenten, die Runtime- und Inferenzendpunkte am Edge benötigen.  

Die entscheidende Frage für Serviceanbieter ist daher, wie sie eine effektive Koexistenz von traditionellem RAN und diesen neuen Sprachmodellen und Agenten an RAN-Standorten ermöglichen. So lassen sich neue Use Cases erschließen, Werte schaffen und die Monetarisierung fördern. Diese Vereinheitlichung ist wichtig, um die Betriebsausgaben (OpEx) zu senken und die Markteinführungszeit für neue, umsatzstarke Edge-Services zu verkürzen.

Damit AI-RAN kommerziell rentabel wird, müssen Serviceanbieter KI-Workloads mit der gleichen Flexibilität behandeln wie cloudnative Netzfunktionen (CNFs) und Anwendungen. Erfahren Sie mehr über die Zusammenarbeit zwischen SoftBank und Red Hat unter Verwendung von llm-d und vLLM für AI-RAN. 

llm-d: die Brücke zwischen Inferenz und Orchestratoren

vLLM hat sich zum Open Source-Marktführer für KI-Inferenz entwickelt und bietet ein hochleistungsfähiges Modell-Deployment auf einer einzelnen GPU-Node. Es ist jedoch nicht für die Verwaltung des Modell-Deployments in einem komplexen Footprint mit mehreren Knoten konzipiert. Genau dieses Problem löst llm-d. Durch die Nutzung von Kubernetes orchestriert llm-d vLLM über mehrere Nodes hinweg, um eine KI-Inferenz im Produktionsmaßstab zu erreichen. So weitet llm-d die Effizienz von vLLM auf eine verteilte Umgebung aus. 

Durch die Integration von llm-d in den SoftBank AITRAS-Orchestrator erzielen Serviceanbieter die folgenden wichtigen Neuerungen:

  • Einheitliche KI- und RAN-Workloads: AITRAS orchestriert und optimiert RAN-Workloads und LLM-Anforderungen in mehreren GPU-Clustern. Gleichzeitig leiten llm-d und vLLM Inferenzanforderungen intelligent (Prefix, KVcache und Load Aware) an die GPUs weiter, um GPU-Ressourcen nahtloser zu verwalten und die automatische Skalierung zu ermöglichen.
  • Hardwarebewusste Optimierung: Die LLM-Inferenz umfasst 2 verschiedene Phasen: Prefill (rechenintensive Prompt-Verarbeitung) und Decode (speicherbandbreitengebundene Token-Generierung). Zur Maximierung der Hardwarenutzung in heterogenen Konfigurationen ermöglicht llm-d AITRAS die Nutzung der Disaggregation von Prefill und Decode durch die dynamische Zuweisung spezialisierter GPU-Ressourcen zu jeder Phase. Zusammen mit anderen Kubernetes-Funktionen für das Ressourcenmanagement trägt dies dazu bei, das Risiko zu mindern, dass leistungsstarke KI-Anforderungen die kritischen RAN-Funktionen auf derselben Hardware beeinträchtigen. Dies schützt die Netzwerkresilienz und stellt eine herausragende Servicequalität (QoS) für die meisten Kunden sicher.
  • Autonome Skalierung für variablen Bedarf: Nutzeranfragen nach LLM-Services sind sehr unterschiedlich. Mithilfe von llm-d kann AITRAS Worker-Rollen für Prefill und Decode basierend auf dem Workload-Profil automatisch zuweisen und skalieren. Diese optimierte Zuweisung reduziert die Latenz für die Nutzenden und verbessert den Stromverbrauch erheblich. Dies senkt die Gesamtbetriebskosten (TCO) und unterstützt die Nachhaltigkeitsziele des Serviceanbieters.

Warum dies für die Zukunft von 5G und 6G wichtig ist

Die Integration von llm-d in AITRAS stellt das Betriebssystem für KI am Edge effektiv bereit. SoftBank kann hochleistungsfähige Inferenz- und RAN-Workloads auf energieeffizienten Architekturen, einschließlich Arm-basierter Systeme, ausführen. Dies beweist, dass AI-RAN die Skalierbarkeit und Flexibilität für Mobilfunknetze der nächsten Generation erreicht. Durch die Umstellung von manuellen Konfigurationen auf ein automatisiertes, llm-d-gesteuertes Deployment-Modell beseitigen Serviceanbieter die operative Komplexität, die Edge-KI in der Vergangenheit ausgebremst hat.

Serviceanbieter erreichen ein Zeitalter, in dem das Netzwerk nicht nur Daten überträgt, sondern diese auch intelligent und effizient verarbeitet. Erfahren Sie mehr über die Ergebnisse dieser Integration am Stand von Red Hat auf dem MWC Barcelona 2026. Dort erklären Fachleute, wie llm-d und AITRAS das Versprechen von AI-RAN in die Realität umsetzen.

In der Zwischenzeit entdecken Sie die Vorteile von Red Hat AI und erfahren mehr über die Zusammenarbeit von Red Hat mit SoftBank, um AI-RAN-Technologien zu entwickeln und die Netzwerk-Performance zu optimieren

Mehr erfahren: llm-d erklärt


Über den Autor

UI_Icon-Red_Hat-Close-A-Black-RGB

Nach Thema durchsuchen

automation icon

Automatisierung

Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen

AI icon

Künstliche Intelligenz

Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen

open hybrid cloud icon

Open Hybrid Cloud

Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.

security icon

Sicherheit

Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren

edge icon

Edge Computing

Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen

Infrastructure icon

Infrastruktur

Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen

application development icon

Anwendungen

Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen

Virtualization icon

Virtualisierung

Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen