Da die technische Realität von AI-RAN in den Fokus rückt, erkennen viele Telekommunikationsanbieter, dass es nicht mehr nur darum geht, ob sie KI und Radio Access Network (RAN) auf derselben Hardware ausführen können. Es geht vielmehr darum, wie sie KI in großem Umfang verwalten.
Im Rahmen der neuesten Zusammenarbeit von Red Hat mit der SoftBank Corp. haben wir llm-d in den AI-RAN-Orchestrator AITRAS von SoftBank integriert. Das von Red Hat gemeinsam mit anderen Branchenführenden entwickelte Open Source-Framework llm-d verteilt die Inferenzierung von Large Language Models (LLMs) innerhalb eines RAN dynamisch und intelligent. Dies sorgt für mehr Effizienz und eine gesteigerte Performance.
Das Problem: Vereinheitlichung von KI- und RAN-Workloads am Edge der Serviceanbieter
Serviceanbieter stellen traditionelle RAN-Anwendungen häufig am Edge auf CPUs und GPUs bereit. Dabei nutzen sie oft Kubernetes-Plattformen wie Red Hat OpenShift. Der jüngste Anstieg von Gen KI und transformer-basierten Sprachmodellen ermöglicht jedoch neue Berechnungsformen und Insights am Edge. Mittlerweile gibt es neben herkömmlichen RANs KI-gestützte RAN-Anwendungen und -Agenten, die Runtime- und Inferenzendpunkte am Edge benötigen.
Die entscheidende Frage für Serviceanbieter ist daher, wie sie eine effektive Koexistenz von traditionellem RAN und diesen neuen Sprachmodellen und Agenten an RAN-Standorten ermöglichen. So lassen sich neue Use Cases erschließen, Werte schaffen und die Monetarisierung fördern. Diese Vereinheitlichung ist wichtig, um die Betriebsausgaben (OpEx) zu senken und die Markteinführungszeit für neue, umsatzstarke Edge-Services zu verkürzen.
Damit AI-RAN kommerziell rentabel wird, müssen Serviceanbieter KI-Workloads mit der gleichen Flexibilität behandeln wie cloudnative Netzfunktionen (CNFs) und Anwendungen. Erfahren Sie mehr über die Zusammenarbeit zwischen SoftBank und Red Hat unter Verwendung von llm-d und vLLM für AI-RAN.
llm-d: die Brücke zwischen Inferenz und Orchestratoren
vLLM hat sich zum Open Source-Marktführer für KI-Inferenz entwickelt und bietet ein hochleistungsfähiges Modell-Deployment auf einer einzelnen GPU-Node. Es ist jedoch nicht für die Verwaltung des Modell-Deployments in einem komplexen Footprint mit mehreren Knoten konzipiert. Genau dieses Problem löst llm-d. Durch die Nutzung von Kubernetes orchestriert llm-d vLLM über mehrere Nodes hinweg, um eine KI-Inferenz im Produktionsmaßstab zu erreichen. So weitet llm-d die Effizienz von vLLM auf eine verteilte Umgebung aus.
Durch die Integration von llm-d in den SoftBank AITRAS-Orchestrator erzielen Serviceanbieter die folgenden wichtigen Neuerungen:
- Einheitliche KI- und RAN-Workloads: AITRAS orchestriert und optimiert RAN-Workloads und LLM-Anforderungen in mehreren GPU-Clustern. Gleichzeitig leiten llm-d und vLLM Inferenzanforderungen intelligent (Prefix, KVcache und Load Aware) an die GPUs weiter, um GPU-Ressourcen nahtloser zu verwalten und die automatische Skalierung zu ermöglichen.
- Hardwarebewusste Optimierung: Die LLM-Inferenz umfasst 2 verschiedene Phasen: Prefill (rechenintensive Prompt-Verarbeitung) und Decode (speicherbandbreitengebundene Token-Generierung). Zur Maximierung der Hardwarenutzung in heterogenen Konfigurationen ermöglicht llm-d AITRAS die Nutzung der Disaggregation von Prefill und Decode durch die dynamische Zuweisung spezialisierter GPU-Ressourcen zu jeder Phase. Zusammen mit anderen Kubernetes-Funktionen für das Ressourcenmanagement trägt dies dazu bei, das Risiko zu mindern, dass leistungsstarke KI-Anforderungen die kritischen RAN-Funktionen auf derselben Hardware beeinträchtigen. Dies schützt die Netzwerkresilienz und stellt eine herausragende Servicequalität (QoS) für die meisten Kunden sicher.
- Autonome Skalierung für variablen Bedarf: Nutzeranfragen nach LLM-Services sind sehr unterschiedlich. Mithilfe von llm-d kann AITRAS Worker-Rollen für Prefill und Decode basierend auf dem Workload-Profil automatisch zuweisen und skalieren. Diese optimierte Zuweisung reduziert die Latenz für die Nutzenden und verbessert den Stromverbrauch erheblich. Dies senkt die Gesamtbetriebskosten (TCO) und unterstützt die Nachhaltigkeitsziele des Serviceanbieters.
Warum dies für die Zukunft von 5G und 6G wichtig ist
Die Integration von llm-d in AITRAS stellt das Betriebssystem für KI am Edge effektiv bereit. SoftBank kann hochleistungsfähige Inferenz- und RAN-Workloads auf energieeffizienten Architekturen, einschließlich Arm-basierter Systeme, ausführen. Dies beweist, dass AI-RAN die Skalierbarkeit und Flexibilität für Mobilfunknetze der nächsten Generation erreicht. Durch die Umstellung von manuellen Konfigurationen auf ein automatisiertes, llm-d-gesteuertes Deployment-Modell beseitigen Serviceanbieter die operative Komplexität, die Edge-KI in der Vergangenheit ausgebremst hat.
Serviceanbieter erreichen ein Zeitalter, in dem das Netzwerk nicht nur Daten überträgt, sondern diese auch intelligent und effizient verarbeitet. Erfahren Sie mehr über die Ergebnisse dieser Integration am Stand von Red Hat auf dem MWC Barcelona 2026. Dort erklären Fachleute, wie llm-d und AITRAS das Versprechen von AI-RAN in die Realität umsetzen.
In der Zwischenzeit entdecken Sie die Vorteile von Red Hat AI und erfahren mehr über die Zusammenarbeit von Red Hat mit SoftBank, um AI-RAN-Technologien zu entwickeln und die Netzwerk-Performance zu optimieren.
Über den Autor
Ähnliche Einträge
The subject matter expert advantage in the AI era
The Open Accelerator joins the Google for Startups Cloud Program to empower the next generation of innovators
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen