Mit Universallösungen ist eine KI-Nutzung im Enterprise-Bereich kaum darstellbar. Vielmehr ist ein strategischer, ganzheitlicher Ansatz erforderlich, der die Komplexität und Vielfalt realer geschäftlicher Herausforderungen berücksichtigt. Eine entscheidende Unterstützung für die produktive Nutzung, den Betrieb und die Skalierung von KI-Modellen bieten dabei vLLM, llm-d und das Models-as-a-Service-Konzept.
KI ist momentan das Trendthema schlechthin. Doch wie sieht es mit der realen Nutzung in Unternehmen aus? Generell lassen sich hier vier Reifestufen unterscheiden: die Anfangsphase mit vorgefertigten KI-Services, die Experimentierphase mit ersten Modell-Deployments, die Produktionsphase mit Fokus auf Skalierbarkeit und Governance sowie die Optimierungsphase mit einer zunehmenden Kostenreduktion und Qualitätsverbesserung. Die meisten Unternehmen befinden sich derzeit noch in den frühen Phasen. Die größte Herausforderung stellt der kritische Übergang von einzelnen Modell-Deployments zur produktiven Nutzung dar, denn dabei geht es um wichtige Themen wie Skalierbarkeit, Governance, Automatisierung oder Effizienz.
Ein zentrales Thema für die meisten Unternehmen ist momentan die Anreicherung von Modellen mit domänenspezifischem Wissen. RAG (Retrieval Augmented Generation) ist hier ein etabliertes Verfahren, das ein statisches Modell mit einer externen Wissensquelle verbindet. Das Modell greift zur Laufzeit auf relevante Dokumente zu, ohne neu trainiert zu werden. Fine-Tuning geht einen Schritt weiter: Vortrainierte Modelle werden gezielt mit neuem, spezialisiertem Wissen angepasst. Moderne Verfahren wie Orthogonal Subspace Fine Tuning (OSF) ermöglichen dabei effizientere und kostengünstigere Anpassungen, da neues Wissen integriert wird, ohne dass dabei bereits vorhandenes Wissen verloren geht.
Die größte Herausforderung für Unternehmen betrifft aber die KI-Inferenz, also die operative Phase von KI, in der das Modell in der Lage ist, das im Training Erlernte auf reale Situationen anzuwenden. Sie ist mit vielen – vor allem technischen – Hürden verbunden. Neue Entwicklungen aus der Open-Source-Welt können hier eine entscheidende Entlastung bieten und zu einer Beschleunigung sowie Effizienzverbesserung der KI-Inferenz führen. Die entscheidenden Komponenten sind dabei vLLM und llm-d.
vLLM ist eine Open-Source-Bibliothek, die große Sprachmodelle effizienter berechnen lässt. Als Inferenzserver optimiert vLLM die Nutzung des GPU-Speichers und beschleunigt dadurch die Ausgabe generativer KI-Anwendungen. So hilft vLLM, den wachsenden Rechenaufwand moderner KI-Modelle zu bewältigen, Hardware besser auszulasten und Kosten zu senken. Ein zentraler Vorteil von vLLM ist die hohe Flexibilität hinsichtlich unterstützter KI-Modelle und Hardwarebeschleuniger. Beispielsweise konnte durch die enge Zusammenarbeit von Red Hat und Mistral auch sichergestellt werden, dass das neue Release Mistral 3 sofort nach der Veröffentlichung mit vLLM nutzbar war.
llm-d erweitert die Funktionen von vLLM, indem es verteilte und fortschrittliche Inferenz auf bestehender Unternehmensinfrastruktur ermöglicht. Es verbessert die Effizienz, senkt den Ressourcenverbrauch und optimiert die Antwortzeiten. Kerninnovationen von llm-d sind die Disaggregation und ein intelligenter Scheduling Layer. Die Disaggregation trennt die Prompt-Verarbeitung von der Token-Generierung für eine bessere Skalierbarkeit. Der Scheduling Layer optimiert durch die Nutzung von Echtzeitdaten und differenziertere Routing-Entscheidungen für eingehende Anfragen die Auslastung von Clustern.
Darüber hinaus stellt sich die Frage, wie der sichere und effiziente Zugriff auf Modellinstanzen für Benutzer innerhalb des Unternehmens bereitgestellt werden kann. Red Hat bietet hierfür mit den Model-as-a-Service (MaaS)-Funktionen in Red Hat OpenShift AI eine adäquate Lösung. Sie basiert auf verteilter Inferenz und ermöglicht es IT-Teams, als eigene MaaS-Anbieter zu agieren, gängige Modelle zentral bereitzustellen und sowohl KI-Entwicklern als auch KI-Anwendungen authentifizierten On-Demand-Zugriff zu gewähren. Dies ermöglicht ein besseres Kostenmanagement und unterstützt Anwendungsfälle, die aufgrund von Datenschutzbedenken oder Compliance-Vorgaben nicht auf öffentlichen KI-Diensten ausgeführt werden können.
Eines ist klar: Auch wenn KI wie jede neue Technologie den Hype-Zyklus durchläuft, wird die Weiterentwicklung nicht stoppen und KI zunehmend als normale Grundtechnologie wahrgenommen. Ein Beispiel für die fortschreitende Innovation liefert auch Red Hat AI 3. Die Enterprise-AI-Plattform kombiniert die neuesten Funktionen von Red Hat AI Inference Server, Red Hat Enterprise Linux AI sowie Red Hat OpenShift AI und hilft dabei, die Komplexität von hochperformanter KI-Inferenz deutlich zu reduzieren. Unternehmen können ihre Workloads damit sehr viel schneller von einem Proof-of-Concept in die Produktionsphase überführen und die Zusammenarbeit rund um KI-gestützte Anwendungen verbessern.
Über den Autor
Max Murakami startete seine Karriere in der akademischen Forschung am Frankfurt Institute for Advanced Studies (FIAS), wo er sich intensiv mit Computational Neuroscience und Spracherwerb beschäftigte. Der Wechsel in die Industrie führte ihn zur CID GmbH, wo er als ML Engineer die Brücke zwischen der Entwicklung und dem Betrieb von KI-Applikationen schlug. Seit seinem Wechsel zu Red Hat fokussiert er sich als AI Specialist Solution Architect darauf, Unternehmen beim Aufbau skalierbarer KI-Infrastrukturen und der Operationalisierung von Machine Learning (MLOps) zu unterstützen.
Ähnliche Einträge
Fast and simple AI deployment on Intel Xeon with Red Hat OpenShift
Cracking the inference code: 3 proven strategies for high-performance AI
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen