Dieser Blog basiert auf einem kürzlichen Gespräch, das ich mit Ion Stoica von der University of California, Berkeley, führte. Dieses Gespräch wurde im Artikel von Red Hat Research Quarterly mit dem Titel „From silos to startups: Why universities must be a part of industry’s AI growth“ vorgestellt. Lesen Sie unser vollständiges Gespräch hier.
In den letzten Jahren wurde die Debatte um künstliche Intelligenz (KI) von Large Language Models (LLMs) und deren enormen Trainingsaufwand dominiert. Die Technologiebranche hat sich bisher auf die Entdeckungsphase konzentriert, doch diese Ära verändert sich schnell.
Die Diskussion bewegt sich von der Frage „Wie entwickeln wir das Modell?“ hin zu: „Wie führen wir das Modell in der Produktion im großen Maßstab aus?“
Diese Verschiebung ist mehr als ein technisches Detail. Sie ist der neue Schwerpunkt für Unternehmens-KI. Wenn KI das Forschungslabor verlässt und zu einer zentralen Geschäftsfunktion wird, liegt der Fokus direkt auf der Inferenz. Dabei werden die Synapsen im „Gehirn“ eines trainierten Modells ausgelöst, bevor es eine Antwort generiert oder Aktionen durchführt. Und Unternehmen müssen in der Lage sein, schnelle, kostengünstige und vollständig kontrollierte Inferenzen zu ermöglichen.
Die Open Source-Antwort auf die Herausforderung der Inferenz
Die Umstellung von KI von einem Proof of Concept in einen zuverlässigen, produktionsreifen Service stellt IT-Führungskräfte vor erhebliche Herausforderungen in Bezug auf Komplexität, Kosten und Kontrolle.
Erstens ist die Hardware, die zur Ausführung dieser Modelle erforderlich ist, teuer und oft knapp – vor allem in dem vom Unternehmen benötigten Umfang. Zweitens ist die Nachfrage nicht vorhersehbar. Es kann zu Belastungsspitzen mit hoher Nutzung kommen, gefolgt von langen Perioden geringer Aktivität. Dies kann sich über Hunderte von Varianten domainspezifischer Modelle noch verstärken. Diese Variabilität macht es äußerst schwierig, die Ressourcennutzung zu maximieren und diese wichtigen Investitionen zu schützen.
Die Open Source Community hat sich dieser Herausforderung gestellt, indem sie sich auf Performance- und Effizienzoptimierungen für die Bereitstellung von LLMs konzentriert. Eines der erfolgreichsten Projekte in diesem Bereich ist vLLM, das Ion Stoica unter seiner Leitung am Sky Computing Lab der University of California, Berkeley, gründete. Wie Ion in unserem Gespräch erwähnte, ist dieser akademische Ansatz entscheidend. Er zeigt, wie Universitätsforschung direkt die dringendsten, realen Inferenzprobleme löst. vLLM hat sich schnell zum De-facto-Standard für die Bereitstellung von leistungsstarken LLMs entwickelt – eine Engine, die auf Geschwindigkeit und Effizienz ausgelegt ist, um den Durchsatz zu maximieren und die Latenz zu minimieren.
Härten von Community-Innovationen für Unternehmen
Community-Projekte wie vLLM sind der Ausgangspunkt für Innovationen. Allerdings müssen Unternehmen diese an die hohen Anforderungen von Produktionsumgebungen anpassen. Hier kommt der Mehrwert von Red Hat als bewährtem Experte für Linux und Kubernetes ins Spiel.
Wir kombinieren die bahnbrechende Arbeit von vLLM mit anderen community-basierten Projekten, um eine gehärtete, unterstützte und skalierbare Plattform für die KI in der Produktion zu schaffen. Eine wichtige Komponente in dieser Entwicklung ist llm-d, ein verteiltes Inferenz-Framework für die Verwaltung von LLMs auf Cluster-Ebene und darüber hinaus.
Mit der Integration von llm-d ändern wir die native Ausführung von LLMs auf Kubernetes grundlegend. Damit lassen sich die bewährten Vorteile der Container-Orchestrierung – Kontrolle, Konsistenz und effiziente Ressourcenplanung – auch in der bisher herausforderndsten Phase der KI einsetzen: Inferenzen mit hohem Volumen und variabler Nachfrage.
Diese Kombination bietet Unternehmen folgende Vorteile:
- Maximierung der Infrastrukturausgaben: Die Nutzung der Kubernetes-Orchestrierung ermöglicht die verteilte Bereitstellung großer Modelle. So können IT-Teams ihre teuren, begrenzten Hardwarebeschleuniger für mehrere Workloads und Modelle voll nutzen und ihre Infrastruktur nicht als isolierte Hardware, sondern als Pool elastischer Rechenkapazität behandeln.
- Schnellere Reaktionszeiten: Die verteilte Inferenz sorgt für ein intelligentes Management von unvorhersehbaren Anforderungen und stellt sicher, dass Anwendungen die benötigten Antworten ohne Latenzspitzen erhalten.
- Sichere und schnelle Bereitstellung: Wir bieten einen bewährten Ansatz von modernster Forschung und Community-Innovationen bis hin zu gehärteter, unterstützter Software. So können KI-Engineers die Wertschöpfung beschleunigen und Plattform-Teams erhalten die erforderlichen Management- und Governance-Kontrollen.
Das unverzichtbare offene Modell für KI
Ion und ich stimmen zu: Die Innovations-Pipeline, aus der wir vLLM und llm-d hervorgebracht haben – ausgehend von der akademischen Forschung, der Entwicklung durch Open Source Communities und der schließlichen Stabilität und Unterstützung für den Unternehmensbereich – ist das Modell, das das nächste Jahrzehnt der KI-Einführung bestimmen wird.
Damit KI zu einem wirklich unverzichtbaren Business-Tool wird, darf sie nicht isoliert in proprietären Labs bleiben oder auf Proof of Concepts beschränkt werden. Sie muss zugänglich und transparent sein und auf einer Basis aufbauen, die kontinuierliche, gemeinschaftliche Verbesserungen ermöglicht. Red Hat engagiert sich dafür, dass die Open Hybrid Cloud weiterhin der beste Ort für die Umsetzung dieser Innovation ist und Unternehmen die Basis bietet, die sie benötigen, um ihre Daten zu verwalten, ihre Zukunft selbst zu gestalten und sich in der sich weiterentwickelnden KI-Landschaft sicher zurechtzufinden.
Über den Autor
Brian Stevens is Red Hat's Senior Vice President and Chief Technology Officer (CTO) for AI, where he drives the company's vision for an open, hybrid AI future. His work empowers enterprises to build and deploy intelligent applications anywhere, from the datacenter to the edge. As Red Hat’s CTO of Engineering (2001-2014), Brian was central to the company’s initial growth and the expansion of its portfolio into cloud, middleware, and virtualization technologies.
After helping scale Google Cloud as its VP and CTO, Brian’s passion for transformative technology led him to become CEO of Neural Magic, a pioneer in software-based AI acceleration. Red Hat’s strategic acquisition of Neural Magic in 2025 brought Brian back to the company, uniting his leadership with Red Hat's mission to make open source the foundation for the AI era.
Ähnliche Einträge
Data-driven automation with Red Hat Ansible Automation Platform
Ford's keyless strategy for managing 200+ Red Hat OpenShift clusters
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen