Bereits das Training von Large Language Models (LLMs) ist ein bedeutendes Unterfangen, aber eine noch weitreichendere und oft übersehene Kostenherausforderung ist die KI-Inferenz. Inferenz ist der Vorgang, bei dem ein trainiertes KI-Modell neue Eingabedaten verarbeitet und eine Ausgabe generiert. Wenn Unternehmen diese Modelle in der Produktion einsetzen, können schnell hohe Kosten entstehen, insbesondere bei hohen Token-Volumina, langen Prompts und wachsenden Nutzungsanforderungen. Für eine kosteneffiziente und leistungsstarke Ausführung von LLMs ist eine umfassende Strategie erforderlich.
Dieser Ansatz geht 2 wichtige Bereiche an: die Optimierung der Inferenz-Runtime und die Optimierung des Modells selbst.
Optimierung der Inferenz-Runtime
Grundlegende Bereitstellungsmethoden haben häufig Probleme mit ineffizienter GPU-Speichernutzung, suboptimaler Batch-Verarbeitung und langsamer Token-Generierung. Genau deshalb ist eine leistungsstarke Inferenz-Runtime unerlässlich. vLLM ist die De-facto-Open-Source-Library, mit der LLMs Berechnungen effizienter und in großem Umfang durchführen können.
vLLM begegnet diesen Runtime-Herausforderungen mit fortschrittlichen Techniken, darunter:
- Kontinuierliches Batching: Anstatt Anfragen einzeln zu verarbeiten, gruppiert vLLM Token aus mehreren Sequenzen in Batches. Dadurch wird die GPU-Leerlaufzeit minimiert, und die GPU-Auslastung sowie der Inferenzdurchsatz werden erheblich verbessert.
- PagedAttention: Diese Speicherverwaltungsstrategie ermöglicht eine effiziente Verarbeitung großer KV-Caches (Key Value, Schlüsselwert). Durch die dynamische Zuweisung und Verwaltung von GPU-Speicherseiten erhöht PagedAttention die Anzahl der gleichzeitigen Anfragen erheblich und unterstützt längere Sequenzen ohne Speicherengpässe.
Optimierung des KI-Modells
Unternehmen können nicht nur die Runtime optimieren, sondern auch Modelle komprimieren, um ihren Speicherbedarf und ihre Rechenanforderungen zu reduzieren. Die beiden wichtigsten Techniken sind Quantisierung und Sparsity.
- Quantisierung: Bei dieser Technik werden die numerischen Werte eines Modells, insbesondere seine Gewichtungen und Aktivierungen, mit weniger Bits pro Wert reduziert. Durch diesen Prozess wird der zum Speichern der Modellparameter erforderliche Speicher erheblich reduziert. So kann beispielsweise ein Llama-Modell mit 70 Milliarden Parametern von etwa 140 GB auf nur 40 GB verkleinert werden. Dadurch können die Modelle mit weniger Ressourcen ausgeführt und der Rechendurchsatz verdoppelt werden, ohne dass die Genauigkeit wesentlich beeinträchtigt wird.
- Sparsity: Sparsity reduziert den Rechenaufwand, indem einige Modellparameter auf Null gesetzt werden, sodass Systeme unnötige Operationen umgehen können. Dies kann die Modellkomplexität erheblich reduzieren, Speichernutzung und Rechenlast verringern und so zu schnelleren Inferenzen und niedrigeren Betriebskosten führen.
Red Hat AI: Umsetzung der Strategie in die Praxis
Zur Unterstützung von Unternehmen bei der Implementierung dieses strategischen Ansatzes bietet das Portfolio von Red Hat AI einheitliche Lösungen für leistungsstarke Inferenz in großem Umfang.
Red Hat AI ermöglicht sowohl die Modell- als auch die Runtime-Optimierung mit leistungsstarken Tools und Assets:
- Red Hat AI Inference Server: Red Hat bietet eine unternehmensgerechte und unterstützte vLLM-Engine, die kontinuierliches Batching und speichereffiziente Methoden verwendet. Durch Erhöhung des Durchsatzes und Verringerung der GPU-Nutzung unterstützt die Runtime Unternehmen dabei, die Rentabilität ihrer teuren KI-Hardware zu maximieren.
- Zugriff auf validierte und optimierte Modelle: Red Hat AI bietet Zugriff auf ein Repository mit vorab evaluierten und leistungsgetesteten Modellen, die einsatzbereit sind. Diese Modelle werden rigoros mit verschiedenen Evaluierungsaufgaben verglichen und sind im Red Hat AI Hugging Face Repository zu finden, wodurch Unternehmen eine beschleunigte Wertschöpfung erreichen können.
- LLM Compressor: Das Red Hat LLM-Toolkit bietet eine standardisierte Methode zur Anwendung von Komprimierungstechniken wie Quantisierung. Dieses Toolkit wird von Red Hat verwendet, um optimierte Modelle anzubieten, mit denen Kunden ihre eigenen angepassten oder benutzerdefinierten Modelle optimieren können.
Durch den Einsatz von Red Hat AI können Unternehmen leistungsstarke, kosteneffiziente Modelle auf einer Vielzahl von Hardwarekonfigurationen bereitstellen. So können Teams den steigenden KI-Anforderungen gerecht werden und gleichzeitig Kosten und Komplexität kontrollieren.
Um mehr über die Grundlagen von Inferenz-Performance Engineering und Modelloptimierung zu erfahren, laden Sie das kostenlose E-Book Einstieg in AI-Inferenz herunter.
Ressource
Erste Schritte mit KI für Unternehmen: Ein Guide für den Einstieger
Über den Autor
Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.
With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.
Ähnliche Einträge
Smarter troubleshooting with the new MCP server for Red Hat Enterprise Linux (now in developer preview)
Eine KI ohne weibliche Perspektive? Das ist gefährlich!
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen