Bereits das Training von Large Language Models (LLMs) ist ein bedeutendes Unterfangen, aber eine noch weitreichendere und oft übersehene Kostenherausforderung ist die KI-Inferenz. Inferenz ist der Vorgang, bei dem ein trainiertes KI-Modell neue Eingabedaten verarbeitet und eine Ausgabe generiert. Wenn Unternehmen diese Modelle in der Produktion einsetzen, können schnell hohe Kosten entstehen, insbesondere bei hohen Token-Volumina, langen Prompts und wachsenden Nutzungsanforderungen. Für eine kosteneffiziente und leistungsstarke Ausführung von LLMs ist eine umfassende Strategie erforderlich.

Dieser Ansatz geht 2 wichtige Bereiche an: die Optimierung der Inferenz-Runtime und die Optimierung des Modells selbst.

Optimierung der Inferenz-Runtime

Grundlegende Bereitstellungsmethoden haben häufig Probleme mit ineffizienter GPU-Speichernutzung, suboptimaler Batch-Verarbeitung und langsamer Token-Generierung. Genau deshalb ist eine leistungsstarke Inferenz-Runtime unerlässlich. vLLM ist die De-facto-Open-Source-Library, mit der LLMs Berechnungen effizienter und in großem Umfang durchführen können.

vLLM begegnet diesen Runtime-Herausforderungen mit fortschrittlichen Techniken, darunter:

  • Kontinuierliches Batching: Anstatt Anfragen einzeln zu verarbeiten, gruppiert vLLM Token aus mehreren Sequenzen in Batches. Dadurch wird die GPU-Leerlaufzeit minimiert, und die GPU-Auslastung sowie der Inferenzdurchsatz werden erheblich verbessert.
  • PagedAttention: Diese Speicherverwaltungsstrategie ermöglicht eine effiziente Verarbeitung großer KV-Caches (Key Value, Schlüsselwert). Durch die dynamische Zuweisung und Verwaltung von GPU-Speicherseiten erhöht PagedAttention die Anzahl der gleichzeitigen Anfragen erheblich und unterstützt längere Sequenzen ohne Speicherengpässe.

Optimierung des KI-Modells

Unternehmen können nicht nur die Runtime optimieren, sondern auch Modelle komprimieren, um ihren Speicherbedarf und ihre Rechenanforderungen zu reduzieren. Die beiden wichtigsten Techniken sind Quantisierung und Sparsity.

  • Quantisierung: Bei dieser Technik werden die numerischen Werte eines Modells, insbesondere seine Gewichtungen und Aktivierungen, mit weniger Bits pro Wert reduziert. Durch diesen Prozess wird der zum Speichern der Modellparameter erforderliche Speicher erheblich reduziert. So kann beispielsweise ein Llama-Modell mit 70 Milliarden Parametern von etwa 140 GB auf nur 40 GB verkleinert werden. Dadurch können die Modelle mit weniger Ressourcen ausgeführt und der Rechendurchsatz verdoppelt werden, ohne dass die Genauigkeit wesentlich beeinträchtigt wird.
  • Sparsity: Sparsity reduziert den Rechenaufwand, indem einige Modellparameter auf Null gesetzt werden, sodass Systeme unnötige Operationen umgehen können. Dies kann die Modellkomplexität erheblich reduzieren, Speichernutzung und Rechenlast verringern und so zu schnelleren Inferenzen und niedrigeren Betriebskosten führen.

Red Hat AI: Umsetzung der Strategie in die Praxis 

Zur Unterstützung von Unternehmen bei der Implementierung dieses strategischen Ansatzes bietet das Portfolio von Red Hat AI einheitliche Lösungen für leistungsstarke Inferenz in großem Umfang.

Red Hat AI ermöglicht sowohl die Modell- als auch die Runtime-Optimierung mit leistungsstarken Tools und Assets:

  • Red Hat AI Inference Server: Red Hat bietet eine unternehmensgerechte und unterstützte vLLM-Engine, die kontinuierliches Batching und speichereffiziente Methoden verwendet. Durch Erhöhung des Durchsatzes und Verringerung der GPU-Nutzung unterstützt die Runtime Unternehmen dabei, die Rentabilität ihrer teuren KI-Hardware zu maximieren.
  • Zugriff auf validierte und optimierte Modelle: Red Hat AI bietet Zugriff auf ein Repository mit vorab evaluierten und leistungsgetesteten Modellen, die einsatzbereit sind. Diese Modelle werden rigoros mit verschiedenen Evaluierungsaufgaben verglichen und sind im Red Hat AI Hugging Face Repository zu finden, wodurch Unternehmen eine beschleunigte Wertschöpfung erreichen können.
  • LLM Compressor: Das Red Hat LLM-Toolkit bietet eine standardisierte Methode zur Anwendung von Komprimierungstechniken wie Quantisierung. Dieses Toolkit wird von Red Hat verwendet, um optimierte Modelle anzubieten, mit denen Kunden ihre eigenen angepassten oder benutzerdefinierten Modelle optimieren können.

Durch den Einsatz von Red Hat AI können Unternehmen leistungsstarke, kosteneffiziente Modelle auf einer Vielzahl von Hardwarekonfigurationen bereitstellen. So können Teams den steigenden KI-Anforderungen gerecht werden und gleichzeitig Kosten und Komplexität kontrollieren.

Um mehr über die Grundlagen von Inferenz-Performance Engineering und Modelloptimierung zu erfahren, laden Sie das kostenlose E-Book Einstieg in AI-Inferenz herunter.

Ressource

Erste Schritte mit KI für Unternehmen: Ein Guide für den Einstieger

In diesem Guide für Einsteiger erfahren Sie, wie Red Hat OpenShift AI und Red Hat Enterprise Linux AI die Einführung von KI beschleunigen können.

Über den Autor

Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.

With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.

UI_Icon-Red_Hat-Close-A-Black-RGB

Nach Thema durchsuchen

automation icon

Automatisierung

Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen

AI icon

Künstliche Intelligenz

Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen

open hybrid cloud icon

Open Hybrid Cloud

Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.

security icon

Sicherheit

Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren

edge icon

Edge Computing

Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen

Infrastructure icon

Infrastruktur

Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen

application development icon

Anwendungen

Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen

Virtualization icon

Virtualisierung

Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen