Wir freuen uns, Ihnen unsere neuesten validierten Modelle vorzustellen, die Ihre Deployments unterstützen. Unser Ziel bei Red Hat ist es, Unternehmen die Zuverlässigkeit, Vorhersagbarkeit und Flexibilität zu bieten, die sie für das Deployment von gen KI-Modellen von Drittanbietern auf der Plattform von Red Hat AI benötigen. Dieses Release erweitert unsere Sammlung auf Performance-Benchmarks und Genauigkeitsbewertungen optimierter Modelle. So können Sie die Wertschöpfung beschleunigen und die ideale Lösung für Ihren Use Case in Ihrem Unternehmen auswählen.
Die validierten Modelle von Red Hat AI gehen über eine einfache Liste hinaus und bieten effiziente, unternehmensfähige KI. Wir kombinieren rigoroses Performance-Benchmarking und Genauigkeitstests mit einem umfassenden Paketierungsprozess, der auf Sicherheit und Einfachheit ausgelegt ist. Die Modelle werden auf Schwachstellen gescannt und in einen gemanagten Software-Lifecycle integriert. So erhalten Sie ein leistungsstarkes und ressourcenoptimiertes Asset, das auf Sicherheit ausgerichtet, einfach zu verwalten und für langfristige Updates bereit ist.
Was sind validierte Modelle?
Die Welt der Large Language Models (LLMs) breitet sich rasant aus. Das macht es für Unternehmen schwierig, das richtige Modell zu wählen. Unternehmen haben häufig Schwierigkeiten mit der Planung der KI-Ressourcenkapazität und der zuverlässigen Reproduzierbarkeit der Performance eines Modells.
Hier kommen die validierten Modelle von Red Hat ins Spiel. Wir bieten Zugriff auf eine Reihe einsatzbereiter Drittanbietermodelle, die effizient auf vLLM innerhalb unserer Plattform ausgeführt werden. Wir vereinfachen den Auswahlprozess, indem wir umfangreiche Tests für Sie durchführen. Unser Prozess zur Modellvalidierung umfasst:
- Performance-Benchmarking mit GuideLLM zur Bewertung der Ressourcenanforderungen und Kosten für verschiedene Hardwarekonfigurationen.
- Genauigkeitsbewertungen mit Language Model Evaluation Harness (LM Eval Harness), um zu messen, wie Modelle auf neue Aufgaben reagieren.
- Reproduzierbare Deployments auf vLLM, der Inferenz-Engine mit hohem Durchsatz, damit Sie dieselben Ergebnisse erzielen können.
- Sicherheitsorientierte, unternehmensgerechte Paketierung unter Verwendung standardisierter Container-Formate in unserer Produktions-Registry zur Erstellung eines versionskontrollierten, auf Schwachstellen gescannten Assets, das das Deployment und Lifecycle-Management vereinfacht.
Dieser Prozess bietet klare Leitlinien für die Kapazitätsplanung. Dadurch können Sie Deployments richtig skalieren, die optimale Hardware auswählen und schneller sowie sicherer in Produktion gehen.
Die Funktionen von Red Hat zur Modelloptimierung
Das Deployment leistungsstarker LLMs ist häufig durch die hohen Kosten und den Mangel an spezieller Hardware, wie etwa GPUs mit hohem VRAM, eingeschränkt. Um den Zugriff zu demokratisieren und Unternehmen eine kostengünstigere Ausführung dieser Modelle zu ermöglichen – selbst auf kleineren oder weniger GPUs – wendet Red Hat fortschrittliche Modellkomprimierungstechniken an.
Dieser kritische Optimierungsprozess, der von Technologien wie LLM Compressor gesteuert wird, umfasst Techniken wie Quantisierung (z. B. das Konvertieren von Modellen in die dynamischen Formate INT4, INT8 oder FP8), die den Speicherbedarf und die Rechenanforderungen von LLMs erheblich reduzieren und dabei die Ausgabequalität und -genauigkeit sorgfältig erhalten.
Die validierten Modelle in unserer Sammlung – viele davon vorkomprimiert und bereit zur Bereitstellung – sind Beispiele für diese Optimierung in der Praxis. Durch die Nutzung dieser Assets ermöglicht Ihnen Red Hat:
- Reduzierte VRAM-Auslastung, sodass größere Modelle auf kostengünstigeren oder mit weniger GPU-Ressourcen bereitgestellt werden können.
- Senkung der Betriebskosten durch Maximierung der Hardwarenutzung.
- Erreichen eines höheren Durchsatzes und einer geringeren Latenz während der kritischen Inferenzphase.
Diese optimierten, validierten Assets sind in unserem öffentlichen Red Hat AI Hugging Face Repository und in der Red Hat Container Registry unter registry.redhat.io verfügbar und bieten so eine vertrauenswürdige Quelle für das Deployment leistungsstarker, kostengünstiger KI.
Lernen Sie die aktuell validierten Modelle kennen
Die neuesten validierten Modelle verfügen über eine leistungsstarke und breitgefächerte Palette von Modellen, die jeweils für die Workloads Ihres Unternehmens optimiert sind.
- DeepSeek-R1 INT4: Ein spezielles Coding-Modell, das sich ideal zum Generieren, Vervollständigen und Debuggen von komplexem Code in mehreren Programmiersprachen eignet.
- Qwen 3 8B FP8 Dynamic: Ein vielseitiges und leistungsstarkes mehrsprachiges Modell von Alibaba, das für globale Chatbot-Anwendungen und die Erstellung von Inhalten entwickelt wurde.
- Kimi K2 Quantized INT4: Dieses Modell ist für sein besonders großes Kontextfenster bekannt, was es zu einem leistungsstarken Tool für Retrieval-Augmented Generation (RAG) und die Analyse langer Dokumente wie Rechtsverträge oder Forschungsarbeiten macht.
- Gemma-3n 4B FP8 Dynamic: Die neuesten effizienten Modelle von Google bieten ein ausgewogenes Verhältnis von Leistung und Größe für Zusammenfassungsaufgaben und On-Device-Anwendungen.
- openai/gpt-oss-120b & openai/gpt-oss-20b: Große (und kleinere Variante), universelle Basismodelle, die komplexe Schlussfolgerungen, nuancierte Inhalte und erweiterte Problemlösungen ermöglichen.
- Qwen3 Coder 480B-A35B-Instruct-FP8: Ein umfangreicher, unternehmensgerechter Programmierassistent, der für anspruchsvolle Softwareentwicklungs- und Automatisierungs-Pipelines entwickelt wurde.
- Voxtral-Mini-3B-2507 FP8 Dynamic: Ein flexibles und reaktionsschnelles Modell mit Schwerpunkt auf Sprachverarbeitung, das sich ideal für die Entwicklung von sprachgesteuerten Anwendungen in Echtzeit und interaktiven Agenten eignet.
- whisper-large v3 INT4: Ein hochmodernes Speech-to-Text-Modell von OpenAI, das für hochpräzise Audiotranskription, das Erstellen von Besprechungsprotokollen und das Aktivieren von Sprachbefehlen entwickelt wurde.
- NVIDIA-Nemotron-Nano-9B-v2: Ein neues allgemeines Schlussfolgerungs- und Chat-Modell von NVIDIA, das eine Hybrid-Architektur für KI-Agenten-Systeme, Chatbots und RAG verwendet und kommerziell nutzbar ist.
Noch heute starten
Sie können auf diese leistungsstarken, einsatzbereiten KI-Modelle heute auf zwei Arten zugreifen:
- Hugging Face: Entdecken Sie die validierten Modelle und ihre Details im Red Hat AI Repository.
- Red Hat Container Registry: Rufen Sie die Container-Images ab, um sie sofort auf RHOAI 2.25 oder RHAIIS 3.2.2 bereitzustellen. Dokumente ansehen
Hinweis: Alle Modelle sind für das Deployment auf vLLM (Version 0.10.1.1 oder höher) optimiert.
Bald verfügbar
Um eine optimale Integration zu gewährleisten, werden diese Modelle ab Release 3.0 im Red Hat OpenShift AI Katalog vorgestellt. Die allgemeine Verfügbarkeit (GA) ist für November geplant.
Um vollständige Performance- und Bewertungsdaten einzusehen, wenden Sie sich bitte an Ihren Vertriebskontakt.
Ressource
Das adaptive Unternehmen: KI-Bereitschaft heißt Disruptionsbereitschaft
Über den Autor
My name is Rob Greenberg, Principal Product Manager for Red Hat AI, and I came over to Red Hat with the Neural Magic acquisition in January 2025. Prior to joining Red Hat, I spent 3 years at Neural Magic building and delivering tools that accelerate AI inference with optimized, open-source models. I've also had stints as a Digital Product Manager at Rocketbook and as a Technology Consultant at Accenture.
Ähnliche Einträge
Empowering federated learning with multicluster management
Feature store: The front-end for all of your AI data pipelines
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen