Mit der vorherigen Version von Red Hat OpenShift AI haben wir eine solide Basis für die KI-Infrastruktur Ihres Unternehmens geschaffen. Mit dem heutigen Release von OpenShift AI 3.3, gehen wir die gegensätzlichen Anforderungen an, die oft verhindern, dass KI-Projekte die Produktionsreife erreichen – nämlich die Notwendigkeit einer strengen Governance einerseits und die Forderung nach schnellem Zugriff für Entwicklungsteams andererseits.
OpenShift AI 3.3 führt eine Suite von Tools ein, mit denen Sie einen zentralen Hub für KI-Assets verwalten und gleichzeitig die Zukunft mit mehreren Modellen und Agenten optimieren.
Zentralisierte Assets: AI Hub
Wenn Unternehmen über Use Cases mit einem einzigen Modell hinausgehen, wird die Erkennbarkeit zum Hindernis. Plattformteams benötigen eine zentrale Source of Truth für ihre KI-Assets, um Modelle zu registrieren und zu versionieren, bevor sie diese für das Deployment konfigurieren, und um bereitgestellte Modelle anzuzeigen.
Sie benötigen außerdem Anleitungen zum optimalen Deployment dieser Modelle. Es ist schwierig, die Hardwareanforderungen einzuschätzen und die zu erwartenden Latenzzeiten sowie den Durchsatz zu verstehen.
AI Hub soll dies ermöglichen. Er dient nun als zentrales Repository für die KI-Assets Ihrer Organisation, angefangen bei Large Language Models (LLMs) in OpenShift AI 3.3 bis hin zu Model Context Protocol (MCP)-Servern in zukünftigen Releases.
In OpenShift AI 3.3 bietet AI Hub Einblicke in die Performance und Anleitungen aus dem Modellvalidierungsprogramm von Red Hat AI zu Abwägungen zwischen Performance, Kosten und Hardwareanforderungen. Dies hilft Plattformteams dabei, Entwicklungsteams vor Beginn des Deployments zu den effizientesten Konfigurationen zu beraten.
Governance in großem Umfang: Model as a Service (MaaS)
Wenn Sie Ihre eigenen GPUs konfigurieren und verwalten und darauf KI-Modelle bereitstellen, ist die Entwicklung von KI-Anwendungen schwierig. Die meisten Entwicklungsteams, KI-Engineers und Data Scientists würden lieber mit einem Endpunkt für ein Modell beginnen, das bereits ausgeführt wird. Diese zusätzliche Arbeit von ihnen zu verlangen, verlangsamt sie, verringert die Zeit bis zur Wertschöpfung und ist weder skalierbar noch effizient in Bezug auf Kosten, Zeit oder Governance.
Andererseits hilft es Plattformteams, wenn sie diese Modelle allgemein bereitstellen und ihre Data Scientists sowie Geschäftsteams mit den benötigten Modellen ausstatten. So können sie dasselbe Konzept erweitern, das sie bereits für Anwendungsplattformen verwendet haben.
In diesem Szenario übernehmen Plattformteams die Bereitstellung und Optimierung der Modelle. Sie stellen einen zentralen Satz von KI-Modellen bereit, die sie über rollenbasierte Zugangsrichtlinien steuern. Zudem legen sie Nutzungsbeschränkungen sowie Bedingungen fest und übernehmen die Versionierung der Modelle. Endnutzende erhalten dabei einen API-Endpunkt, mit dem sie die Entwicklung sofort beginnen können.
OpenShift AI 3.3 bietet eine Technologievorschau von MaaS, die Unternehmen dabei unterstützen soll, zu ihren eigenen internen Anbietern von KI-Modellen zu werden.
- Für Administratoren: Definieren Sie granulare Richtlinien zur Durchsatzbegrenzung in der UI. Sie können beispielsweise für kleinere Modelle, die in täglichen Aufgaben verwendet werden, einen hohen Kontingentzugriff zuweisen und gleichzeitig strengere Beschränkungen für ressourcenintensive Frontier-Modelle festlegen.
- Optimiertes Routing mit
llm-d: Dies funktioniert zusammen mit llm-d, dem Kubernetes-nativen verteilten Inferenz-Framework. Während Sie die Richtlinien festlegen, optimiertllm-ddas Anfragen-Routing, damit Ihre Hardware so effizient wie möglich genutzt wird, ohne dass Service Level Agreements (SLAs) verletzt werden.
Entwicklungsgeschwindigkeit: Gen AI Studio
Von Plattformteams bereitgestellte Modelle oder Assets müssen zentral registriert und zugänglich gemacht werden, damit KI-Engineers und Entwicklungsteams sie einsetzen können.
Entwicklungsteams benötigen zudem einen zentralen Ort für Experimente mit diesen Modellen und Assets. Ein Plug-and-Play-Ansatz hilft ihnen dabei, das optimale Modell, den besten Prompt oder das geeignetste Tool für ihren Use Case zu finden. Dabei wird die Komplexität der für das Deployment erforderlichen Infrastruktur abstrahiert.
Unsere Technologievorschau von Gen AI Studio bietet diese Umgebung und die Tools, die Entwicklungsteams für den Übergang vom Prompt zum Pilot benötigen.
- KI-Playground: Experimentieren Sie mit Prompts, Modellparametern und MCP-Tools. In OpenShift AI 3.3 können Sie eigene MCP-Server importieren und bestimmte Tools ein- oder ausschalten. Dies stellt den für ein zuverlässiges agentisches Verhalten erforderlichen Determinismus bereit. Wenn Sie von der OpenShift AI UI in Ihre lokale Umgebung wechseln, können Sie mit der Funktion „View Code“ in OpenShift AI 3.3 die Playground-Konfiguration anzeigen und kopieren. Unsere kommende Roadmap baut auf diesen Grundlagen auf. Wir verbessern das Erlebnis für KI-Engineers durch Code-Exporte, Prompt Management, RAG-Funktionen (Retrieval-Augmented Generation) und eine verfeinerte Auswahl von MCP-Tools.
- KI-Asset-Endpunkte: Diese ermöglichen Ihnen den sofortigen Abruf von API-Schlüsseln und Endpunkten, sodass Sie direkt mit Tests in Ihrer lokalen IDE beginnen können.
Produktionslücke: Kontinuierliche Bewertung und Optimierung
Eine der größten Barrieren beim Deployment in der Produktion ist nicht die Entwicklung des Modells, sondern das Management von Kosten und die Sicherstellung der Qualitätsstabilität.
- Kostenoptimierung bei der Modellkomprimierung: OpenShift AI 3.3 führt geführte Workbenches für LLM Compressor (GitHub) und GuideLLM (GitHub) ein. Red Hat entwickelt und nutzt diese Open Source-Tools für das Benchmarking und die Komprimierung von Modellen im Rahmen des Modellvalidierungsprogramms. Sie können nun ein Modell bewerten, es komprimieren (beispielsweise durch Quantisierung) und die Performance-Gewinne direkt in Ihrer Umgebung vergleichen. Weitere Informationen zum Wert komprimierter Modelle finden Sie in diesem Blog-Beitrag zu LLM Compressor.
- Experiment-Tracking mit MLflow: Wir führen eine Developer Preview der MLflow-Integration ein. Während Komprimierung und Benchmarking zur Lösung unmittelbarer Performance-Probleme beitragen, bietet MLflow das „historische Gedächtnis“ für Ihren KI-Lifecycle. Indem Sie Ihre
guidellm-Ergebnisse und Anwendungsantworten in MLflow protokollieren, verfolgen Sie Regressionen und Qualität im Zeitverlauf. So stellen Sie sicher, dass Ihre Optimierungen die Genauigkeit nicht beeinträchtigen. - Visualisieren des Loops: Sie sehen jetzt die direkte Korrelation zwischen Ihren Komprimierungsexperimenten und der Inferenzlatenz im MLflow-Dashboard. So wird die Fehlerbehebung bei der Performance datengestützt statt anekdotisch.
Testen Sie Red Hat OpenShift AI
Die Features in OpenShift AI 3.3 transformieren die Art und Weise, wie Sie den Zugriff auf KI-Funktionen auf der Plattform verwalten. Sie können AI Hub testen und eine Vorschau auf das Gen AI Studio sowie unsere neuen Optimierungs-Workbenches erhalten, indem Sie OpenShift AI 3.3 installieren. Weitere Informationen finden Sie in unserer Pressemitteilung.
Sie können OpenShift AI auch im Red Hat Product Trial Center testen. Die Testversion bietet Ihnen einen kostenlosen 60-tägigen Zugang zu einer vollständig verwalteten Umgebung, in der Sie diese produktionsreifen Tools testen können.
Produkttest
Red Hat OpenShift AI (selbst gemanagt) | Testversion
Über die Autoren
Jenny is a Technical Product Manager at Red Hat AI, where she focuses on the end-to-end platform experience for Red Hat AI Enterprise. She joined Red Hat through the Neural Magic acquisition, where she created user interfaces for LLM benchmarking and an AI control plane. Before moving into AI, she consulted for healthcare organizations and public health agencies, experiences that shape her focus on building AI tooling that supports practitioners in high-stakes, deeply specialized domains.
Jehlum is a Product Manager in the Red Hat AI team. She's focused on building platforms for generative AI applications. I am especially interested in data processing, observability, safety, evaluation - all key components to build production-grade generative AI applications on platforms that scale.
Taylor specializes in helping global enterprises transition Generative AI from experimental pilots to production-scale deployments. A specialist in large-scale inference and agentic systems, Taylor bridges the gap between complex infrastructure and practical application development. She is a dedicated advocate for open-source ecosystems, leveraging projects such as vLLM, llm-d and MLflow to build sovereign, secure, and observable AI stacks. Her work is centered on empowering organizations to reclaim control over their AI lifecycle through transparent and scalable open-source solutions.
Ähnliche Einträge
When AI finds the bugs: Why defense in depth was always the answer
Control your AI agent traffic at scale: Model Context Protocol gateway for Red Hat OpenShift is now in technology preview
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen