Ein Guide zu Models as a Service

25. März 2026

•

Ressourcentyp: Übersicht

KI wird immer häufiger eingeführt, aber Probleme mit Infrastruktur und Zugang stellen Herausforderungen dar

Das Interesse an KI nimmt schnell zu und Unternehmen sind bestrebt, Large Language Models (LLMs), prädiktive Analysen, Bildverarbeitungsfunktionen und andere fortschrittliche Tools zu nutzen, um geschäftlichen Mehrwert zu schaffen. Der Übergang von isolierten KI-Experimenten zu einer weit verbreiteten Einführung in Unternehmen ist jedoch mit erheblichen infrastrukturellen und operativen Herausforderungen verbunden.

Viele Unternehmen beginnen mit KI, indem sie eine Verbindung zu kommerziellen LLM-APIs (Application Programming Interfaces) wie denen von OpenAI oder Anthropic herstellen, da dies der schnellste Weg in die Produktion ist. Mit zunehmender Nutzung steigen jedoch die Kosten und Teams stoßen auf Einschränkungen in Bezug auf Datenschutz, Beobachtbarkeit und Anpassungsmöglichkeiten. Und in manchen Fällen nehmen kommerzielle KI-Anbieter ohne große Vorankündigung Änderungen an den Modellen vor, was die geschäftliche Nutzung durch Unternehmen beeinträchtigt.

Als Reaktion darauf entscheiden sich einige Organisationen für das gegensätzliche Extrem: Sie entwickeln ihre eigene Modellinfrastruktur von Grund auf neu. Dieses Vorgehen führt oft dazu, dass Teams unabhängig voneinander und mit nur wenig Koordination Open Source-Modelle wie Llama oder Mistral bereitstellen. Die Folge ist eine fragmentierte IT-Landschaft, in der Gruppen ihre eigenen Stacks aufbauen. Dies führt zu redundanten Infrastrukturen, zu ungenutzten GPUs (Graphics Processing Units) und zu erheblichem operativen Aufwand. Sicherheit und Governance werden beeinträchtigt und die Kosten steigen, ohne dass ein nennenswerter geschäftlicher Mehrwert entsteht.

Diese Herausforderungen wurden durch die wachsende Größe der neuesten LLMs wie Llama, DeepSeek, Mistral oder Qwen noch vergrößert. Im Gegensatz zu den relativ kleinen KI-Modellen von noch vor wenigen Jahren können die großen Modelle von heute mehrere Terabyte an vRAM erfordern. Die dafür nötigen GPUs sind teuer. Eine ineffiziente Nutzung dieser Ressourcen kann schnell zu explodierenden Kosten führen. Die Situation verschärft sich, wenn mehrere Teams innerhalb derselben Organisation unabhängig voneinander versuchen, diese Modelle bereitzustellen. Dieser fragmentierte Ansatz erhöht den operativen Aufwand und treibt Ausgaben in die Höhe.

Unternehmen benötigen einen internen Ansatz, der die Modellnutzung optimiert und konsolidiert, Hardwareressourcen optimiert und einen kontrollierten, skalierbaren Zugang für verschiedene Gruppen interner Nutzender ermöglicht. Ohne einen solchen Ansatz riskieren KI-Initiativen eine langsame Einführung und hohe Betriebskosten. Infrastrukturinvestitionen werden nicht genutzt und messbare Ergebnisse – wie erhöhte Produktivität, niedrigere Betriebskosten oder schnellere Insights – sind weiterhin schwer zu erreichen.

Was ist Models as a Service?

Models as a Service (MaaS) ist ein Ansatz zum Bereitstellen von KI-Modellen als gemeinsame Ressourcen, bei dem Nutzende innerhalb eines Unternehmens bei Bedarf auf diese zugreifen können. MaaS bietet eine sofort einsatzbereite KI-Basis in Form von API-Endgeräten (Application Programming Interface), die den privaten und effizienten Einsatz von KI in großem Umfang fördert.

Der Models as a Service-Ansatz für diese Herausforderung

Models as a Service (MaaS) ist ein Ansatz, mit dem Unternehmen KI-Modelle nur einmal bereitstellen und sie dann als gemeinsame, sicherheitsorientierte Ressourcen im gesamten Unternehmen nutzen können. Anstatt isolierte Deployments für einzelne Teams zu verwalten, können Unternehmen mit einem MaaS-Ansatz KI-Infrastruktur und -Abläufe zentralisieren, was die interne Einführung von KI erleichtert.

Abbildung 1: Workflow für ein Models as a Service-Setup

Bereitstellung eines gemeinsamen Zugriffs auf KI mit zentralisierten Modelloperationen

Für AI Engineers bietet MaaS einen schnelleren Zugriff auf leistungsstarke Modelle über APIs, wodurch das Herunterladen von Modellen, die Verwaltung von Abhängigkeiten oder die Anforderung von GPU-Zuweisungen über langwierige IT-Tickets entfällt.

MaaS funktioniert über die Einrichtung eines KI-Operations-Teams als zentraler Eigentümer gemeinsamer KI-Ressourcen. Modelle werden auf einer skalierbaren Plattform (wie Red Hat® OpenShift® AI oder ähnlichen Plattformen) bereitgestellt und dann über ein API-Gateway zugänglich gemacht. So können mehrere Nutzende, Mitglieder des Entwicklungsteams und Geschäftsbereiche einen vereinfachten Zugriff für Endbenutzende bereitstellen und gleichzeitig die Vorgaben zu Sicherheit und Governance von IT- und Finanzteams erfüllen. Diese Priorisierung kann Chargeback-Funktionen umfassen, was die Nutzung von Modellen ohne direkten Hardwarezugang oder tiefgreifendes technisches Fachwissen ermöglicht. Ziel ist es, einen nutzungsfreundlichen Zugriff auf die KI-Modelle und nicht auf die zur Ausführung dieser Modelle erforderlichen Ressourcen wie GPUs und TPUs (Tensor Processing Units) zu ermöglichen. Gleichzeitig müssen Sie die Performance- und Compliance-Anforderungen des Unternehmens erfüllen, ohne den Zugriff für Endbenutzende zu erschweren.

In der Praxis interagieren Nutzende nur mit APIs, die vom Modell generierte Antworten liefern. So wie öffentliche KI-Anbieter die Komplexität der Hardware von den Endbenutzenden abstrahieren, bieten interne MaaS-Deployments dieselbe Einfachheit. Die Nutzenden verwalten nicht direkt die Hardware- oder Softwareinfrastruktur, sie warten auch nicht darauf, dass ein IT-Ticket in ihrem Namen bearbeitet oder dass eine Umgebung für sie konfiguriert wird. Stattdessen verwalten IT-Operations- und KI-Teams zentral den Modell-Lifecycle sowie Sicherheit, Updates und Skalierung der Infrastruktur und bieten Nutzenden einen optimierten und dennoch kontrollierten Zugriff.

Diese Zentralisierung optimiert nicht nur die internen KI-Abläufe, sondern verbessert auch den Sicherheitsfokus und die Governance. Der Zugriff auf KI-Modelle wird durch die Zugangsdatenverwaltung über ein API-Gateway streng kontrolliert. Unternehmen können die Verwendung einfach nachverfolgen, interne Chargeback-Mechanismen einrichten, sicherstellen, dass Compliance-Richtlinien zum Datenschutz eingehalten werden, und klare operative Grenzen festlegen. So wird Unternehmens-KI sowohl überschaubar als auch praktisch. Das Verfolgen der Nutzung auf Token-Ebene (ein- und ausgehend) ist die genaueste und granularste Methode, viel präziser als Metriken auf GPU-Ebene.

Nutzung kontrollieren, Zugang drosseln, Kosten managen

IT und Platform Engineers profitieren von zentraler Kontrolle, die nicht autorisierte Modellbereitstellungen verhindert, Sicherheits- und Compliance-Standards durchsetzt und das Lifecycle- und Infrastrukturmanagement vereinfacht.
Für Finanzteams reduzieren zentralisierte Nutzungsverfolgung und interne Chargeback-Mechanismen Verschwendung und machen die GPU-Nutzung vorhersehbarer und nachvollziehbarer. So können Mehrausgaben durch nicht ausreichend genutzte, teamspezifische Hardwarezuweisungen vermieden werden.

Die Kontrolle erfolgt in erster Linie durch die Integration eines API-Gateways in die KI-Infrastruktur, wodurch Teams die KI-Nutzung auf sehr granularer Ebene verwalten und überwachen können.

Herkömmliche KI-Implementierungen werden häufig durch nicht verwaltete oder ineffiziente Nutzung beeinträchtigt, da Einzelpersonen oder Teams unabhängig voneinander Modelle ohne zentrale Kontrolle bereitstellen. Dieser fragmentierte Ansatz kann zu kostspieligen Ineffizienzen führen, da GPU-Ressourcen gar nicht oder nicht ausreichend genutzt werden. Durch die Platzierung eines API-Gateways als Kernstück der KI-Infrastruktur entsteht ein kontrollierter Zugangspunkt zwischen Nutzenden und Modellen.

Dieses Setup erleichtert präzises Nachverfolgen der Nutzung bis auf die Ebene der einzelnen Token. So können Teams eindeutig ermitteln, wie viel die einzelnen Nutzenden, Teams oder Anwendungen verbrauchen, und die Kosten für GPU und Infrastruktur genau zuordnen. Unternehmen können so feststellen, ob bestimmte Nutzende oder Anwendungen übermäßig viele Ressourcen verbrauchen und entsprechende Abhilfemaßnahmen ergreifen, wie etwa die Nutzung drosseln oder Kosten durch interne Chargeback-Mechanismen zuordnen.

Die vom API-Gateway bereitgestellten Drosselfunktionen sorgen für eine konsistente Performance und verhindern eine Überlastung der Ressourcen. Durch das Drosseln können IT-Teams die Intensität der Zugriffe verwalten und verhindern, dass einzelne Nutzende viele GPU-Ressourcen beanspruchen oder die Performance anderer beeinträchtigen.

Darüber hinaus ermöglichen API-Gateways eine fein granulierte Zugangsdatenverwaltung und Zugangskontrolle. Interne Nutzende können Zugangsdaten für den unabhängigen Zugriff auf KI-Modelle generieren, was den Administrationsaufwand optimiert. Außerdem können Zugangsdaten in kürzerer Zeit widerrufen oder geändert werden, um auf sich ändernde Sicherheitsanforderungen oder Nutzungsmuster zu reagieren.

All dies bedeutet, dass das Kostenmanagement transparenter und nachvollziehbarer wird. IT-Teams können GPU- und Infrastrukturausgaben genau den Teams oder Geschäftsbereichen zuordnen, die sie nutzen.

Support für beliebige Modelle, beliebige Beschleuniger, beliebige Clouds

Ein Kerngedanke des MaaS-Ansatzes ist die Kontrolle. So können Unternehmen eine große Bandbreite an KI-Modellen auswählen und bereitstellen, ihre bevorzugten Hardwarebeschleuniger wählen und in ihren bestehenden Cloud- oder On-Premise-Umgebungen arbeiten. Dieser Ansatz gibt Unternehmen die Freiheit, KI genau nach ihren Anforderungen an Technik und Sicherheit sowie gemäß operativen Präferenzen zu implementieren.

Bei der Einführung von KI sehen sich Unternehmen starren Einschränkungen gegenüber. Dazu gehören oft:
- Einschränkungen durch bestimmte Cloud Services
- Bindung an proprietäre Modell-Ökosysteme
- Einschränkungen durch feste Hardwareinfrastrukturen
MaaS begegnet diesen Einschränkungen auf verschiedene Weise, darunter:
- Unterstützung von quelloffenen oder proprietären Modellen, individuell trainierten Modellen und gängigen LLMs wie Llama und Mistral
- Erweiterung der textbasierten Modelle mit prädiktiven Analysen, maschinellem Sehen, Tools für die Audiotranskription und weiteren, multimodalen gen KI-Use Cases wie Bild- oder Videogenerierung
MaaS ist von Hardwarebeschleunigern unabhängig und bietet so folgende Vorteile:
- Unternehmen können GPUs oder andere Beschleuniger wählen, die ihren Workloads, Kostenstrukturen und Performance-Anforderungen entsprechen
- Zentralisierte KI-Teams können wichtige Entscheidungen in Bezug auf Umfangsbestimmung und Deployment treffen, was die Effizienz verbessert und Fehler durch weniger technisch versierte Nutzende reduziert
Zentralisiertes Management bietet folgende Vorteile:
- Optimale Zuweisung und Nutzung der Infrastruktur
- Reduzierter operativer Aufwand und Vermeidung der Fehlkonfiguration von Ressourcen
MaaS unterstützt Deployments in vielen verschiedenen Umgebungen, darunter:
- On-Premise, Hybrid Cloud, Air Gap-Umgebungen und Public Clouds, was besonders für stark regulierte Sektoren geeignet ist, die Datensouveränität, Compliance mit Vorschriften oder strenge Sicherheitskontrollen erfordern

Wie Red Hat MaaS implementiert

Red Hat hat MaaS intern eingeführt, indem die Bereitstellung von und der Zugriff auf KI-Modelle zentralisiert wurden. Unser internes KI-Team verwaltet die KI-Ressourcen und Modelloperationen zentral und verwendet Red Hat OpenShift und Red Hat OpenShift AI als zugrunde liegende Plattform. Diese zentralisierte Modellbereitstellung vereinfacht die KI-Nutzung im gesamten Unternehmen und ermöglicht es unseren Entwicklungs- und Business-Teams, KI-Funktionen effizient in ihre Workflows zu integrieren, ohne dass spezielle Hardware oder tiefgreifendes technisches Fachwissen erforderlich ist.

Unsere Implementierung umfasst eine skalierbare Bereitstellungsarchitektur, die GPUs innerhalb von OpenShift AI verwendet und Nutzende über ein zentralisiertes API-Gateway verbindet. So erhalten Sie kontrollierten, sicherheitsorientierten und nachverfolgbaren Zugriff auf KI-Modelle. Die Verwendung wird durch tokenbasiertes Monitoring sorgfältig gemanagt und ermöglicht eine präzise Nachverfolgung davon, wer Modelle wie oft und in welchem Umfang nutzt. Das Ergebnis ist eine optimierte Hardwarenutzung, die den unnötigen Verbrauch von GPU-Ressourcen reduziert und detaillierte Insights für die genaue Verteilung von Kosten auf verschiedene interne Teams oder Projekte bietet.

Unsere MaaS-Implementierung verwendet GitOps-Workflows und bietet so hohe Verfügbarkeit und Zuverlässigkeit. Dieser operative Ansatz reduziert manuelle Eingriffe und potenzielle Fehler und ermöglicht eine eindeutige Kontrolle der KI-Deployments.

Ein wichtiger Vorteil unserer internen MaaS-Implementierung ist eine deutliche Verbesserung der Ressourceneffizienz und des Benutzererlebnisses. Anstatt dass mehrere Teams unabhängig voneinander GPUs bereitstellen und Modelle implementieren, vermeidet unser MaaS doppelte Arbeit, optimiert interne Abläufe und beschleunigt die Wertschöpfung erheblich. Werden neue Modelle getestet und verifiziert, können Red Hat Teams sie sofort integrieren und verwenden und müssen sich nicht mit der Zuweisung oder Provisionierung von Hardware aufhalten.

Beginnen Sie noch heute mit dem Aufbau Ihrer internen KI-Plattform

Sind Sie bereit, die KI-Bereitstellung zu vereinfachen und Ihre Infrastrukturinvestitionen voll auszuschöpfen? Lesen Sie zunächst unsere detaillierten Ausführungen zu MaaS, um weitere Einblicke in die Funktionsweise zu erhalten. Gehen Sie dann zur Produktseite von OpenShift AI, um die Funktionen der Plattform zu bewerten und Anleitungen zur GPU-Nutzung zu erhalten.

Red Hat Consulting hilft Teams, die intern eine MaaS-Lösung entwickeln, beim Entwerfen und Operationalisieren von auf ihre Anforderungen zugeschnittenen Modellbereitstellungsumgebungen. Weitere Informationen finden Sie auf der Seite Red Hat Consulting für KI.

Sie möchten einen ausführlicheren Einblick in Beispiele aus der Praxis? Sehen Sie sich unsere Reihe mit On-Demand-Webinaren an, in der auch die Session zum Thema MaaS enthalten ist.

Tags:KI/ML

About Red Hat

Red Hat is the open hybrid cloud technology leader, delivering a trusted, consistent and comprehensive foundation for transformative IT innovation and AI applications. Its portfolio of cloud, developer, AI, Linux, automation and application platform technologies enables any application, anywhere—from the datacenter to the edge. As the world's leading provider of enterprise open source software solutions, Red Hat invests in open ecosystems and communities to solve tomorrow's IT challenges. Collaborating with partners and customers, Red Hat helps them build, connect, automate, secure, and manage their IT environments, supported by consulting services and award-winning training and certification offerings.

North America
Asia Pacific
Latin America
Europe, Middle East, and Africa

888-REDHAT1
+6564904200
+5443297300
+0080073342835

Copyright @2025 Red Hat, Inc. Red Hat and the Red Hat logo are trademarks of Red Hat, Inc. or its subsidiaries in the United Sates and other countries

Ein Guide zu Models as a Service

KI wird immer häufiger eingeführt, aber Probleme mit Infrastruktur und Zugang stellen Herausforderungen dar

Was ist Models as a Service?

Der Models as a Service-Ansatz für diese Herausforderung

Bereitstellung eines gemeinsamen Zugriffs auf KI mit zentralisierten Modelloperationen

Nutzung kontrollieren, Zugang drosseln, Kosten managen

Support für beliebige Modelle, beliebige Beschleuniger, beliebige Clouds

Wie Red Hat MaaS implementiert

Beginnen Sie noch heute mit dem Aufbau Ihrer internen KI-Plattform

About Red Hat

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links