Ein Guide zu Models as a Service
KI wird immer häufiger eingeführt, aber Probleme mit Infrastruktur und Zugang stellen Herausforderungen dar
Das Interesse an KI nimmt schnell zu und Unternehmen sind bestrebt, Large Language Models (LLMs), prädiktive Analysen, Bildverarbeitungsfunktionen und andere fortschrittliche Tools zu nutzen, um geschäftlichen Mehrwert zu schaffen. Der Übergang von isolierten KI-Experimenten zu einer weit verbreiteten Einführung in Unternehmen ist jedoch mit erheblichen infrastrukturellen und operativen Herausforderungen verbunden.
Viele Unternehmen beginnen mit KI, indem sie eine Verbindung zu kommerziellen LLM-APIs (Application Programming Interfaces) wie denen von OpenAI oder Anthropic herstellen, da dies der schnellste Weg in die Produktion ist. Mit zunehmender Nutzung steigen jedoch die Kosten und Teams stoßen auf Einschränkungen in Bezug auf Datenschutz, Beobachtbarkeit und Anpassungsmöglichkeiten. Und in manchen Fällen nehmen kommerzielle KI-Anbieter ohne große Vorankündigung Änderungen an den Modellen vor, was die geschäftliche Nutzung durch Unternehmen beeinträchtigt.
Als Reaktion darauf entscheiden sich einige Organisationen für das gegensätzliche Extrem: Sie entwickeln ihre eigene Modellinfrastruktur von Grund auf neu. Dieses Vorgehen führt oft dazu, dass Teams unabhängig voneinander und mit nur wenig Koordination Open Source-Modelle wie Llama oder Mistral bereitstellen. Die Folge ist eine fragmentierte IT-Landschaft, in der Gruppen ihre eigenen Stacks aufbauen. Dies führt zu redundanten Infrastrukturen, zu ungenutzten GPUs (Graphics Processing Units) und zu erheblichem operativen Aufwand. Sicherheit und Governance werden beeinträchtigt und die Kosten steigen, ohne dass ein nennenswerter geschäftlicher Mehrwert entsteht.
Diese Herausforderungen wurden durch die wachsende Größe der neuesten LLMs wie Llama, DeepSeek, Mistral oder Qwen noch vergrößert. Im Gegensatz zu den relativ kleinen KI-Modellen von noch vor wenigen Jahren können die großen Modelle von heute mehrere Terabyte an vRAM erfordern. Die dafür nötigen GPUs sind teuer. Eine ineffiziente Nutzung dieser Ressourcen kann schnell zu explodierenden Kosten führen. Die Situation verschärft sich, wenn mehrere Teams innerhalb derselben Organisation unabhängig voneinander versuchen, diese Modelle bereitzustellen. Dieser fragmentierte Ansatz erhöht den operativen Aufwand und treibt Ausgaben in die Höhe.
Unternehmen benötigen einen internen Ansatz, der die Modellnutzung optimiert und konsolidiert, Hardwareressourcen optimiert und einen kontrollierten, skalierbaren Zugang für verschiedene Gruppen interner Nutzender ermöglicht. Ohne einen solchen Ansatz riskieren KI-Initiativen eine langsame Einführung und hohe Betriebskosten. Infrastrukturinvestitionen werden nicht genutzt und messbare Ergebnisse – wie erhöhte Produktivität, niedrigere Betriebskosten oder schnellere Insights – sind weiterhin schwer zu erreichen.
Was ist Models as a Service?
Models as a Service (MaaS) ist ein Ansatz zum Bereitstellen von KI-Modellen als gemeinsame Ressourcen, bei dem Nutzende innerhalb eines Unternehmens bei Bedarf auf diese zugreifen können. MaaS bietet eine sofort einsatzbereite KI-Basis in Form von API-Endgeräten (Application Programming Interface), die den privaten und effizienten Einsatz von KI in großem Umfang fördert.
Der Models as a Service-Ansatz für diese Herausforderung
Models as a Service (MaaS) ist ein Ansatz, mit dem Unternehmen KI-Modelle nur einmal bereitstellen und sie dann als gemeinsame, sicherheitsorientierte Ressourcen im gesamten Unternehmen nutzen können. Anstatt isolierte Deployments für einzelne Teams zu verwalten, können Unternehmen mit einem MaaS-Ansatz KI-Infrastruktur und -Abläufe zentralisieren, was die interne Einführung von KI erleichtert.
Bereitstellung eines gemeinsamen Zugriffs auf KI mit zentralisierten Modelloperationen
- Für AI Engineers bietet MaaS einen schnelleren Zugriff auf leistungsstarke Modelle über APIs, wodurch das Herunterladen von Modellen, die Verwaltung von Abhängigkeiten oder die Anforderung von GPU-Zuweisungen über langwierige IT-Tickets entfällt.
MaaS funktioniert über die Einrichtung eines KI-Operations-Teams als zentraler Eigentümer gemeinsamer KI-Ressourcen. Modelle werden auf einer skalierbaren Plattform (wie Red Hat® OpenShift® AI oder ähnlichen Plattformen) bereitgestellt und dann über ein API-Gateway zugänglich gemacht. So können mehrere Nutzende, Mitglieder des Entwicklungsteams und Geschäftsbereiche einen vereinfachten Zugriff für Endbenutzende bereitstellen und gleichzeitig die Vorgaben zu Sicherheit und Governance von IT- und Finanzteams erfüllen. Diese Priorisierung kann Chargeback-Funktionen umfassen, was die Nutzung von Modellen ohne direkten Hardwarezugang oder tiefgreifendes technisches Fachwissen ermöglicht. Ziel ist es, einen nutzungsfreundlichen Zugriff auf die KI-Modelle und nicht auf die zur Ausführung dieser Modelle erforderlichen Ressourcen wie GPUs und TPUs (Tensor Processing Units) zu ermöglichen. Gleichzeitig müssen Sie die Performance- und Compliance-Anforderungen des Unternehmens erfüllen, ohne den Zugriff für Endbenutzende zu erschweren.
In der Praxis interagieren Nutzende nur mit APIs, die vom Modell generierte Antworten liefern. So wie öffentliche KI-Anbieter die Komplexität der Hardware von den Endbenutzenden abstrahieren, bieten interne MaaS-Deployments dieselbe Einfachheit. Die Nutzenden verwalten nicht direkt die Hardware- oder Softwareinfrastruktur, sie warten auch nicht darauf, dass ein IT-Ticket in ihrem Namen bearbeitet oder dass eine Umgebung für sie konfiguriert wird. Stattdessen verwalten IT-Operations- und KI-Teams zentral den Modell-Lifecycle sowie Sicherheit, Updates und Skalierung der Infrastruktur und bieten Nutzenden einen optimierten und dennoch kontrollierten Zugriff.
Diese Zentralisierung optimiert nicht nur die internen KI-Abläufe, sondern verbessert auch den Sicherheitsfokus und die Governance. Der Zugriff auf KI-Modelle wird durch die Zugangsdatenverwaltung über ein API-Gateway streng kontrolliert. Unternehmen können die Verwendung einfach nachverfolgen, interne Chargeback-Mechanismen einrichten, sicherstellen, dass Compliance-Richtlinien zum Datenschutz eingehalten werden, und klare operative Grenzen festlegen. So wird Unternehmens-KI sowohl überschaubar als auch praktisch. Das Verfolgen der Nutzung auf Token-Ebene (ein- und ausgehend) ist die genaueste und granularste Methode, viel präziser als Metriken auf GPU-Ebene.
Nutzung kontrollieren, Zugang drosseln, Kosten managen
- IT und Platform Engineers profitieren von zentraler Kontrolle, die nicht autorisierte Modellbereitstellungen verhindert, Sicherheits- und Compliance-Standards durchsetzt und das Lifecycle- und Infrastrukturmanagement vereinfacht.
- Für Finanzteams reduzieren zentralisierte Nutzungsverfolgung und interne Chargeback-Mechanismen Verschwendung und machen die GPU-Nutzung vorhersehbarer und nachvollziehbarer. So können Mehrausgaben durch nicht ausreichend genutzte, teamspezifische Hardwarezuweisungen vermieden werden.
Die Kontrolle erfolgt in erster Linie durch die Integration eines API-Gateways in die KI-Infrastruktur, wodurch Teams die KI-Nutzung auf sehr granularer Ebene verwalten und überwachen können.
Herkömmliche KI-Implementierungen werden häufig durch nicht verwaltete oder ineffiziente Nutzung beeinträchtigt, da Einzelpersonen oder Teams unabhängig voneinander Modelle ohne zentrale Kontrolle bereitstellen. Dieser fragmentierte Ansatz kann zu kostspieligen Ineffizienzen führen, da GPU-Ressourcen gar nicht oder nicht ausreichend genutzt werden. Durch die Platzierung eines API-Gateways als Kernstück der KI-Infrastruktur entsteht ein kontrollierter Zugangspunkt zwischen Nutzenden und Modellen.
Dieses Setup erleichtert präzises Nachverfolgen der Nutzung bis auf die Ebene der einzelnen Token. So können Teams eindeutig ermitteln, wie viel die einzelnen Nutzenden, Teams oder Anwendungen verbrauchen, und die Kosten für GPU und Infrastruktur genau zuordnen. Unternehmen können so feststellen, ob bestimmte Nutzende oder Anwendungen übermäßig viele Ressourcen verbrauchen und entsprechende Abhilfemaßnahmen ergreifen, wie etwa die Nutzung drosseln oder Kosten durch interne Chargeback-Mechanismen zuordnen.
Die vom API-Gateway bereitgestellten Drosselfunktionen sorgen für eine konsistente Performance und verhindern eine Überlastung der Ressourcen. Durch das Drosseln können IT-Teams die Intensität der Zugriffe verwalten und verhindern, dass einzelne Nutzende viele GPU-Ressourcen beanspruchen oder die Performance anderer beeinträchtigen.
Darüber hinaus ermöglichen API-Gateways eine fein granulierte Zugangsdatenverwaltung und Zugangskontrolle. Interne Nutzende können Zugangsdaten für den unabhängigen Zugriff auf KI-Modelle generieren, was den Administrationsaufwand optimiert. Außerdem können Zugangsdaten in kürzerer Zeit widerrufen oder geändert werden, um auf sich ändernde Sicherheitsanforderungen oder Nutzungsmuster zu reagieren.
All dies bedeutet, dass das Kostenmanagement transparenter und nachvollziehbarer wird. IT-Teams können GPU- und Infrastrukturausgaben genau den Teams oder Geschäftsbereichen zuordnen, die sie nutzen.
Support für beliebige Modelle, beliebige Beschleuniger, beliebige Clouds
Ein Kerngedanke des MaaS-Ansatzes ist die Kontrolle. So können Unternehmen eine große Bandbreite an KI-Modellen auswählen und bereitstellen, ihre bevorzugten Hardwarebeschleuniger wählen und in ihren bestehenden Cloud- oder On-Premise-Umgebungen arbeiten. Dieser Ansatz gibt Unternehmen die Freiheit, KI genau nach ihren Anforderungen an Technik und Sicherheit sowie gemäß operativen Präferenzen zu implementieren.
- Bei der Einführung von KI sehen sich Unternehmen starren Einschränkungen gegenüber. Dazu gehören oft:
- Einschränkungen durch bestimmte Cloud Services
- Bindung an proprietäre Modell-Ökosysteme
- Einschränkungen durch feste Hardwareinfrastrukturen
- MaaS begegnet diesen Einschränkungen auf verschiedene Weise, darunter:
- Unterstützung von quelloffenen oder proprietären Modellen, individuell trainierten Modellen und gängigen LLMs wie Llama und Mistral
- Erweiterung der textbasierten Modelle mit prädiktiven Analysen, maschinellem Sehen, Tools für die Audiotranskription und weiteren, multimodalen gen KI-Use Cases wie Bild- oder Videogenerierung
- MaaS ist von Hardwarebeschleunigern unabhängig und bietet so folgende Vorteile:
- Unternehmen können GPUs oder andere Beschleuniger wählen, die ihren Workloads, Kostenstrukturen und Performance-Anforderungen entsprechen
- Zentralisierte KI-Teams können wichtige Entscheidungen in Bezug auf Umfangsbestimmung und Deployment treffen, was die Effizienz verbessert und Fehler durch weniger technisch versierte Nutzende reduziert
- Zentralisiertes Management bietet folgende Vorteile:
- Optimale Zuweisung und Nutzung der Infrastruktur
- Reduzierter operativer Aufwand und Vermeidung der Fehlkonfiguration von Ressourcen
- MaaS unterstützt Deployments in vielen verschiedenen Umgebungen, darunter:
- On-Premise, Hybrid Cloud, Air Gap-Umgebungen und Public Clouds, was besonders für stark regulierte Sektoren geeignet ist, die Datensouveränität, Compliance mit Vorschriften oder strenge Sicherheitskontrollen erfordern
Wie Red Hat MaaS implementiert
Red Hat hat MaaS intern eingeführt, indem die Bereitstellung von und der Zugriff auf KI-Modelle zentralisiert wurden. Unser internes KI-Team verwaltet die KI-Ressourcen und Modelloperationen zentral und verwendet Red Hat OpenShift und Red Hat OpenShift AI als zugrunde liegende Plattform. Diese zentralisierte Modellbereitstellung vereinfacht die KI-Nutzung im gesamten Unternehmen und ermöglicht es unseren Entwicklungs- und Business-Teams, KI-Funktionen effizient in ihre Workflows zu integrieren, ohne dass spezielle Hardware oder tiefgreifendes technisches Fachwissen erforderlich ist.
Unsere Implementierung umfasst eine skalierbare Bereitstellungsarchitektur, die GPUs innerhalb von OpenShift AI verwendet und Nutzende über ein zentralisiertes API-Gateway verbindet. So erhalten Sie kontrollierten, sicherheitsorientierten und nachverfolgbaren Zugriff auf KI-Modelle. Die Verwendung wird durch tokenbasiertes Monitoring sorgfältig gemanagt und ermöglicht eine präzise Nachverfolgung davon, wer Modelle wie oft und in welchem Umfang nutzt. Das Ergebnis ist eine optimierte Hardwarenutzung, die den unnötigen Verbrauch von GPU-Ressourcen reduziert und detaillierte Insights für die genaue Verteilung von Kosten auf verschiedene interne Teams oder Projekte bietet.
Unsere MaaS-Implementierung verwendet GitOps-Workflows und bietet so hohe Verfügbarkeit und Zuverlässigkeit. Dieser operative Ansatz reduziert manuelle Eingriffe und potenzielle Fehler und ermöglicht eine eindeutige Kontrolle der KI-Deployments.
Ein wichtiger Vorteil unserer internen MaaS-Implementierung ist eine deutliche Verbesserung der Ressourceneffizienz und des Benutzererlebnisses. Anstatt dass mehrere Teams unabhängig voneinander GPUs bereitstellen und Modelle implementieren, vermeidet unser MaaS doppelte Arbeit, optimiert interne Abläufe und beschleunigt die Wertschöpfung erheblich. Werden neue Modelle getestet und verifiziert, können Red Hat Teams sie sofort integrieren und verwenden und müssen sich nicht mit der Zuweisung oder Provisionierung von Hardware aufhalten.
Beginnen Sie noch heute mit dem Aufbau Ihrer internen KI-Plattform
Sind Sie bereit, die KI-Bereitstellung zu vereinfachen und Ihre Infrastrukturinvestitionen voll auszuschöpfen? Lesen Sie zunächst unsere detaillierten Ausführungen zu MaaS, um weitere Einblicke in die Funktionsweise zu erhalten. Gehen Sie dann zur Produktseite von OpenShift AI, um die Funktionen der Plattform zu bewerten und Anleitungen zur GPU-Nutzung zu erhalten.
Red Hat Consulting hilft Teams, die intern eine MaaS-Lösung entwickeln, beim Entwerfen und Operationalisieren von auf ihre Anforderungen zugeschnittenen Modellbereitstellungsumgebungen. Weitere Informationen finden Sie auf der Seite Red Hat Consulting für KI.
Sie möchten einen ausführlicheren Einblick in Beispiele aus der Praxis? Sehen Sie sich unsere Reihe mit On-Demand-Webinaren an, in der auch die Session zum Thema MaaS enthalten ist.