Angesichts der wachsenden Verbreitung von KI-Lösungen in Unternehmen wird die Nutzung öffentlicher Modelle zunehmend teurer. Zudem besteht dabei das zusätzliche Risiko, dass Unternehmensdaten möglicherweise an Dritte weitergegeben werden. Mit dem Ansatz von Models as a Service (MaaS) können Unternehmen Open Source-Modelle (und den erforderlichen KI-Technologie-Stack) anbieten, die als gemeinsame Ressource vom gesamten Unternehmen genutzt werden können.
Zusätzlich kommt es mit der beschleunigten Einführung von KI in Unternehmen häufig zu Inkonsistenzen, da die einzelnen Geschäftsbereiche ihre eigenen individuellen KI-Lösungen für eine Vielzahl von Use Cases (Chatbot, Code-Assistent, Text-/Bildgenerierung usw.) entwickeln möchten.
Die Insights von IDC zu Trends bei der KI-Einführung zeigen, wie Unternehmen von opportunistischen zu gemanagten Lösungen übergehen, die das gesamte Unternehmen transformieren können.
Einzelne Geschäftsbereiche benötigen oft unterschiedlichste KI-Modelle, um ihre spezifischen Use Cases zu bearbeiten. Nachfolgend finden Sie einige Beispiele:
- Generative KI-Modelle (gen KI): Verwendung zum Erstellen neuer Inhalte wie Text oder Bilder.
- Prädiktive KI-Modelle: Verwendung zur Klassifizierung oder Vorhersage von Mustern in Daten.
- Abgestimmte KI-Modelle: Modelle, die mit unternehmens- oder domainspezifischen Daten angepasst wurden.
- Retrieval-Augmented Generation (RAG): Erweitert allgemeine Modellinformationen durch unternehmens- oder domainspezifische Daten.
Gen KI-Modelle, auf die über von Drittanbietern gehostete Services wie OpenAI, Claude und Gemini zugegriffen werden kann, sind einfach zu implementieren, werden jedoch bei umfangreicher Nutzung recht kostspielig. Dazu kann es zu Problemen beim Datenschutz und bei der Datensicherheit kommen, da die Unternehmensdaten möglicherweise an diese anderen Parteien weitergegeben werden. Gen KI- und andere Modelle können ebenfalls vom Unternehmen selbst gehostet werden. Dies kann jedoch Mehraufwand in verschiedenen Geschäftsbereichen verursachen, was wiederum zu höheren Kosten und längeren Markteinführungszeiten führen kann.
Da fast wöchentlich neue KI-Modelle auf den Markt kommen und die KI-Entwicklung rasant voranschreitet, können Unternehmen kaum noch Schritt halten. Bei den Modellen gibt es zahlreiche Optionen, von sehr großen Modellen (450B Parameter) über kleinere Versionen dieser Modelle (quantisierte oder weniger Parameter) bis hin zu einer Kombination aus Expertenmodellen. Vielen Entwicklerinnen und Entwicklern fehlt das nötige Fachwissen, um das richtige Modell auszuwählen oder teure Ressourcen (wie etwa GPUs) optimal zu nutzen.
Die Entwicklung eigener KI-Lösungen in verschiedenen Geschäftsbereichen stellt Unternehmen vor mehrere Herausforderungen:
- Hohe Kosten: Für das Deployment und die Verwaltung von KI-Modellen sind teure GPU-Cluster, Fachwissen im Bereich Machine Learning (ML) und kontinuierliches Fine Tuning erforderlich. Das interne Training und Fine Tuning von Modellen kann Millionen an Rechenleistung, Storage und Personal kosten. Außerdem können die Modellkosten ohne zentralisierte Governance unvorhersehbar werden.
- Duplizierung: Das Duplizieren oder die unzureichende Auslastung knapper KI-Ressourcen kann zu Budgetverschwendung führen.
- Komplexität: Entwicklungsteams möchten nur Zugriff auf das Modell haben und sich nicht mit der Komplexität der Infrastruktur oder dem sich ständig weiterentwickelnden KI-Stack befassen.
- Kompetenzmangel: Unternehmen verfügen nicht über die ML-Engineers, Data Scientists und KI-Forschenden, die für die Entwicklung benutzerdefinierter Modelle erforderlich sind.
- Operative Kontrolle: Da mehrere Gruppen an ihren eigenen unabhängigen KI-Projekten arbeiten, haben Unternehmen Schwierigkeiten mit Skalierung, Versionskontrolle und Modellabweichung.
Unternehmen benötigen einen besseren Ansatz, um die Dynamik der KI ohne großen Kostenaufwand zu nutzen.
MaaS als Lösung
Mit MaaS können Unternehmen Open Source-Modelle (und den erforderlichen KI-Stack) anbieten, die als gemeinsame Ressource genutzt werden können. Tatsächlich wird die Unternehmens-IT zum Serviceanbieter von KI-Services, die vom gesamten Unternehmen genutzt werden können.
Nutzende können zwischen modernen Frontier-Modellen und quantisierten oder Small Language Models (SLMs) wählen, die um einiges kleiner sind, aber eine ähnliche Performance zu einem Bruchteil der Kosten bieten. Die Modelle können mit unternehmenseigenen Daten abgestimmt und angepasst sowie auch auf weniger leistungsstarker Hardware und mit geringerem Energieverbrauch ausgeführt werden. Für unterschiedliche Use Cases und Deployment-Umgebungen können mehrere Instanzen von Modellen vorhanden sein. Diese Modelle werden effizient bereitgestellt, um die verfügbaren Hardwareressourcen optimal zu nutzen.
Entwicklungsteams können leicht auf die Modelle zugreifen und sich auf die Entwicklung von KI-Anwendungen konzentrieren, ohne sich um die komplexe Infrastruktur (wie GPUs) kümmern zu müssen.
Die Unternehmens-IT kann die Modellnutzung durch verschiedene Geschäftsbereiche überwachen und die Nutzung von KI-Services abrechnen. Zudem kann die IT so Best Practices beim KI-Management anwenden, um das Deployment und die Instandhaltung der Modelle zu optimieren (wie Versionierung, Regressionstests).
Im Folgenden sind einige Vorteile aufgeführt, die sich ergeben, wenn die IT zum privaten KI-Anbieter für das Unternehmen wird:
- Geringere Komplexität: Durch den Einsatz von zentralisierten MaaS lässt sich die Komplexität der KI-Infrastruktur für Nutzende reduzieren.
- Geringere Kosten: Unterstützung bei der Kostensenkung durch zentrale Bereitstellung von Modellinferenzservices
- Erhöhte Sicherheit: Compliance mit bestehenden Sicherheits-, Daten- und Datenschutzrichtlinien durch den Verzicht auf von Drittanbietern gehostete Modelle
- Schnellere Innovation: Schnelleres Modell-Deployment und damit verbundene Innovationen verkürzen Markteinführungszeiten für KI-Anwendungen
- Keine Duplizierung: Vermeiden der Duplizierung knapper KI-Ressourcen in verschiedenen Gruppen. Data Scientists können optimierte Modelle bereitstellen, die für allgemeine Unternehmensaufgaben benötigt werden.
- Freie Wahl: Kein Vendor Lock-in, während KI-Workloads portierbar bleiben
Weitere Details zu MaaS
Der folgende MaaS-Lösungsstack besteht aus Red Hat OpenShift AI, API Gateway (Teil von Red Hat 3scale API Management) und Red Hat Single Sign-On (SSO). Die Lösung bietet End to End KI-Governance, Zero Trust-Zugriff (Red Hat Build of Keycloak), einen KI-Inferenzserver (vLLM) und Hybrid Cloud-Flexibilität (OpenShift AI) auf einer einzigen Plattform. Außerdem verwendet sie konsistente Tools, um die Lösung On-Premise und in der Cloud mit Red Hat OpenShift bereitzustellen.
Sehen wir uns die einzelnen Komponenten genauer an.
API Gateway
Das API Gateway bietet eine unternehmensgerechte API-Kontrolle für Modelle. Dieser Lösungs-Stack basiert auf dem 3Scale API Gateway. Stattdessen kann auch ein beliebiges unternehmensgerechtes API-Gateway verwendet werden. Zu den Vorteilen dieses API Gateways:
- Sicherheit und Compliance
- Erzwingung von API-Authentifizierung über JWT/OAuth2 für den LLM-Zugriff
- Verschlüsselung des gesamten API-Datenverkehrs zu/von LLM-Services
- Auditprotokolle für Compliance (DSGVO, HIPAA, SOC2)
- Optimieren der Nutzung
- Festlegen von Ratenlimits und -Quotas, um Kostenüberschreitungen zu vermeiden
- Überwachen der LLM-API-Nutzung nach Teams/Projekten
- Identifizieren nicht verwendeter oder überlasteter Endpunkte
- Unterstützung von Hybrid-Deployments
- Konsistentes Management von APIs in der Cloud/On-Premise (via OpenShift-Integration)
- Deployment dedizierter API-Gateways für private LLM-Instanzen
- Unterstützung für Entwicklungsteams
- Self Service-Entwicklungsportal für LLM API Discovery
- Automatisierte API-Dokumentation und -Tests
- Integration von OpenShift AI
- Erzwingung von Governance für Modelle, die auf OpenShift AI bereitgestellt werden
- Verfolgen der Nutzung von KI/ML-APIs neben herkömmlichen Services
Authentifizierung
Die Authentifizierungskomponente bietet ein einheitliches Identitätsmanagement für LLM-Services. Dieser Lösungs-Stack basiert auf Red Hat SSO, stattdessen kann aber auch eine andere unternehmensgerechte Authentifizierungslösung verwendet werden. Nachfolgend einige der Vorteile der Authentifizierung:
- Zero Trust-Sicherheit
- Zentralisierte Authentifizierung für sämtliche LLM-Tools (OIDC/SAML)
- Role-based Access Control (RBAC) für detaillierte Berechtigungen
- Unterstützung von Multi-Faktor-Authentifizierung (MFA) für sensible KI-Workloads
- Enterprise Identity Integration
- Herstellung der Verbindung zu Active Directory, LDAP oder anderen Identity Providers
- Automatisierung der Provisionierung/Deprovisionierung von Nutzenden
- Skalierbares Zugriffsmanagement
- Single Sign-On für sämtliche interne KI-Portale
- Session-Management für Compliance
- Hybrid Cloud-fähig
- Sicherer Zugriff auf LLMs zur Ausführung in beliebigen Umgebungen (Public Cloud/On-Premise)
- Konsistente Richtlinien in verschiedenen Umgebungen
Integration von OpenShift AI
- SSO für OpenShift AI Dashboards und Modellendpunkte
- Einheitliche Identität für Plattformnutzende und API-Kunden
Inferenzserver
Dieser Lösungs-Stack verwendet vLLM als Inferenzserver. Das vLLM-Framework unterstützt Multimodal Models, Einbettungen und Belohnungsmodelle und wird zunehmend in RLHF-Workflows (Reinforcement Learning with Human Feedback) eingesetzt. Mit Funktionen wie erweiterter Planung, Chunk Prefill, Multi-LoRA-Batching und strukturierten Ausgaben ist vLLM sowohl für die Inferenzbeschleunigung als auch für das Deployment auf Unternehmensebene optimiert.
vLLM bietet auch LLM-Komprimierungstools, mit denen Kunden ihre eigenen abgestimmten Modelle optimieren können.
KI-Plattform
Dieser Lösungs-Stack nutzt OpenShift AI zum Bereitstellen von Modellen und innovativen Anwendungen. OpenShift AI unterstützt Unternehmen bei sämtlichen Aspekten der KI, darunter Erfassung und Vorbereitung von Daten, Training, Fine Tuning, Bereitstellung und Monitoring von Modellen sowie Hardwarebeschleunigung.
Das aktuellste Release von OpenShift AI wurde entwickelt, um die Effizienz durch Zugang zu kleineren, voroptimierten Modellen zu steigern. Zudem trägt es zur Verwaltung der Inferenzkosten bei, indem es die verteilte Bereitstellung über ein vLLM-Framework ermöglicht.
OpenShift AI ist sowohl als selbst gemanagte Software als auch als vollständig gemanagter Cloud Service auf Basis von OpenShift erhältlich. Es bietet eine sichere und flexible Plattform, mit der Sie selbst entscheiden können, wo Sie Ihre Modelle entwickeln und bereitstellen möchten – ob On-Premise, in der Public Cloud oder am Edge.
Zusammenfassung
Mit der Entwicklung und Skalierung verschiedener KI-Lösungen durch Unternehmen wird die Nutzung von Modellen, die von Drittanbietern gehostet werden, sehr kostspielig und birgt oft inakzeptable Datenschutzrisiken, da Unternehmensdaten diesen Drittanbietern zugänglich gemacht werden. Selbst gehostete KI-Modelle können zum Datenschutz beitragen, aber auch zu doppeltem Aufwand in verschiedenen Geschäftsbereichen führen. So können sich die Kosten erhöhen und die Markteinführungszeiten verlängern.
Models as a Service (MaaS) ist ein neuer Ansatz, mit dem Unternehmen Open Source-Modelle bereitstellen können, die dann als gemeinsame Ressource im gesamten Unternehmen genutzt werden können. Entwicklungsteams können bequem auf diese Modelle zugreifen und sich so auf die Entwicklung von KI-Anwendungen konzentrieren, ohne sich um die zugrunde liegende Infrastruktur kümmern zu müssen. Die Unternehmens-IT kann die Modellnutzung durch verschiedene Geschäftsbereiche überwachen und den einzelnen Teams oder Projekten die Inanspruchnahme von KI- Services in Rechnung stellen.
Durch den MaaS-Ansatz können Unternehmen von vereinzelten KI-Anwendungen dazu übergehen, die KI-Fähigkeiten der gesamten Organisation zu transformieren.
Mehr erfahren
- In der Übersicht MaaS-Lösungsarchitektur finden Sie weitere Informationen sowie einen kurzen visuellen Walkthrough zur Lösung.
- Besuchen Sie das Repository für Model as a Service zum Einrichten Ihrer eigenen MaaS-Lösung.
- Kontaktieren Sie Red Hat Consulting, um weitere Services zu erhalten.
- Erfahren Sie mehr über die Vorteile der Quantisierung.
- Sehen Sie sich InstructLab in Action an.
1 IDC Directions, Completing the Agentic Journey, April 2025
Produkttest
Red Hat Enterprise Linux AI | Testversion
Über die Autoren
Ishu Verma is Technical Evangelist at Red Hat focused on emerging technologies like edge computing, IoT and AI/ML. He and fellow open source hackers work on building solutions with next-gen open source technologies. Before joining Red Hat in 2015, Verma worked at Intel on IoT Gateways and building end-to-end IoT solutions with partners. He has been a speaker and panelist at IoT World Congress, DevConf, Embedded Linux Forum, Red Hat Summit and other on-site and virtual forums. He lives in the valley of sun, Arizona.
Ritesh Shah is a Principal Architect with the Red Hat Portfolio Technology Platform team and focuses on creating and using next-generation platforms, including artificial intelligence/machine learning (AI/ML) workloads, application modernization and deployment, Disaster Recovery and Business Continuity as well as software-defined data storage.
Ritesh is an advocate for open source technologies and products, focusing on modern platform architecture and design for critical business needs. He is passionate about next-generation platforms and how application teams, including data scientists, can use open source technologies to their advantage. Ritesh has vast experience working with and helping enterprises succeed with open source technologies.
Juliano Mohr is a Principal Architect at Red Hat, where he builds demos, labs, and workshops for the Red Hat demo platform. He was previously a Consulting Architect at Red Hat, applying his expertise in application development to support digital transformation. During his global career, he has deepened his knowledge in agile, DevOps, and modern software practices.
Ähnliche Einträge
Resilient model training on Red Hat OpenShift AI with Kubeflow Trainer
Red Hat to acquire Chatterbox Labs: Frequently Asked Questions
Technically Speaking | Platform engineering for AI agents
Technically Speaking | Driving healthcare discoveries with AI
Nach Thema durchsuchen
Automatisierung
Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen
Künstliche Intelligenz
Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen
Open Hybrid Cloud
Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.
Sicherheit
Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren
Edge Computing
Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen
Infrastruktur
Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen
Anwendungen
Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen
Virtualisierung
Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen