Da KI zum Motor der nationalen Wettbewerbsfähigkeit wird, gewinnt das Konzept der souveränen KI – die Fähigkeit, KI-Systeme frei von externen Einflüssen zu betreiben – zunehmend an Bedeutung. Der Weg bis zur Einführung ist jedoch mit Herausforderungen verbunden. Eine aktuelle Umfrage unter über 900 IT-Führungskräften und KI-Engineers zur KI-Einführung zeigt eine erhebliche „Wertlücke“, die belegt, dass trotz großer Begeisterung (72 %) nur 7 % der Unternehmen in Europa, dem Nahen Osten und Afrika (EMEA) Ergebnisse liefern.

Die Umfrage macht deutlich, dass Datenschutz und Infrastruktursilos die KI-Entwicklungsbemühungen behindern. Infolgedessen hat sich die souveräne KI schnell von einer theoretischen „Cloud-Herausforderung“ zu einer praktischen Notwendigkeit entwickelt. Durch die Minderung der spezifischen Risiken, die in der Umfrage von Red Hat identifiziert wurden, ermöglicht souveräne KI regulierten Unternehmen den Übergang von der Pilotphase zur Produktion, ohne dabei Abstriche bei folgenden Vorteilen machen zu müssen:

  1. Einhaltung gesetzlicher Vorschriften: Einhaltung strenger Vorschriften wie der Datenschutz-Grundverordnung (DSGVO), des EU AI Acts und von Gesetzen zur Datenresidenz, die vorschreiben, dass Bürgerdaten innerhalb bestimmter Grenzen bleiben müssen.
  2. Operative Resilienz: Die Möglichkeit, Abläufe auch bei geopolitischer Instabilität oder bei fehlender Verbindung zum globalen Internet fortzusetzen.
  3. Strategische Autonomie: Unternehmen vermeiden Vendor Lock-in und behalten die volle Kontrolle über das geistige Eigentum, wie etwa Modelle und Gewichtungen, die aus sensiblen Daten generiert werden.

Red Hat OpenShift AI bietet eine Basis für diese Souveränität, auf der Unternehmen eine „Air-Gap“-KI-Fabrik aufbauen und gleichzeitig die absolute Kontrolle über Sicherheit, Daten, Modelle und Ergebnisse behalten können.

In diesem Artikel sehen wir uns spezifische Beispiele für Herausforderungen im Bereich souveräner KI an, mit denen unsere Kunden konfrontiert sind, fassen die wichtigsten zu bewältigenden Themen zusammen und schlagen eine Lösung für diese Probleme vor.

User Story: Das Dilemma der „KI-Unabhängigkeit“

Der Protagonist: Dr. Aris (eine zusammengesetzte Persona, die auf echten Kundenherausforderungen basiert), Chief Data Officer des Gesundheitsministeriums eines mittelgroßen europäischen Landes.

Die Herausforderung: Das Ministerium verfügt über eine wertvolle Datenquelle: jahrzehntelange anonymisierte Patientenakten, Genomsequenzen und die lokale epidemiologische Historie. Dr. Aris möchte ein „National Health LLM“ entwickeln, das Ärzten bei der Diagnose seltener Krankheiten in ihrer Bevölkerung hilft.

Entscheidend ist, dass das Ministerium mit einem „Schatten-KI“-Problem konfrontiert ist. Frustrierte Forschende laden heimlich anonymisierte Snippets in öffentliche LLMs hoch, um ihre Arbeit zu erledigen, und riskieren dabei Datenlecks. Sie brauchen eine genehmigte, vollständig sichere interne Plattform, die genauso einfach zu nutzen ist wie eine Public Cloud.

Der Konflikt:

  • Die Cloud-Falle: Führende KI-Anbieter, die Models as a Service (MaaS) anbieten, verlangen, dass sensible Daten in US-basierte Public Clouds hochgeladen werden. Dies kann gegen die Datenschutz-Grundverordnung (DSGVO), Gesetze zur Datenresidenz und nationale Sicherheitsprotokolle verstoßen.
  • Der DIY-Albtraum: Dr. Aris versucht, die Plattform von Grund auf neu zu erstellen. Sein Team ist schnell durch das operative Chaos beim willkürlichen Zugriff auf den 500-GPU-Cluster gelähmt. Dies führt zu einem ständigen Konflikt um Ressourcen, bei dem wichtige Experimente auf unbestimmte Zeit warten, während reservierte Hardware ungenutzt bleibt.

Die Lösung: Das Ministerium entwickelt eine souveräne KI-Plattform auf OpenShift AI, wobei es auch Kubeflow und Feast verwendet.

  • Die Veränderung: Anstatt sich auf proprietäre Cloud-APIs zu verlassen, baut das Team von Dr. Aris selbst eine „Modellfabrik“ auf ihrer eigenen, geschützten Air-Gap-Infrastruktur. OpenShift AI, das Kubeflow-Komponenten enthält, abstrahiert die GPU-Cluster-Hardware und ermöglicht es dem Team, massive Modelle zu trainieren, ohne auch nur ein einziges Byte über die Grenze zu senden. Mit Feast lässt sich das Feature-Management über Training und Inferenz hinweg zentralisieren, sodass die Features, die in Modelle einfließen, konsistent definiert sind, was Governance und Nachverfolgbarkeit ermöglicht.
  • Das Ergebnis: Ein Data Scientist sendet einfach eine Trainingsanfrage, und das System erstellt automatisch einen verteilten Cluster, ruft Features von Feast ab, trainiert das Modell und löscht es wieder – und das alles im nationalen Air-Gap-Rechenzentrum. Dr. Aris erreicht „KI-Autonomie“ durch eine skalierbare und nicht verbundene KI-Plattform nach den Bedingungen seines Landes.

Die drei Säulen der souveränen KI:

Um von einer „digitalen Kolonie“ – einer Nation (oder Community), die so stark auf fremde Technologieinfrastrukturen angewiesen ist, dass sie die Kontrolle über die eigene digitale Wirtschaft, Daten und zukünftige Entwicklung verliert – zur „digitalen Souveränität“ zu gelangen, muss eine Nation drei wichtige Schichten des KI-Technologie-Stacks kontrollieren.

Technische Souveränität (die Basis)

Prinzip: Souveränität verlangt eine transparente Sicherheitskette und Resilienz gegen die Instrumentalisierung der Lieferkette. Durch die Einführung einer hardwareunabhängigen Plattformschicht können Länder ihren KI-Fortschritt durch eine Multi-Vendor-Strategie optimieren, sodass ihre strategische Autonomie unabhängig von Veränderungen in der globalen Lieferkette gewahrt bleibt. Die souveräne Plattform muss die Software von der Hardware entkoppeln und die strikte Eigentümerschaft der Infrastruktur mit der Flexibilität zur Anpassung an die Marktverfügbarkeit verbinden. Durch die Einhaltung von Open Source-Standards können die KI-Funktionen eines Unternehmens unabhängig von der Roadmap oder dem Hardware-Monopol eines einzelnen Anbieters inspiziert, geprüft und gewartet werden. So behalten Sie die absolute Kontrolle über die Servicekontinuität.

Validierung: Die Umfrage von Red Hat AI bestätigt, dass 92 % der IT-Führungskräfte Open Source für Unternehmen als entscheidend für ihre KI-Strategie betrachten. Es bietet die Konsistenz und Transparenz, die für die Kontrolle der KI-Lieferkette erforderlich sind.

Datensouveränität (das Asset)

Prinzip: Die Datengravitation ist absolut. Vertrauliche Daten müssen auf Speichermedien gespeichert werden, die sich physisch innerhalb des souveränen Perimeters befinden und nur den lokalen Gesetzen unterliegen. Die Herausforderung besteht darin, Data Scientists die einfache Auswahl und den Abruf von Daten in der Cloud zu ermöglichen und gleichzeitig die Datenbewegung physisch auf ein sicheres internes Netzwerk zu beschränken.

Operative Souveränität (die Kontrolle)

Prinzip: Die „Control Plane“ muss lokal sein. Kritische Workflows können sich nicht auf eine in einem anderen Kontinent gehostete SaaS-Konsole (Software as a Service) verlassen, um Rechenressourcen oder Benutzerzugriff zu verwalten. Eine souveräne Plattform erfordert eine eigenständige Control Plane, die das Identity Access Management (IAM) und die Ressourcenorchestrierung vollständig innerhalb des lokalen Perimeters übernimmt.

Technische Lösung

Unsere Lösung basiert auf einer mehrschichtigen Architektur, in der Red Hat AI als einheitliche, souveräne Plattform dient und die Trainingsfunktionen von Kubeflow und das Datenmanagement von Feast orchestriert.

Diese Lösung basiert auf Open Source-Standards, insbesondere auf Red Hat OpenShift, das eine Kubernetes-Basis bietet, und dem Kubeflow-Projekt. Durch die Verwendung der enthaltenen Komponenten wie Model Registry, KServe, Pipeline und Training sowie Feast für die Feature-Bereitstellung können Unternehmen die vollständige Kontrolle über ihren Technologie-Stack behalten. Dank dieser Transparenz können Unternehmen Code auf Schwachstellen untersuchen und direkt zur Roadmap des Projekts beitragen. Unser Fokus liegt hier darauf, wie Kubeflow Trainer und Feast diese Souveränitätsanforderungen unterstützen.

Der offene Blueprint für die Souveränität von KI: Red Hat AI

Um echte Souveränität zu erreichen, muss die zugrunde liegende Plattform ebenso vertrauenswürdig sein wie die Daten, die sie verarbeitet. Mit Red Hat AI erhalten Sie eine gehärtete, unternehmensgerechte Basis, die den spezifischen Anforderungen von geschützten, eigenständigen KI-Fabriken gerecht wird.

Red Hat AI bietet vollständige Unabhängigkeit von der Infrastruktur. Es unterstützt Deployments auf Air-Gap-Bare-Metal, Private Clouds oder bewährten souveränen Cloud-Partnern. So können Unternehmen ihre eigenen Hardwareanbieter wählen (beispielsweise NVIDIA, Intel, AMD) und die Kontrolle über die Servicekontinuität behalten.

  • Vertrauenswürdige Softwarelieferkette: Die Souveränität beginnt bei der Quelle. Red Hat AI bietet einen Katalog zertifizierter, auf Schwachstellen gescannter und digital signierter KI-Tools, damit die Software, die in Ihrem Air-Gap-Perimeter ausgeführt wird, keine bekannten Schwachstellen aufweist – eine entscheidende Anforderung für die nationale Sicherheit.
  • Einheitliche MLOps Control Plane: Die Plattform konsolidiert den fragmentierten KI-Technologie-Stack in einer einzigen Oberfläche. Sie hilft beim Management der komplexen Abhängigkeiten zwischen dem Betriebssystem (Red Hat Enterprise Linux), der Hardware (GPUs) und der Anwendungsschicht (Kubeflow/Feast), sodass Data Scientists sich auf die Modellierung konzentrieren können, statt sich um die Installation der Infrastruktur zu kümmern.
  • Skalierbare Hardwareabstraktion: Unabhängig davon, ob sie auf Bare-Metal-Racks oder in einer virtualisierten Private Cloud ausgeführt wird – Red Hat AI abstrahiert die physischen Ressourcen. Dabei werden Operatoren verwendet, um spezielle Hardware, wie die GPUs in einem nationalen Supercomputer, automatisch abzustimmen und verfügbar zu machen. So wird eine starke Mandantenfähigkeit ermöglicht, ohne dass Nutzende sich mit der Komplexität befassen müssen.

Nach dieser sicheren Basis setzen wir auf Red Hat OpenShift AI. Als verteilte KI-Plattform im Portfolio von Red Hat AI ermöglicht OpenShift AI Unternehmen das Entwickeln, Optimieren, Bereitstellen und Verwalten von KI-Modellen und -Anwendungen. Sie ist das zentrale Nervensystem, das drei wichtige, integrierte Funktionen orchestriert: eine leistungsstarke Trainings-Engine, eine präzise Datenverwaltungsschicht und ein optimiertes Framework für die Modellbereitstellung.

Integriertes Computing: Kubeflow Trainer

Für eine souveräne KI-Fabrik ist die Nutzung einer Public Cloud-Infrastruktur aufgrund strikter Kontroll- und Datenaufbewahrungsanforderungen oft keine Option. Um echte Souveränität zu wahren, müssen Sie Eigentümer der Hardware sein und sie betreiben. Diese Unabhängigkeit bringt jedoch die Verantwortung für eine effektive Verwaltung mit sich. Dazu gehören die Planung komplexer verteilter Jobs, die Handhabung von Knotenausfällen und die effiziente Nutzung hochwertiger Supercomputing-Assets.

Kubeflow Trainer (eine Komponente von OpenShift AI) löst dieses operative Paradoxon. Es bietet cloudnative Benutzerfreundlichkeit für Ihre private Infrastruktur und dient als leistungsstarke Engine, die das verteilte Training in Kubernetes optimiert. Es ersetzt fragmentierte Workflows durch die einheitliche TrainJob API und ermöglicht es Data Scientists, Frameworks wie PyTorch und TensorFlow zu skalieren, ohne komplexen Infrastrukturcode neu schreiben zu müssen.

  • Vereinfachung: Durch die Abstraktion der zugrunde liegenden souveränen Infrastruktur bietet diese eine einzige, konsistente Schnittstelle für umfangreiche verteilte Trainingsaufgaben.
  • Zuverlässigkeit: Auf der Kubernetes JobSet-API aufbauend, stellt es sicher, dass die gesamte Gruppe korrekt verwaltet wird (Alles-oder-Nichts-Planung), wenn ein Knoten in einem verteilten Trainings-Cluster ausfällt. Dies trägt dazu bei, Ressourcenverschwendung zu reduzieren, da umfangreiche Trainingsjobs entweder vollständig ausgeführt oder sauber neu gestartet werden.
  • Integration: Die Lösung lässt sich nativ in Kueue (Teil des Scheduling-Stacks von OpenShift AI) integrieren, um Job-Quotas und Warteschlangen zu verwalten. Außerdem werden GPU-Ressourcen dynamisch aus dem zugrunde liegenden OpenShift-Node-Pool zugewiesen, damit die nationalen Compute-Assets optimal genutzt werden.

Souveräne Daten: Feast Feature Store

Für echte Datensouveränität ist zwar eine umfassende Datenstrategie erforderlich, aber eine spezielle Komponente wird benötigt, um die Lücke zwischen Rohdaten und Modellnutzung zu schließen. Feast ergänzt die Compute Engine und dient als „Speicher“ der Lösung. Feast, das auf OpenShift aufsetzt, entkoppelt das Modell von der Rohdateninfrastruktur, um die Compliance und Reproduzierbarkeit zu verbessern.

Feast verwaltet die Point-in-Time-Korrektheit, sodass das Modell genau mit den Daten trainiert wird, die zu einem bestimmten historischen Zeitpunkt verfügbar sind. So werden Datenlecks verhindert und die vollständige Auditierbarkeit ermöglicht.

  • Offline Store (z. B. MinIO): Es stellt eine sichere Verbindung zum S3-kompatiblen Air-Gap-Objektspeicher her, um historische Daten mit hohem Durchsatz für das Training zu verarbeiten.
  • Online Store (z. B. Redis): Es verwaltet Features mit niedriger Latenz für Inferenzen, sodass Echtzeitentscheidungen innerhalb des souveränen Perimeters getroffen werden.
  • Feature Registry: Sie bietet eine Single Source of Truth für Feature-Definitionen, sodass kritische Metriken (z. B. „Patientenalter“) von allen Data Scientists auf der Plattform auf identische Weise berechnet werden, wodurch die Integrität der souveränen Intelligenz gewahrt bleibt.

Vervollständigung des Lifecycles: Souveräne Modellbereitstellung

Echte Souveränität geht über das Training hinaus und muss den gesamten MLOps-Lifecycle umfassen. Sobald ein Modell mit Kubeflow trainiert wurde, muss es zur Verarbeitung von Live-Daten bereitgestellt werden, ohne den sicheren Perimeter zu verlassen.

OpenShift AI schließt diesen Kreis mit integrierten Funktionen zur Modellbereitstellung. Da Unternehmen Tools wie KServe, vLLM und llm-d-Support für die verteilte Inferenzierung innerhalb der Plattform nutzen, können sie ihre Modellartefakte sofort auf demselben souveränen Air-Gap-Cluster bereitstellen, auf dem sie trainiert wurden. Das bedeutet:

  • Inferenz bleibt intern: Mit vLLM und llm-d werden Nutzeranfragen (z. B. eine ärztliche Diagnoseanfrage) und Live-Datenströme lokal verarbeitet, sodass sie niemals eine öffentliche API durchlaufen. Diese Technologien optimieren die GPU-Speichernutzung über PagedAttention und ermöglichen die Aufteilung massiver Basismodelle auf mehrere kleinere GPUs. Diese optimierte Funktion macht es für Unternehmen finanziell und technisch möglich, hochleistungsfähige generative KI (gen KI) auf ihrer eigenen bestehenden Infrastruktur zu hosten. Dadurch vermeiden sie die Notwendigkeit, teure – und nicht souveräne – Cloud-APIs zu mieten.
  • Einheitliche Souveränität: Von der Hardwarebeschleunigung bis zur Modellüberwachung wird der gesamte Ablauf, Gather (Feast) → Train (Kubeflow) → Serve (OpenShift AI), auf einer souveränen Infrastruktur ausgeführt und unterliegt Ihrer Kontrolle.

Diese Funktion verbindet die Entwicklungsphase direkt mit den Integrations- und Überwachungsphasen, sodass ein reguliertes Unternehmen eine erstklassige End-to-End-KI-Fabrik komplett intern betreiben kann.

Architektur:

Das folgende Diagramm zeigt, wie OpenShift AI als souveräne Plattformschicht fungiert und die Orchestrierung, Sicherheit und Hardwareverwaltung umfasst, die für die Ausführung von Kubeflow und Feast in einer Air-Gap-Umgebung erforderlich sind.

Figure 1: high-level architecture diagram of Red Hat OpenShift AI

Zusammenfassung

Für souveräne KI ist mehr als nur lokale Hardware erforderlich. Es bedarf einer Softwarearchitektur, die die Bedeutung von Daten und die Komplexität moderner KI-Workflows berücksichtigt.

Durch den Einsatz von Technologien wie Kubeflow Trainer und Feast in OpenShift AI können Unternehmen eine souveräne KI-Fabrik aufbauen, die sich auszeichnet durch:

  1. Gehärtet durch Design: Die Daten fließen direkt innerhalb des geschützten Perimeters vom Storage zum Computing, gesteuert durch die unternehmensfähige Role-Based Access Control (RBAC) von Red Hat und optionale Compliance mit FIPS (Federal Information Processing Standards).
  2. Skalierbar: Nutzung der Vorteile von verteiltem Training auf Kubernetes mit automatisierter Hardwareverwaltung durch OpenShift AI und Kubeflow Trainer.
  3. Reproduzierbar: Verwendung von Feature Stores zur Unterstützung einer auditierbaren Datenherkunft.

Mit dieser Lösung können Länder und Unternehmen die Vorteile der KI nutzen, ohne ihre Unabhängigkeit zu beeinträchtigen, und die Herausforderung der Souveränität in einen Wettbewerbsvorteil verwandeln.

Sind Sie bereit für den Aufbau einer eigenen souveränen KI-Fabrik?

  • Technische Details: Möchten Sie den Code hinter der Architektur sehen? Im Red Hat Developer Blog finden Sie ein ausführliches technisches Tutorial: Improve RAG retrieval with Feast and Kubeflow Trainer.
  • Entdecken Sie die Plattform: Einen umfassenden Überblick finden Sie unter Red Hat OpenShift AI. Erfahren Sie, wie unsere unternehmensgerechte Plattform Unternehmen beim Entwickeln, Bereitstellen und Verwalten von souveränen und geschützten KI-Anwendungen in großem Umfang unterstützt.

Ressource

Das adaptive Unternehmen: KI-Bereitschaft heißt Disruptionsbereitschaft

Dieses E-Book, verfasst von Michael Ferris, COO und CSO von Red Hat, befasst sich mit dem Tempo des Wandels und den technologischen Umbrüchen durch KI, mit denen IT-Führungskräfte aktuell konfrontiert sind.

Über den Autor

Umberto Manganiello is a Staff Engineer at Red Hat since 2025. Prior to this, he spent over 15 years as a Principal Architect and Engineer in the Financial and Telecommunications sectors. He specializes in designing high-availability systems that operate at massive scale, leveraging deep expertise in Kubernetes, Kafka, and Cloud modernization. Currently, he applies this architectural discipline to the challenges of MLOps, with a focus on GenAI, OpenShift AI, and Kubeflow, blending cloud-native resilience with AI model training workflows.

UI_Icon-Red_Hat-Close-A-Black-RGB

Nach Thema durchsuchen

automation icon

Automatisierung

Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen

AI icon

Künstliche Intelligenz

Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen

open hybrid cloud icon

Open Hybrid Cloud

Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.

security icon

Sicherheit

Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren

edge icon

Edge Computing

Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen

Infrastructure icon

Infrastruktur

Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen

application development icon

Anwendungen

Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen

Virtualization icon

Virtualisierung

Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen