Ein Erlebnis kann eine Idee in Ihrem Kopf entstehen lassen, die sich zu einer viel größeren Vision entwickeln kann. Vor Kurzem besuchte ich Japan, ein wunderschönes Land mit einer reichen und ausgeprägten Kultur. Dabei wurde mir wieder bewusst, wie eng Sprache und Kultur miteinander verknüpft sind. Sprachliche Struktur reflektiert und beeinflusst auch, wie Menschen die Welt wahrnehmen. So sind etwa einige Kulturen eher informell, während andere mit etablierten sozialen Hierarchien eher formeller sind. Das zeigt sich in der Grammatik, aber auch in der Art und Weise, wie Menschen einander begrüßen, wie Fragen formuliert werden, und im Rhythmus eines Gesprächs. Dieses Erlebnis führte mich zu einer Frage: Wie können wir eine neue Generation von KI so trainieren, dass sie die Sprache sämtlicher Kulturen spricht?

Globale KI

Häufig wird KI als revolutionäres globales Tool, als Technologie für die gesamte Menschheit bezeichnet. Aber wenn KI von unseren kollektiven Daten lernt, welche Kultur lernt sie dann? Die Aussicht auf ein universell intelligentes System ist vielversprechend, verdeckt jedoch ein kritisches Problem: Die derzeit leistungsfähigsten KI-Modelle sind kulturell nicht neutral. Sie sind ein direktes Abbild ihrer Trainingsdaten, die überwiegend englischsprachig und westlich geprägt sind.

Das Konzept der „KI-Souveränität“ wird für dieses westlich geprägte Modelltraining besonders relevant. Es geht nicht nur um den Zugang zu Technologie oder Hardware, sondern auch um die Entwicklung einer KI, die die besonderen Sprachen, Werte und Kulturen einer Nation oder Gemeinschaft widerspiegeln kann. Wir glauben, dass dies mit Open Source-KI möglich ist.

Die Sprachlücke der KI in Zahlen

Die digitale Souveränität, insbesondere im Kontext der KI, entwickelt sich schnell von einem abstrakten Konzept zu einem kritischen, realen Problem. Die Zahlen bestätigen diesen Wandel, angefangen bei der Einführung von InvestAI durch die EU – zur Mobilisierung von 200 Milliarden Euro für die KI-Entwicklung, darunter 20 Milliarden Euro für die Schaffung von KI-„Gigafabriken“ – bis hin zu einem Anstieg der privaten Unternehmensinvestitionen um 44,5 % von 2023 bis 2024. Dabei investieren sowohl Regierungen als auch der Privatsektor weltweit Milliarden in die Entwicklung heimischer KI-Ökosysteme, um ihre digitale Zukunft zu sichern. Angesichts der zunehmenden Komplexität und Reichweite von KI-Modellen haben der Speicherort und die Kontrolle der für ihr Training und ihren Betrieb verwendeten Daten erhebliche Auswirkungen auf die nationale Sicherheit, die wirtschaftliche Wettbewerbsfähigkeit sowie die ethische Governance. Diese Datenkontrolle ist nicht nur ein theoretisches, sondern ein konkretes Problem mit eindeutigen Auswirkungen.

Die Basismodelle, von denen wir allgemein hören, basieren hauptsächlich auf der englischen Sprache. Beispielsweise waren 89,7 % der Pre-Trainingsdaten für Llama 2 von Meta in englischer Sprache verfasst. Selbst mit Llama 3.1 waren nur 8 % des 15 Billionen Token-Datensatzes nicht englisch. Auch GPT-3 von OpenAI wurde mit einem Datensatz trainiert, der zu etwa 93 % aus englischen Texten bestand. Diese Statistiken, die aus den eigenen Datenblättern der Modelle erstellt wurden, sind sehr aufschlussreich.

Das Internet selbst, die Hauptquelle für Trainingsdaten, ist ähnlich verzerrt. Der Datensatz von Common Crawl, eine Momentaufnahme des Internets, die zum Trainieren vieler Modelle verwendet wird, ist ein Musterbeispiel. In einer aktuellen Version waren 46 % der Dokumente in englischer Sprache verfasst, während die nächsten Sprachen, Deutsch und Russisch, jeweils weniger als 6 % ausmachten. Im Gegensatz dazu sprechen laut dem CSI World Factbook 2022 knapp 19 % der Menschen weltweit Englisch

Die Folgen dieses Ungleichgewichts gehen über die einfache Übersetzung von Sprachen hinaus. Es prägt die kulturelle Ausrichtung des Modells. Untersuchungen haben gezeigt, dass Large Language Models (LLMs) dazu tendieren, sich an den kulturellen Werten moderner, gebildeter, industrieller, reicher und demokratischer Gesellschaften auszurichten, weil dies die Quelle der Daten ist, mit denen sie trainiert wurden.

Das Trainieren eines KI-Modells mit Sprache kann eine leistungsstarke Methode sein, kulturelle Muster darzustellen und zu reproduzieren, da Sprachen die Werte, Überzeugungen und Weltanschauungen einer Kultur direkt widerspiegeln. Durch die Analyse großer Textmengen einer bestimmten sprachlichen und kulturellen Gruppe lernt die KI, die Nuancen dieser Kultur nachzuahmen.

Flachwitze sind kompliziert

Beim Trainieren eines KI-Modells geht es nicht nur um das Verständnis von Vokabular und Grammatik, sondern auch um die praktische Anwendung von Sprache. Das bedeutet, über den wörtlichen Sinn hinauszugehen und Sarkasmus, Ironie, Humor und sämtliche sozialen Umgangsformen, die ein Gespräch beinhaltet, mit einzubeziehen. Dies lässt sich in einem kurzen Flachwitz darstellen.  Ich habe beispielsweise ein öffentliches GPT-Modell um einen Flachwitz gebeten und erhielt folgende Antwort: 

Ich mache mir Sorgen um den Kalender. Seine Tage sind gezählt.

Dieser Witz mag auf Englisch lustig sein, aber für Nicht-Muttersprachler könnte er verwirrend sein, da die Pointe eine Redewendung ist, die in westlichen Kulturen häufig vorkommt. Sarkasmus und Humor (die manchmal in Flachwitzen zu finden sind) entstehen nur durch das Verarbeiten umfangreicher Materialien aus Literatur, historischen Dokumenten, Interaktionen in sozialen Medien und sogar umgangssprachlichen Ausdrücken. Auf diese Weise können KI-Modelle wiederkehrende Themen, vorherrschende Vorstellungen und die zugrunde liegenden kognitiven Rahmenbedingungen nachahmen, die die Identität einer Kultur prägen.

Open Source – ein neuer Weg

Communities müssen ihre eigenen Modelle nicht von Grund auf neu entwickeln. Das Schöne an Open Source ist, dass es einen alternativen Weg bietet. Communities können ein leistungsstarkes, quelloffenes „Basismodell“ (wie Llama) per Fine Tuning anpassen. Sie können das Modell also anhand ihrer eigenen kulturspezifischen Daten trainieren, damit es die Nuancen ihrer Sprache, Geschichte und rechtlichen Rahmenbedingungen lernt.

Kulturelles Fine Tuning ist nicht nur eine Theorie, sondern ein wichtiger Aspekt. Hier finden Sie einige Beispiele:

  • Panafrikanisches NLP (Natural Language Processing) mit Masakhane: Masakhane, was auf Zulu in etwa „Wir bauen gemeinsam“ bedeutet, ist eine panafrikanische Community von Forschenden. Sie sind ein perfektes Beispiel für eine Community, die an der Lösung ihrer eigenen Probleme arbeitet. Sie haben den ersten NER-Datensatz (Named Entity Recognition) für 10 afrikanische Sprachen (MasakhaNER) erstellt und Übersetzungsmodelle für über 30 afrikanische Sprachen entwickelt.
  • Bewahrung indigener Sprachen: Der Einsatz von KI erstreckt sich auch auf den Schutz gefährdeter Sprachen. Projekte wie das Technologieprojekt für indigene Sprachen des National Research Council of Canada (NRC) und die Arbeit von IBM mit Sprachen wie Guarani Mbya in Brasilien sind spannende Beispiele dafür, wie diese Technologie zur Bewahrung kultureller Aspekte eingesetzt werden kann.

Zunehmende Bestrebungen zur KI-Souveränität

Parallel zur technischen Arbeit entwickelt sich eine umfassende politische Bewegung um das Konzept der KI-Souveränität. KI-Souveränität bedeutet, dass ein Land die Kontrolle über seine eigene KI-Entwicklung übernimmt, um unabhängig von anderen Ländern (oder Regionen) zu bleiben. Souveräne KI bedeutet, sensible Daten innerhalb der Landesgrenzen zu kontrollieren, die strategische Unabhängigkeit kritischer Systeme zu wahren und KI zu entwickeln, die lokale Kulturen widerspiegelt und mit nationalen Werten im Einklang steht. Zudem bedeutet es, die heimische Wirtschaft anzukurbeln sowie Rahmenbedingungen und Vorschriften zu schaffen, wie beispielsweise das EU-Gesetz zur künstlichen Intelligenz in der Europäischen Union.

Diese rechtliche und politische Bewegung ist die treibende Kraft in der Arbeit von Communities wie Masakhane und ist daher nicht nur eine gute Idee, sondern für viele Länder eine nationale Priorität. Sie ist der Grund für das enorme Unterfangen, lokale Datensätze zu sammeln und souveräne KI-Funktionen zu entwickeln. Schließlich kann eine Nation keine KI-Souveränität erreichen, wenn sämtliche Daten mit fremden Modellen verarbeitet werden, die nicht ihren kulturellen Kontext widerspiegeln. Ein lokales Fine Tuning von Open Source-Modellen hilft, diese Richtlinienanforderungen zu erfüllen.

Eine Zukunft mit mehrsprachiger KI

Der standardmäßige Ansatz für KI könnte eine kulturelle Homogenisierung sein, bei der die Nuancen unserer globalen Kulturen durch Modelle, die auf einem kleinen Ausschnitt menschlicher Erlebnisse basieren, verflacht werden. Durch die Verwendung von Open Source-Tools und -Modellen schaffen engagierte Communities ein gerechteres und vielfältigeres KI-Ökosystem.

Die Prinzipien von Open Source sind sehr wirkungsvoll, und es ist wichtig, einen gemeinschaftsorientierten Ansatz für KI zu vertreten. Wenn wir Transparenz, Zusammenarbeit und gemeinsame Entwicklung fördern, kann Open Source bei der Beschleunigung von Innovationen helfen. So werden viele verschiedene Perspektiven und Beiträge zusammengetragen, die dann die Zukunft der KI gestalten können.

Die Beteiligung von Red Hat an Projekten wie InstructLab und vLLM ermöglicht es beispielsweise, dass nicht nur Data Scientists ihr Wissen und ihre Expertise in LLMs einbringen können. Dieser gemeinschaftliche Ansatz hilft bei der Entwicklung von KI-Technologien, die ein breites Spektrum gesellschaftlicher Anforderungen und kultureller Normen widerspiegeln. Er trägt dazu bei, die Machtkonzentration in den Händen einiger weniger zu verringern, und hilft mit, bahnbrechende Fortschritte für die Allgemeinheit zugänglicher zu machen. 

Mehr Modelle, weniger Verzerrung

Eine Modellverzerrung entsteht in der Regel durch die Daten, die zum Trainieren eines Modells verwendet werden. Wird ein Modell auf einem Datensatz trainiert, der nicht vielfältig oder nicht repräsentativ für die reale Welt ist, spiegelt es unweigerlich die inhärenten Verzerrungen wider. Red Hat OpenShift AI kann dazu beitragen, Verzerrungen entgegenzuwirken, indem es Entwicklungsteams die Wahl aus einer Vielzahl von KI-Modellen bietet. Diese Flexibilität bedeutet, dass kein einzelnes, potenziell verzerrtes Modell aufgezwungen wird und Nutzende die Modelle auswählen können, die für ihren spezifischen Kontext am besten geeignet sind, sowie Modelle, die auf vielfältigen Datensätzen trainiert wurden. Der Open Source-Charakter von OpenShift AI fördert außerdem die Transparenz und ermöglicht die Bildung einer Community aus vielfältigen Mitwirkenden, was dazu beiträgt, diese inhärenten Vorurteile weiter zu reduzieren. 

Ein gemeinschaftsorientierter Ansatz trägt nicht nur zu einem beschleunigten technologischen Fortschritt bei, sondern demokratisiert auch die KI-Entwicklung, sodass eine größere Anzahl von Einzelpersonen und Organisationen zu diesen transformativen Technologien beitragen und von ihnen profitieren kann. Die Zukunft der KI muss keine unreife Monokultur sein. Dank engagierter Open Source Communities weltweit können wir zusammen ein dynamisches IT-Ökosystem aufbauen.


Sind Sie bereit für ein gerechteres und vielfältigeres KI-Ökosystem? Nehmen Sie am World Summit AI 2025 teil und erfahren Sie, wie Open Source die Zukunft der KI-Souveränität gestaltet. Erfahren Sie mehr über das Engagement von Red Hat für KI mit Open Source, das auch Projekte wie InstructLab und Red Hat AI Inference Server umfasst, und finden Sie heraus, wie Sie zur Demokratisierung der KI-Entwicklung beitragen können. Hier können Sie mehr über das Event erfahren!

Ressource

Erste Schritte mit KI für Unternehmen: Ein Guide für den Einsatz

In diesem Guide für den Einstieg erfahren Sie, wie Red Hat OpenShift AI und Red Hat Enterprise Linux AI die KI-Einführung beschleunigen können.

Über den Autor

Adam Wealand's experience includes marketing, social psychology, artificial intelligence, data visualization, and infusing the voice of the customer into products. Wealand joined Red Hat in July 2021 and previously worked at organizations ranging from small startups to large enterprises. He holds an MBA from Duke's Fuqua School of Business and enjoys mountain biking all around Northern California.

UI_Icon-Red_Hat-Close-A-Black-RGB

Nach Thema durchsuchen

automation icon

Automatisierung

Das Neueste zum Thema IT-Automatisierung für Technologien, Teams und Umgebungen

AI icon

Künstliche Intelligenz

Erfahren Sie das Neueste von den Plattformen, die es Kunden ermöglichen, KI-Workloads beliebig auszuführen

open hybrid cloud icon

Open Hybrid Cloud

Erfahren Sie, wie wir eine flexiblere Zukunft mit Hybrid Clouds schaffen.

security icon

Sicherheit

Erfahren Sie, wie wir Risiken in verschiedenen Umgebungen und Technologien reduzieren

edge icon

Edge Computing

Erfahren Sie das Neueste von den Plattformen, die die Operations am Edge vereinfachen

Infrastructure icon

Infrastruktur

Erfahren Sie das Neueste von der weltweit führenden Linux-Plattform für Unternehmen

application development icon

Anwendungen

Entdecken Sie unsere Lösungen für komplexe Herausforderungen bei Anwendungen

Virtualization icon

Virtualisierung

Erfahren Sie das Neueste über die Virtualisierung von Workloads in Cloud- oder On-Premise-Umgebungen