Was ist Mixture of Experts (MoE)?

Veröffentlicht 12. Mai 2026•10 Minuten (Lesedauer)

„Mixture of Experts“ (MoE) ist eine Modellarchitekturtechnik, mit der sich die KI-Inferenz beschleunigen lässt. Dabei werden Aufgaben an den leistungsfähigsten Teil des Modells weitergeleitet.

MoE-Modelle werden speziell darauf trainiert, bestimmte Unterkategorien schnell und präzise zu beantworten.

Warum Sie sich mit KI-Inferenz befassen sollten

Sie können sich das so vorstellen: Wenn Sie als Studentin oder Student eine Frage zur menschlichen Anatomie hätten, würden Sie an die Türen der einzelnen Lehrkräfte klopfen, bis Sie eine Antwort erhalten? Oder würden Sie direkt die Lehrkraft für Biologie ansprechen? Vermutlich würden Sie sich direkt an Ihre Lehrkraft für Biologie wenden, also an die Person aus Ihrer „Expertenmischung“, die am besten passt.

Warum? Weil Sie so schnell wie möglich die richtige Antwort erhalten möchten.

Auch wenn Ihre Lehrkräfte in ihren jeweiligen Fächern kompetent sind, wussten Sie, dass Ihre Lehrkraft für Biologie die Antwort parat haben würde, wenn es um die menschliche Anatomie geht. Deshalb haben Sie diese Person gefragt, anstatt einen Umweg über den Fachbereich für Anglistik zu machen.

Mixture of Experts folgt derselben Logik.

Blog-Beitrag über die Skalierung von Intelligenz mit MoE lesen

Für erfolgreiche Inferenz müssen KI-Modelle viele Berechnungen in kurzer Zeit durchführen. Mit zunehmender Größe der Modelle steigt auch ihre Komplexität, wodurch sich die Inferenz verlangsamt. Faktoren wie Modellgröße, hohes Nutzervolumen und Latenz können die Performance einschränken.

Um diese Herausforderungen zu bewältigen, erstellt Mixture of Experts ein neuronales Netzwerk, das eine schnellere Inferenz in großem Umfang ermöglicht.

Mehr über Vorteile und Use Cases für schnelle, effiziente Inferenz erfahren

Wie nutzt MoE Deep Learning?

Deep Learning ist eine KI-Technik, anhand derer Computer lernen, Daten zu verarbeiten und durch Beobachtung zu lernen. Diese Technik ahmt sozusagen nach, wie Menschen Wissen erwerben.

Es gibt 2 entscheidende Merkmale, die die Funktionsweise des Modells unterstützen:

Beim Transfer Learning wendet ein Modell Informationen aus einer Situation auf eine andere an und baut dabei auf seinem eigenen Wissen auf. Viele Basismodelle (Foundation Models) verfügen über Hunderte von neuronalen Schichten, die mithilfe von Deep Learning-Techniken vortrainiert wurden. So können Modelle Zusammenhänge und Muster innerhalb eines Datensatzes erkennen.
Skalierung bezieht sich auf Hardware, insbesondere auf GPUs (Graphics Processing Units), die es dem Modell ermöglichen, mehrere Berechnungen gleichzeitig durchzuführen.

MoE kombiniert Deep Learning-Training und Transfer Learning, um Muster und Unterkategorien in Prompts zu identifizieren. MoE-Modelle können dann schnell den besten „Experten“ für die Beantwortung der Eingabe ermitteln. MoE nutzt GPUs, um die Pipeline vom Prompt bis zur Antwort zu skalieren und zu beschleunigen.

Mehr über Basismodelle erfahren

Wie nutzt MoE neuronale Netzwerke?

Neuronale Netzwerke bilden die zugrunde liegende Architektur von Deep Learning. Sie bestehen aus vielen Schichten von Neuronen, die Daten interpretieren.

Traditionell interpretieren die einzelnen Schichten die eingehenden Daten und leiten sie an die nächste Schicht weiter, und so weiter, bis sie ein Neuron erreichen, das den Prompt beantworten kann. Diese typischerweise dicht vernetzten neuronalen Netzwerke werden als FFNs (Feed-Forward Networks) bezeichnet.

FFNs übertragen Daten in eine Richtung durch ihre gesamte Struktur: Eingabeschichten, versteckte Schichten und Ausgabeschichten. Beim Datenfluss von den Eingabeschichten zu den Ausgabeschichten erlernen die versteckten Schichten die Muster und Trends der einzelnen Eingaben, um ein Endergebnis zu liefern.

Im Gegensatz zu FFNs können MoEs mehrere Pfade nutzen, um eine Ausgabe zu liefern. Wenn MoEs „Experten“ identifizieren, verkürzt dies den Pfad zu einem Endergebnis und erweitert die Modellkapazität. Auf diese Weise erhalten Modelle neue Informationen und erkennen Muster, ohne mehr Speicher, Rechenleistung oder Zeit zu benötigen.

MoE führt Sparsity ein, um das Rauschen anderer, gleichzeitig ausgeführter Berechnungen auszublenden.

Wie nutzt MoE Sparsity?

Sparsity ist eine Technik, mit der in neuronalen Netzwerken Speicherplatz gespart werden kann, indem weniger Gewichte verwendet werden.

Gewichte sind Berechnungen, die einem Modell mitteilen, welche Aktion es ausführen soll. Die einzelnen Gewichte werden anhand ihrer Fähigkeit zur Beantwortung des jeweiligen Prompts bewertet. So kann die Eingabe dem richtigen „Experten“ zugeordnet werden. Allerdings werden nicht unbedingt sämtliche Gewichte für sämtliche Prompts benötigt. Sparsity identifiziert die erforderlichen Gewichte und ignoriert diejenigen, die nicht entscheidend sind.

Technisch gesehen bedeutet dies, dass nicht benötigte Gewichte auf 0 gesetzt werden. Wenn das Modell eine 0 erfasst, wird diese Berechnung übersprungen (da das Produkt von 0 und einer beliebigen Zahl 0 ergibt). Das bedeutet, dass sich die „Experten“ ausschließlich auf die Gewichte konzentrieren können, die wirklich wichtig sind.

Wenn nicht benötigte Gewichte ausgeblendet werden, steht dem Modell mehr Speicher zur Verfügung, und es kann schneller arbeiten. Die Schwierigkeit besteht darin, das richtige Gleichgewicht zwischen einer höheren Geschwindigkeit und einer geringeren Genauigkeit oder Performance zu finden.

Weitere Möglichkeiten zur Inferenzoptimierung

Die meisten Basismodelle verwenden eine Art neuronales Netzwerk, das als „Transformer“ bezeichnet wird. Damit können Modelle kontextbezogene Zusammenhänge und Abhängigkeiten in Datensequenzen erfassen. Entwicklungsteams ersetzen dichte Architekturen häufig durch MoEs, um die Effizienz des Modells zu steigern.

MoE besteht aus 2 Hauptkomponenten: Sparse (dünn besetzte) neuronale Netzwerkschichten und ein Gating-Netzwerk.

Sparse MoE-Modelle in einem neuronalen Netzwerk weisen weniger Verbindungen auf als dichte Schichten.
Diese Modelle führen nur die notwendigen Berechnungen durch, anstatt sämtliche Berechnungen durchzuführen, um so für Sparsity zu sorgen. Aufgrund der geringeren Anzahl an Verbindungen benötigt das neuronale Netzwerk weniger Speicherplatz und kann schneller arbeiten.
Eine dichte Schicht funktioniert ähnlich wie ein Webbrowser mit Dutzenden von geöffneten Fenstern. Das Internet reagiert langsamer, weil so viele verschiedene Signale in Tabs verarbeitet werden, die zwar geöffnet, aber nicht genutzt werden. Das beansprucht viel Speicherplatz und führt dazu, dass der eine tatsächlich benötigte Tab nur langsam reagiert.
Dünn besetzte Schichten ignorieren die überflüssigen Verbindungen im neuronalen Netzwerk, damit die benötigten Verbindungen so schnell wie möglich arbeiten können. In unserer Browser-Analogie erkennen dünn besetzte Schichten, welche geöffneten Tabs ignoriert werden können und welcher Tab reibungslos funktionieren muss.
MoE-Gating-Netzwerke oder Router analysieren die einzelnen Prompts und leiten sie an den am besten geeigneten „Experten“ weiter. So können MoEs mehrere Pfade nutzen, um ein bestimmtes Ergebnis zu erreichen.
Mithilfe vortrainierter Parameter bewertet das Gating-Netzwerk die einzelnen „Experten“ und wählt die besten für die jeweilige Anfrage aus. Diese Auswahl sorgt für Sparsity – nur die ausgewählten „Experten“ werden aktiviert, während die übrigen übersprungen werden. So kann das Modell seine Rechenleistung auf das Wesentliche konzentrieren.
Sobald die „Experten“ ihre Bewertungen erhalten haben, verteilt das Gating-Netzwerk die Prompts entsprechend.
Das Gating-Netzwerk erhält beispielsweise die Eingabe, ein originelles Märchen zu verfassen. Der Router identifiziert einen in kreativem Schreiben trainierten „Experten“ anhand seiner hohen Bewertung in diesem Bereich. Andere „Experten“ aus den Bereichen Medizin, Marketing und Engineering erhalten niedrige Bewertungen. Das Gating-Netzwerk wählt den relevantesten „Experten“ aus und aktiviert ihn, während die anderen übersprungen werden. Dank dieses Trainings weiß das Gating-Netzwerk, dass es den Prompt an den „Experten“ für kreatives Schreiben weiterleiten muss, um die bestmögliche Ausgabe zu erzielen.

Die MoE-Architektur ermöglicht die Zusammenarbeit mehrerer spezialisierter Modelle. Oftmals findet der Router mehr als einen „Experten“, der den Prompt schnell beantworten kann. Nachdem die „Experten“ ihre Aufgaben erledigt haben, sammelt das Gating-Netzwerk die Ergebnisse und fasst sie zu einer abschließenden, schlüssigen Antwort zusammen.

Mehr über KI-Infrastruktur erfahren

Dank Mixture of Experts lassen sich Modelle mit weniger Ressourcen schneller ausführen, was mehrere Vorteile bietet:

Geschwindigkeit: Wie in dem Beispiel der studierenden Person, die sich viel Zeit und Mühe gespart hat und sich direkt an ihre Lehrkraft für Biologie gewandt hat, spart auch ein MoE-Modell erheblich an Zeit und Ressourcen, indem es unnötige Daten ignoriert und direkt auf den „Experten“ zugreift. Damit erzielen MoE-Modelle bessere Ergebnisse als dichte Modelle, die sämtliche Datensätze für den jeweiligen Prompt verarbeiten.
Spezialisierung: Je mehr Prompts MoEs verarbeiten, desto besser werden sie darin, Muster und Daten in ihren jeweiligen Themenbereichen zu erkennen. Dadurch sind MoE-Modelle genauer als dichte Modelle, die sämtliche Prompts berücksichtigen und versuchen, sämtliche Themen auf einmal zu meistern.
Skalierung: MoEs aktivieren für die einzelnen Aufgaben nur die erforderlichen Gewichte, sodass sie hohe Rechenanforderungen bewältigen können. Im Gegensatz zu dichten Modellen aktivieren MoEs nicht bei jeder Inferenz Millionen von Parametern. So können Sie Ihre Infrastruktur skalieren, ohne große Investitionen in Ressourcen tätigen zu müssen.

Fine Tuning von MoEs

Traditionelles Fine Tuning stellt eine Herausforderung dar, da das Aktualisieren von Milliarden von Parametern zu Überanpassung führen kann – das heißt, wenn ein Modell bestimmte Daten auswendig lernt, anstatt allgemeine Muster zu erkennen. MoEs stehen jedoch vor einer besonderen Herausforderung: der Routing-Instabilität.

MoE-Modelle nutzen ein Gating-Netzwerk, um Informationen an spezialisierte „Experten“ weiterzuleiten. Wenn das Gate jedoch neue Daten an die falschen „Experten“ weiterleitet oder wenn bestimmte „Experten“ überbeansprucht werden, kann es bei dem Modell zu folgenden Problemen kommen:

„Experten“-Kollaps: Wenn das Modell seine fachliche Diversität verliert.
Katastrophales Vergessen: Wenn „Experten“ ihr ursprüngliches Fachwissen verlieren.

Das Erlernen neuer Daten, ohne die bestehende Wissensbasis zu verlieren oder zu beeinträchtigen, kann eine große technische Hürde darstellen.

Load Balancing bei MoEs

In einem MoE-Modell lernen die „Experten“ in erster Linie anhand der Token, die das Gating-Netzwerk sendet. Dadurch entsteht ein Selbstverstärkungseffekt bei der Auswahl der „Experten“ – ein Phänomen, das als „Expertenungleichgewicht“ bezeichnet wird: Wenn das Gate frühzeitig einen erfolgreichen „Experten“ identifiziert, wird dieser etwas „klüger“, was die Wahrscheinlichkeit erhöht, dass es diesen „Experten“ erneut auswählt. Ohne entsprechende Maßnahmen werden einige wenige „Experten“ überlastet, während der Rest unzureichend trainiert oder nicht ausreichend genutzt wird.

Die meisten modernen MoE-Implementierungen umfassen jedoch Load Balancing Losses und Routing-Strategien, um dies zu verhindern.

MoE-Speicheranforderungen

MoE-Modelle sind effizient, benötigen jedoch viel Storage.

MoEs verwenden eine Vielzahl von Parametern, um die einzelnen Modelle zu einem jeweiligen Thema zu trainieren. Obwohl MoE Sparsity nutzt, ist weiterhin Hardware für sämtliche „Experten“ im Netzwerk erforderlich. Diese „Experten“ werden zwar nicht immer genutzt, belegen aber dennoch Speicherplatz.

Hohe Speicheranforderungen führen in der Regel zu einem erhöhten Hardwarebedarf und höheren Kosten.

Das Trainieren von MoEs ist komplexer als das Trainieren eines herkömmlichen dichten Modells. Für den Erfolg ist es entscheidend, dass das Gating-Netzwerk und die „Experten“ lernen, synchron zusammenzuarbeiten. Wenn diese beiden Komponenten nicht lernen, zusammenzuarbeiten, kann die Architektur Aufgaben nicht weiterleiten und Daten nicht effektiv verarbeiten.

Eingabe-Routing und Auswahl von „Experten“

Beim Eingabe-Routing trifft das Gating-Netzwerk in Echtzeit Entscheidungen, um die einzelnen Prompts präzise einem „Experten“ zuzuordnen.

Das Gating-Netzwerk wird darauf trainiert, die am besten geeigneten „Experten“ zu identifizieren, die als „Top-k-Experten“ bezeichnet werden. (Das „k“ ist ein Platzhalter für die Anzahl der „Experten“ mit den höchsten Bewertungen, die zur Beantwortung der einzelnen Prompts herangezogen werden sollen.) Da MoEs Sparsity nutzen, ist diese Zahl niedrig, in der Regel 1 oder 2. Sämtliche anderen „Experten“ werden auf 0 gesetzt und ignoriert.

Training von „Experten“

Um effektiv arbeiten zu können, müssen „Experten“ entsprechend trainiert werden. Der Haken daran ist, dass sie nur aus den Prompts lernen können, die das Gating-Netzwerk sendet.

Da das Netzwerk erkennt, welche „Experten“ in bestimmten Themenbereichen trainiert sind, lernt es, diese Prompts entsprechend weiterzuleiten. Wenn ein „Experten“ wissenschaftliche Fragen konsistent richtig beantwortet, lernt das Gate, ihm mehr Fragen zu Biologie, Chemie und Physik zu senden. Dadurch können diese „Experten“ im Laufe der Zeit fundiertes Fachwissen aufbauen und komplexe Muster erkennen.

Vermeidung eines trägen Gating-Netzwerks

Wenn ein „Experten“ die Beantwortung verschiedener Arten von Prompts wirklich gut beherrscht, kann es sein, dass das Gate ihm eine unverhältnismäßig große Anzahl von Eingaben sendet. Dies führt zu Überanpassung oder ungleichmäßiger Lastverteilung.

Um dies zu verhindern, wenden Entwicklungsteams einen Load Balancing Loss oder eine Auxiliary Penalty (Zusatzstrafe) an. Es handelt sich dabei um eine Machine Learning-Technik, mit der das Gate Regeln in Bezug auf Fairness und Verteilung erlernt. Wenn es dafür bestraft wird, dass es einen bestimmten „Experten“ zu oft auswählt, lernt es, andere „Experten“ auszuprobieren. Das Gating-Netzwerk lernt mit der Zeit, die Workload auszugleichen und die Prompts auf verschiedene „Experten“ zu verteilen.

Dies untermauert die Idee, dass sich „Experten“ auf etwas Bestimmtes spezialisieren und in ihren jeweiligen Fachgebieten kontinuierlich Daten und Muster sammeln.

Mehr über RAG im Vergleich zu Fine Tuning erfahren

Da Modelle und Datensätze zunehmend größer werden, benötigen sie mehr GPUs für Storage. Dank „Experten“-Parallelisierung können MoE-Modelle und -Architekturen hardwareübergreifend skaliert werden, um Ressourcen effizienter zu nutzen.

Zunächst ist es hilfreich, den Begriff der Datenparallelisierung zu verstehen. Bei dieser KI-Skalierungsstrategie wird ein großer Datensatz in Kategorien unterteilt, und die einzelnen Datenelemente werden auf separate Prozessoren oder GPUs verteilt. Die GPUs arbeiten nebenläufig und sorgen für eine konsistente, einheitliche Ausgabe. Anschließend fasst das Gating-Netzwerk die Ausgaben zusammen, um ein Endergebnis zu liefern.

Bei der „Experten“-Parallelisierung werden „Experten“ auf mehrere GPUs verteilt. Wenn eine Anfrage eingeht, leitet das Gate Token an die Geräte weiter, auf denen die relevantesten „Experten“ gehostet werden, selbst wenn sich diese auf verschiedenen Maschinen befinden. Die einzelnen „Experten“ bearbeiten die Prompts gleichzeitig und führen anschließend ihre Ergebnisse zusammen, um eine Antwort zu liefern. Durch die Aufteilung der Inferenzverarbeitung können Modelle Eingaben verarbeiten und die Rechenleistung in großem Umfang effizienter nutzen.

Dieser Ansatz unterscheidet sich von der MoE-Modellarchitektur, da hier „Experten“ hardwareübergreifend in großem Umfang eingesetzt werden. Dabei werden keine Modelleingaben verteilt – vielmehr werden „Experten“ auf viele verschiedene GPUs verteilt.

MoE lässt sich wie ein Gruppenprojekt verstehen. Die Lehrkraft gibt Ihrer Gruppe eine Aufgabe, und Ihr Team verteilt die einzelnen Aufgaben entsprechend den Kompetenzen der einzelnen Teammitglieder. Sobald die einzelnen Personen die ihnen zugewiesenen Aufgaben erledigt haben, können Sie Ihr Projekt als einheitliches Ganzes präsentieren.

„Experten“-Parallelisierung ähnelt einem ganzen Schulbezirk, in dem sämtliche Schulen gemeinsam Spenden sammeln. Die einzelnen Schulen arbeiten zur gleichen Zeit an verschiedenen Orten für denselben Zweck. Wenn mehr als eine Schule an einer Spendenaktion teilnimmt, lässt sich in der Regel in kürzerer Zeit mehr Geld sammeln.

Auch bei der „Experten“-Parallelisierung kann dieselbe Herausforderung auftreten wie bei MoEs: das Load Balancing. Wenn das Gate zu viele Token an „Experten“ auf derselben GPU weiterleitet, kann dies zu einer ungleichmäßigen Auslastung und einem potenziellen Engpass führen. Es ist wichtig, die GPUs zu überwachen, um sicherzustellen, dass eine einzelne nicht stärker belastet wird als die anderen.

Was ist verteilte Inferenz?

AI Engineers, Modellentwicklungsteams und Cloud-Serviceanbieter nutzen MoEs. Sie sind bei Teams aus den Bereichen Machine Learning und Unternehmens-KI sehr beliebt.

MoE kann in folgenden Szenarien hilfreich sein:

Sie möchten die Modellkapazität erhöhen, ohne die Rechenleistung pro Anfrage wesentlich zu erhöhen.
Das Problem lässt sich durch Spezialisierung lösen, bei der verschiedene Teile des Modells unterschiedliche Muster erlernen können.
Ihre umfangreichen Szenarien mit hohem Durchsatz erfordern mehr Rechenleistung oder mehrere Maschinen.
Sie müssen das festgelegte Rechenbudget während des Trainings oder der Inferenz effizient nutzen.

MoE kann in den folgenden Szenarien bei bestimmten Themen hervorragende Leistungen erbringen:

Natural Language Processing (NLP): MoE kann NLP durch Prompts wie das Zusammenfassen langer Dokumente, das Erkennen eines positiven oder negativen Sentiments in Kommentaren und das Generieren von Erkenntnissen für automatisierte virtuelle Assistenten und Chatbots unterstützen.
Ein Chatbot-Assistent kann beispielsweise eine MoE-Architektur nutzen, um Fragen in einer anderen Sprache an einen „Experten“ weiterzuleiten, der auf bestimmte menschliche Sprachen trainiert wurde.
Maschinelles Sehen: MoEs können mithilfe von Deep Learning-Methoden Bilder auf die gleiche Weise erfassen und verstehen, wie Menschen es tun. Dazu gehören beispielsweise Gesichtserkennung und Bildklassifizierung.
So können MoEs beispielsweise bei der KI-gestützten medizinischen Bildgebung dabei helfen, verschiedene Bildkategorien zu identifizieren – wie Röntgenbilder, MRT- und CT-Aufnahmen. Verschiedene „Experten“ können sich auf die Erkennung von Anomalien wie Frakturen oder Tumoren spezialisieren.
Empfehlungssysteme: MoE kann Nutzerpräferenzen vorhersagen, indem es das bisherige Verhalten und den Kontext analysiert.
Beispielsweise analysieren Streaming-Plattformen wie Netflix und Spotify Ihr Verhalten und sagen Ihre Vorlieben voraus. Bei der Anmeldung zeigt der Service sofort die Inhalte an, die Ihnen wahrscheinlich am ehesten gefallen. MoEs zeichnen sich dadurch aus, dass sie diese Trends schneller und genauer erkennen.

Dichte Modelle können übrigens auch sämtliche dieser Use Cases abdecken. Allerdings sind sie möglicherweise nicht so schnell oder in speziellen Themenbereichen nicht so gut trainiert. Der Vorteil von MoEs besteht darin, dass sie schnell und präzise helfen können.

Wie Sie KI im Unternehmen einsetzen können

Mixture of Experts ist eine beliebte Strategie für viele Open Source-Modelle. Mehr als 60 % der im Jahr 2025 veröffentlichten Open Source-KI-Modelle nutzten MoE.¹ Dies zeigt das Interesse der Branche und ihr Bewusstsein für dessen Mehrwert.

Zu den Open Source-MoEs gehören unter anderem:

Mixtral 8x7B
OLMoE
DBRX
OpenMoE

MoE hat gezeigt, dass die Entwicklung größerer Modelle zur Bewältigung höherer Rechenanforderungen nicht immer die beste Strategie ist. Quelloffene MoE-Modelle erreichen schneller ein höheres Intelligenzniveau, da sie in der Lage sind, spezielle Themen schneller zu erlernen als dichte Modelle.

Mehr über Small Language Models erfahren

Red Hat® AI ist mit seinem vLLM-basierten Server für schnelle, flexible und effiziente Inferenz konzipiert. Die Lösung verknüpft die Modelle zuverlässig mit Ihren Daten, um die Anpassung und Entwicklung spezialisierter Agenten auf einer einzelnen Plattform zu vereinheitlichen. Unsere Produkte basieren auf Open Source und bieten Ihnen die vollständige End-to-End-Kontrolle über KI-Workflows in beliebigem Umfang.

Das Portfolio von Red Hat AI umfasst Red Hat AI Inference, einen Inferenz-Stack, der die operative Kontrolle bietet, um beliebige Modelle auf beliebigen Beschleunigern in der Hybrid Cloud auszuführen. Erstellen Sie schnelle, effiziente und kostengünstige Inferenzen in großem Umfang.

Mehr über Red Hat AI erfahren

¹Koparkar, Shruti: „Mixture of Experts Powers the Most Intelligent Frontier AI Models, Runs 10x Faster to Deliver 1/10 the Token Cost on NVIDIA Blackwell NVL72.“ NVIDIA-Blog, 3. Dez. 2025.

Weiterlesen

RAG im Vergleich zu Fine Tuning

Sowohl RAG als auch Fine Tuning dienen der Verbesserung von LLMs, verwenden allerdings unterschiedliche Methoden. RAG verzichtet auf Änderungen am Modell, während Fine Tuning Anpassungen seiner Parameter erfordert.

Definition von AIOps

AIOps (KI für IT-Operationen) steht für einen Ansatz zum Automatisieren von IT-Abläufen durch Machine Learning und andere moderne KI-Techniken.

Was ist generative KI?

Generative KI ist eine Technologie der künstlichen Intelligenz, die sich auf Deep Learning-Modelle (DL) stützt, welche mithilfe großer Datensätze trainiert werden, um neue Inhalte zu erstellen.

Was ist Mixture of Experts (MoE)?

Wie nutzt MoE Deep Learning?

Wie nutzt MoE neuronale Netzwerke?

Wie nutzt MoE Sparsity?

4 wichtige Überlegungen zur Implementierung von KI-Technologie

Fine Tuning von MoEs

Load Balancing bei MoEs

MoE-Speicheranforderungen

Eingabe-Routing und Auswahl von „Experten“

Training von „Experten“

Vermeidung eines trägen Gating-Netzwerks

Artificial Intelligence (AI)

Erste Schritte mit KI für Unternehmen: Ein Guide für den Einsatz

Weiterlesen

RAG im Vergleich zu Fine Tuning

Definition von AIOps

Was ist generative KI?

Ressourcen zu KI/ML

Plattformen

Tools

Testen, kaufen und verkaufen

Kommunizieren

Über Red Hat

Sprache auswählen

Red Hat legal and privacy links

Red Hat legal and privacy links