L'approche MoE, qu'est-ce que c'est ?

Copier l'URL

L'approche MoE (Mixture of Experts) repose sur une architecture de modèle qui permet d'accélérer l'inférence d'IA en adressant les tâches à la partie du modèle la plus adaptée. 

Les modèles MoE sont entraînés de manière à traiter avec précision et rapidité des sous-catégories de tâches spécifiques. 

Comprendre l'importance de l'inférence 

Prenons un exemple concret pour mieux comprendre : un élève a une question concernant l'anatomie humaine. Va-t-il la poser à tous les professeurs jusqu'à obtenir la bonne réponse, ou s'adresser d'abord à son professeur de biologie ? Il ira probablement voir l'expert en la matière, c'est-à-dire le professeur de biologie. 

Pourquoi ? Parce qu'il souhaite obtenir la bonne réponse le plus rapidement possible.

Même si tous les professeurs sont des spécialistes de la matière qu'ils enseignent, l'élève sait que le professeur de biologie est le plus à même de répondre à une question sur l'anatomie. Voilà pourquoi il s'adressera à lui directement. 

L'approche MoE suit la même logique. 

Lire un article de blog sur l'utilisation de l'approche MoE 

L'inférence exige des modèles d'IA qu'ils effectuent une grande quantité de calculs en un court laps de temps. Plus les modèles sont grands, plus ils sont complexes et ralentissent le processus d'inférence. Par conséquent, des facteurs tels que la taille du modèle, le nombre d'utilisateurs et la latence peuvent limiter les performances. 

L'approche MoE permet de surmonter ces difficultés en créant un réseau de neurones qui contribue à accélérer l'inférence à grande échelle. 

 

Utilisation de l'apprentissage profond 

L'apprentissage profond est une technique d'IA qui permet d'enseigner aux machines à traiter des données et à apprendre par l'observation, en imitant l'apprentissage humain.

Le fonctionnement des modèles repose sur deux concepts essentiels : 

  • L'apprentissage par transfert est le procédé par lequel le modèle applique une information tirée d'une situation à une autre et s'appuie sur ses connaissances internes. De nombreux modèles de fondation présentent des centaines de couches de neurones qui sont préentraînés à l'aide de techniques d'apprentissage profond. Ce procédé leur permet d'identifier des relations et des schémas au sein d'ensembles de données.
  • La mise à l'échelle renvoie au matériel, plus précisément aux processeurs graphiques (GPU) qui permettent au modèle de réaliser plusieurs calculs simultanés. 

L'approche MoE utilise l'apprentissage profond et l'apprentissage par transfert pour repérer des schémas et des sous-catégories dans les instructions génératives. Les modèles peuvent ainsi identifier rapidement le meilleur expert pour répondre à une instruction donnée. Cette approche s'appuie sur des GPU pour assurer la mise à l'échelle et réduire le délai de réponse. 

En savoir plus sur les modèles de fondation 

 

Utilisation des réseaux de neurones 

Architecture sous-jacente de l'apprentissage profond, les réseaux de neurones sont composés d'une multitude de couches de neurones qui analysent des données. 

En général, chaque couche analyse les données d'entrée et les transmet à la couche suivante, et ainsi de suite, jusqu'à ce qu'elles parviennent à un neurone capable de répondre à l'instruction générative. Ces réseaux de neurones plutôt denses sont appelés réseaux de neurones à propagation avant. 

Les réseaux à propagation avant transmettent les données dans un seul sens, de la couche d'entrée à la couche de sortie. À mesure que les données circulent entre ces couches, les couches cachées apprennent les schémas et les tendances de chaque entrée afin de fournir un résultat final. 

Contrairement aux réseaux à propagation avant, les modèles MoE peuvent utiliser différents chemins pour atteindre la sortie. L'identification d'un expert raccourcit le chemin vers le résultat final et augmente la capacité du modèle. De cette manière, le modèle peut apprendre de nouvelles informations et identifier des schémas sans utiliser plus de mémoire, de ressources de calcul ou de temps. 

Pour bloquer le bruit généré par les autres calculs effectués simultanément, l'approche MoE utilise le principe de parcimonie.

 

Utilisation du principe de parcimonie

La parcimonie est une technique qui permet aux réseaux de neurones d'économiser la mémoire en utilisant moins de pondérations. 

Les pondérations sont des calculs qui indiquent au modèle l'action à effectuer. Chaque pondération est notée en fonction de sa capacité à répondre à l'instruction générative, ce qui permet de transmettre les données d'entrée au meilleur expert. Toutes les instructions ne nécessitent cependant pas toutes les pondérations. La technique de parcimonie permet d'ignorer celles qui ne sont pas essentielles. 

En termes techniques, cela signifie que les pondérations inutiles reçoivent un score nul. Lorsque le modèle voit ce score égal à 0, il ignore le calcul, car tout nombre multiplié par 0 donne 0. De cette manière, les experts peuvent se concentrer sur les pondérations vraiment importantes.

Lorsque des pondérations inutiles sont cachées, le modèle dispose de plus de mémoire et peut faire ses calculs plus rapidement. Il faut toutefois trouver le moyen d'augmenter la vitesse de traitement sans réduire la précision ou les performances, ce qui n'est pas toujours facile.

Découvrir des techniques d'optimisation de l'inférence 

4 principes clés à prendre en compte pour mettre en œuvre des technologies d'IA

La majorité des modèles de fondation utilisent un réseau de neurones appelé transformeur, qui les aide à repérer des relations contextuelles et des dépendances au sein de séquences de données. Souvent, les équipes de développement remplacent leurs architectures denses par des architectures MoE pour renforcer l'efficacité des modèles.

Une architecture MoE repose sur deux éléments clés : des couches de réseaux de neurones parcimonieux et un réseau de contrôle. 

  • Dans les réseaux de neurones reposant sur une architecture MoE, les modèles parcimonieux comportent moins de connexions actives que les couches denses. 

    Pour appliquer le principe de parcimonie, ces modèles effectuent uniquement les calculs nécessaires. Parce qu'il active moins de connexions, le réseau de neurones économise de la mémoire et peut effectuer ses calculs plus rapidement. 

    Une couche dense est comparable à un navigateur web dans lequel des dizaines de fenêtres seraient ouvertes. Dans ce cas, le navigateur ralentit, car il traite une multitude de signaux provenant d'onglets ouverts mais inactifs. Il sollicite alors beaucoup de mémoire, ce qui ralentit le chargement de la page affichée. 

    Les couches parcimonieuses ignorent les connexions inutiles du réseau de neurones afin d'accélérer au maximum celles qui servent vraiment. Dans la comparaison avec le navigateur, ces couches parcimonieuses peuvent distinguer les onglets ouverts qui ne servent à rien de celui qui doit s'afficher de manière fluide.

     

  • Les réseaux de contrôle MoE, ou routeurs, analysent chaque instruction et la transmettent à l'expert le plus pertinent. C'est ce qui permet aux modèles MoE d'emprunter différents chemins pour produire un résultat.

    Sur la base de paramètres préentraînés, le réseau de contrôle attribue un score à chaque expert et sélectionne le meilleur pour chaque requête. C'est cette sélection qui rend possible la parcimonie : seuls les experts sélectionnés sont activés, tandis que les autres sont ignorés. Le modèle peut ainsi se concentrer sur les calculs pertinents. 

    Une fois que les experts ont reçu un score, le réseau de contrôle attribue l'instruction en conséquence.

    Prenons un exemple : le réseau de contrôle reçoit une instruction demandant de rédiger un conte de fées original. Il identifie un expert entraîné à l'écriture créative en se basant sur son score élevé dans ce domaine. Les autres experts, spécialisés dans la médecine, le marketing et l'ingénierie, reçoivent un score faible. Le réseau de contrôle sélectionne et active l'expert le plus pertinent et ignore les autres. Grâce à cet entraînement, le routeur a appris qu'il devait adresser l'instruction à l'expert en écriture créative pour produire le meilleur résultat possible. 

Dans une architecture MoE, plusieurs modèles spécialisés peuvent collaborer. Souvent, le routeur va identifier plusieurs experts capables de répondre rapidement à l'instruction. Dans ce cas, une fois que les experts ont effectué la tâche qui leur est demandée, le réseau de contrôle rassemble les résultats et les combine pour produire une réponse finale cohérente.

En savoir plus sur les infrastructures d'IA

L'approche MoE permet d'accélérer les modèles avec moins de ressources et offre des avantages à plusieurs niveaux.

  • Vitesse : à l'instar de l'élève qui a posé sa question directement au bon professeur, un modèle MoE permet de gagner beaucoup de temps et d'économiser des ressources en sélectionnant directement l'expert pertinent et en ignorant les données inutiles. Les modèles MoE offrent de meilleures performances que les modèles denses, qui traitent chaque ensemble de données pour chaque instruction générative.
  • Spécialisation : plus les modèles MoE traitent d'instructions, plus ils s'améliorent dans l'identification de schémas et de données dans leur domaine d'expertise. Ils gagnent ainsi en précision, contrairement aux modèles denses qui traitent chaque instruction et tentent de maîtriser tous les domaines en même temps.
  • Mise à l'échelle : les modèles MoE activent uniquement les pondérations nécessaires à chaque tâche, ce qui leur permet de prendre en charge les exigences élevées en calcul. Contrairement aux modèles denses, les modèles MoE n'activent pas plusieurs millions de paramètres à chaque opération d'inférence. L'infrastructure peut ainsi être mise à l'échelle sans investissement massif dans des ressources informatiques. 

Réglage fin des modèles MoE

Le réglage fin traditionnel peut s'avérer compliqué, car la mise à jour de milliards de paramètres peut entraîner un surajustement, qui se produit lorsque le modèle mémorise des données spécifiques plutôt que des schémas généraux. L'architecture MoE pose toutefois un défi particulier : l'instabilité lors du routage.

Les modèles MoE reposent sur un réseau de contrôle pour transmettre des données à des experts spécialisés. Or, si le réseau de contrôle envoie de nouvelles données aux mauvais experts, ou si certains experts sont trop sollicités, le modèle peut rencontrer les problèmes suivants : 

  • Effondrement, lorsque les experts perdent leur spécialisation
  • Oubli catastrophique, lorsque les experts oublient leurs connaissances spécialisées d'origine 

L'ingestion de nouvelles données sans perte ni perturbation des connaissances existantes peut représenter un obstacle technique majeur.

Équilibrage de charge des modèles MoE 

Dans un modèle MoE, les experts apprennent principalement à partir de jetons textuels envoyés par le réseau de contrôle. Cette méthode crée cependant un problème d'inégalité, ou déséquilibre des experts. Ce phénomène se produit lorsque le réseau de contrôle identifie dès le début un expert performant, qui devient alors plus intelligent, ce qui augmente la probabilité qu'il soit sélectionné par la suite. Sans intervention, certains experts finissent par être trop sollicités tandis que les autres sont sous-utilisés ou sous-entraînés.

Pour remédier à ce problème, la plupart des mises en œuvre actuelles des modèles MoE incluent des techniques de perte d'équilibrage de charge ainsi que de routage.

Besoins en mémoire des modèles MoE

Si les modèles MoE sont efficaces, ils nécessitent toutefois un grand volume de stockage. 

Les architectures MoE utilisent de nombreux paramètres pour entraîner chaque modèle dans son domaine spécifique. Bien qu'elles favorisent la parcimonie, ces architectures ont besoin de suffisamment de matériel pour prendre en charge tous les experts du réseau. Car même s'ils ne sont pas toujours sollicités, ces experts occupent de l'espace. 

D'importants besoins en mémoire entraînent généralement une augmentation des exigences matérielles et des coûts. 

L'entraînement des modèles MoE est plus complexe que celui des modèles denses standards. Sa réussite dépend de la capacité de collaboration du réseau de contrôle et des experts. S'ils ne se coordonnent pas, l'architecture ne peut pas transmettre les tâches ni traiter efficacement les données. 

Routage des données d'entrée et sélection des experts

Le routage des données d'entrée correspond à la méthode de prise de décision en temps réel utilisée par le réseau de contrôle pour identifier précisément l'expert le plus adapté à une requête. 

Ce réseau est entraîné de façon à trouver les meilleurs experts, appelés « top-k ». Le « k » correspond au nombre d'experts les mieux notés qui doivent être activés pour répondre à une instruction donnée. Étant donné que les modèles MoE reposent sur la parcimonie, ce nombre est peu élevé, en général 1 ou 2. Les autres experts reçoivent un score nul et sont donc ignorés. 

Entraînement des experts

Pour offrir de bonnes performances, tous les experts doivent être entraînés de façon équitable. Le problème est qu'ils peuvent uniquement apprendre à partir des instructions qu'ils reçoivent du réseau de contrôle. 

À mesure que le réseau identifie les experts spécialisés dans un certain domaine, il apprend à transmettre ces instructions en conséquence. Lorsqu'un expert répond systématiquement bien aux questions scientifiques, le réseau de contrôle apprend à lui envoyer davantage de questions sur la biologie, la physique et la chimie. Les experts peuvent ainsi acquérir des connaissances approfondies et spécialisées, et identifier des schémas complexes au fil du temps.

Efficacité du réseau de contrôle 

Si un expert parvient à répondre efficacement à différents types d'instructions, le réseau de contrôle risque de lui envoyer trop de requêtes, conduisant à un surajustement ou à un déséquilibre des charges. 

Pour éviter ce phénomène, les équipes de développement utilisent la perte d'équilibrage de charge, ou pénalité auxiliaire. Il s'agit d'une technique d'apprentissage automatique appliquée aux réseaux de contrôle, qui intègre des règles d'équité et de distribution. En pratique, lorsqu'un routeur sélectionne trop souvent le même expert, il est pénalisé et apprend à en tester d'autres. Au fil du temps, le réseau de contrôle apprend à équilibrer la charge et à répartir les instructions entre les experts. 

Chaque expert peut ainsi se spécialiser tout en continuant à recevoir des données et à identifier des schémas dans son domaine de spécialité. 

Découvrir la RAG et le réglage fin 

Plus les modèles et les ensembles de données sont grands, plus ils ont besoin de GPU pour le stockage. Le parallélisme des experts permet de mettre à l'échelle les modèles et architectures MoE sur l'ensemble de l'infrastructure matérielle afin d'optimiser l'utilisation des ressources. 

Définissons d'abord le parallélisme des données. Cette stratégie de mise à l'échelle de l'IA permet de diviser de grands ensembles de données en catégories, et d'attribuer chaque donnée à un processeur ou GPU distinct. Les GPU peuvent ainsi fonctionner en parallèle et simultanément, et produire des réponses cohérentes que le réseau de contrôle combine ensuite pour fournir le résultat final. 

La technique du parallélisme des experts applique cette stratégie en répartissant les experts entre plusieurs GPU. À la réception d'une instruction, le routeur transmet les jetons textuels aux appareils qui hébergent les experts pertinents, même s'ils se trouvent sur des machines différentes. Les experts traitent alors leurs instructions simultanément, et leurs résultats sont combinés pour fournir la réponse finale. En divisant les opérations d'inférence, les modèles peuvent traiter des entrées et exploiter les ressources de calcul plus efficacement à grande échelle. 

À la différence de l'architecture MoE, cette technique sollicite des experts dans l'ensemble du matériel. Au lieu de répartir les entrées d'un modèle, elle distribue les experts sur plusieurs GPU. 

On pourrait comparer l'approche MoE à un projet en groupe. Le professeur donne un sujet à un groupe, et chaque membre se voit confier une tâche en fonction de ses compétences. Une fois que chacun a terminé sa tâche, le groupe est prêt à présenter le projet finalisé.

Le parallélisme des experts s'apparenterait plutôt à un rassemblement d'écoles d'un même secteur qui se mobilisent pour lever des fonds. Tous les établissements mènent simultanément des actions à différents endroits, pour la même cause. À plusieurs, ces écoles collecteront plus d'argent en moins de temps. 

À l'instar de l'approche MoE, le parallélisme des experts peut poser des problèmes d'équilibrage de charge. Lorsque le réseau de contrôle transmet une trop grande quantité de jetons textuels à un seul GPU, l'utilisation des ressources devient inégale et peut même conduire à des goulets d'étranglement. Il faut donc surveiller les GPU pour s'assurer qu'un processeur n'est pas plus sollicité que les autres. 

Découvrir l'inférence distribuée 

Les équipes d'ingénierie, de développement de modèles d'IA, ainsi que les fournisseurs de services cloud ont recours à l'approche MoE. Elle est aussi couramment utilisée par les équipes spécialisées dans l'apprentissage automatique et l'IA pour les entreprises. 

Les modèles MoE sont particulièrement utiles dans les cas suivants :

  • L'entreprise souhaite améliorer les performances des modèles sans augmenter considérablement la charge de calcul par requête.
  • L'entreprise a besoin d'une spécialisation, permettant à différentes parties du modèle d'apprendre des schémas distincts.
  • L'entreprise doit gérer des scénarios à grande échelle et à haut débit qui nécessitent davantage de puissance de calcul ou plusieurs machines.
  • L'entreprise cherche à optimiser l'utilisation de ses ressources de calcul fixes pendant l'entraînement ou l'inférence.

L'approche MoE offre de très bonnes performances dans les domaines suivants : 

  • Traitement du langage naturel (TLN) : l'approche MoE facilite le TLN, notamment pour résumer de longs documents, indiquer un sentiment positif ou négatif dans des commentaires et générer des informations pour les assistants virtuels automatisés et les chatbots. 

    Par exemple, un chatbot peut utiliser une architecture MoE pour transmettre des questions posées dans une langue étrangère à un expert entraîné dans cette langue spécifique. 

  • Vision par ordinateur : l'approche MoE peut utiliser des techniques d'apprentissage profond pour comprendre les images de la même manière que les humains, notamment pour la reconnaissance faciale et la classification d'images. 

    Par exemple, les modèles MoE peuvent servir dans l'imagerie médicale assistée par l'IA pour identifier différentes catégories d'images issues de radiographies, d'IRM et de scanners. Les experts peuvent se spécialiser dans la détection d'anomalies telles que des fractures ou des tumeurs. 

  • Systèmes de recommandation : les modèles MoE peuvent faire des prédictions concernant les préférences des utilisateurs en analysant leur comportement passé et le contexte. 

    Par exemple, les plateformes de streaming comme Netflix ou Spotify étudient les comportements des utilisateurs pour prédire leurs préférences. Ainsi, elles peuvent mettre en avant sur le compte de leurs clients des contenus susceptibles de les intéresser. Les modèles MoE identifient ce type de tendance très rapidement et précisément.

Les modèles denses sont également capables de gérer ces cas d'utilisation. Ils peuvent toutefois être plus lents et moins spécialisés que les modèles MoE qui se distinguent par leur rapidité et leur précision. 

Apprendre à déployer l'IA à l'échelle de l'entreprise

L'approche MoE est employée pour la plupart des modèles Open Source. Plus de 60 % des modèles d'IA Open Source lancés en 2025 reposent sur cette approche1, ce qui prouve que les entreprises s'y intéressent et ont compris ses avantages.

Voici quelques exemples de projets MoE Open Source : 

  • Mixtral 8x7B
  • OLMoE
  • DBRX
  • OpenMoE 

L'approche MoE a montré que l'augmentation systématique de la taille des modèles pour accroître les capacités de calcul n'était pas toujours la meilleure stratégie. Si les modèles MoE Open Source deviennent plus intelligents plus rapidement, c'est parce qu'ils sont capables d'assimiler des données spécialisées plus vite que les modèles denses. 

En savoir plus sur les petits modèles de langage 

La gamme Red Hat® AI offre des fonctionnalités d'inférence rapides, flexibles et efficaces au moyen d'un serveur basé sur vLLM. Elle relie de manière fiable les modèles aux données pour unifier la personnalisation et le développement d'agents spécialisés sur une seule et même plateforme. Conçus sur une base Open Source, nos produits donnent un contrôle total sur les workflows d'IA, de bout en bout et à toutes les échelles. 

La gamme Red Hat AI comprend Red Hat AI Inference Server, une pile d'inférence qui offre le niveau de maîtrise de l'exploitation nécessaire pour exécuter tous les modèles sur tous les accélérateurs, dans l'ensemble du cloud hybride. Avec Red Hat AI, les entreprises peuvent réaliser des opérations d'inférence rapides, efficaces et économiques à grande échelle. 

En savoir plus sur Red Hat AI Inference Server

 

1Koparkar, Shruti, « Mixture of Experts Powers the Most Intelligent Frontier AI Models, Runs 10x Faster to Deliver 1/10 the Token Cost on NVIDIA Blackwell NVL72 », article du blog NVIDIA, 3 décembre 2025

Blog

Artificial Intelligence (AI)

See how our platforms free customers to run AI workloads and models anywhere

Se lancer avec l'IA en entreprise : guide pour les débutants

Consultez ce guide pour les débutants afin de savoir comment les solutions Red Hat OpenShift AI et Red Hat Enterprise Linux AI peuvent accélérer votre parcours d'adoption de l'IA.

En savoir plus

What is AgentOps?

L'AgentOps (Agent Operations, ou exploitation des agents) fait référence à un ensemble d'outils qui permettent de surveiller le raisonnement des systèmes d'IA en temps réel, pendant la prise de décision.

What is sovereign AI?

L'IA souveraine est un concept qui repose sur la possession des technologies d'IA, la conservation des données au niveau local et l'adéquation des systèmes avec les valeurs uniques de l'entreprise et les exigences réglementaires.

What is deep learning?

L'apprentissage profond est une technique d'intelligence artificielle (IA) qui apprend aux ordinateurs à traiter des données en utilisant un algorithme qui s'inspire du cerveau humain.

IA/ML : ressources recommandées