Cos'è la Mixture of Experts (MoE)?

Copia URL

La Mixture of Experts (MoE) è una tecnica di architettura dei modelli che accelera l'inferenza IA instradando le attività alla parte più adatta del modello. 

I modelli MoE sono addestrati appositamente per rispondere in modo rapido e preciso a determinate sottocategorie di domande. 

I vantaggi dell'inferenza 

Un’analogia può esemplificare: se fossi uno studente con una domanda sull'anatomia umana, busseresti alla porta di ogni insegnante fin quando non ottieni una risposta, o chiederesti direttamente al tuo insegnante di biologia? Probabilmente sceglieresti la seconda opzione, ovvero il più preparato tra gli esperti a tua disposizione. 

Perché? Perché cerchi la risposta corretta nel minor tempo possibile.

Anche se ogni tuo insegnante è competente nella propria materia, se si tratta di anatomia umana sai che quello di biologia avrà la risposta corretta. Ecco perché ti rivolgi a lui, senza passare per il dipartimento di Lettere. 

La MoE adotta la stessa logica. 

Leggi l'articolo del blog sulla scalabilità dell'intelligenza con MoE

Affinché l'inferenza funzioni con efficacia, i modelli di IA devono eseguire molti calcoli in un breve periodo di tempo. Parallelamente alla crescita dei modelli, incrementa anche la loro complessità e l'inferenza rallenta. Fattori come le dimensioni del modello, il volume elevato degli utenti e la latenza possono limitare le prestazioni. 

La MoE crea una rete neurale che supporta un'inferenza più veloce e su larga scala, prettamente per superare questi ostacoli. 

 

In che modo la MoE sfrutta il deep learning? 

Imitando il modo in cui gli esseri umani acquisiscono le conoscenze, il deep learning è una tecnica di IA che insegna ai computer a elaborare i dati e ad apprendere osservando.

Il funzionamento dei modelli si basa su due caratteristiche fondamentali: 

  • La capacità di trasferire informazioni, ovvero l'abilità di un modello di applicare le conoscenze di una situazione a un'altra, e di creare una sorta di conoscenza interna. Molti modelli fondativi hanno centinaia di livelli neurali preaddestrati con tecniche di deep learning. È la modalità che consente ai modelli di riconoscere relazioni e schemi in un dataset.
  • La scalabilità invece si riferisce ai componenti hardware, nella fattispecie le unità di elaborazione grafica (GPU), che consentono al modello di eseguire più operazioni allo stesso tempo. 

La MoE integra l'addestramento tramite deep learning con la capacità di trasferire informazioni al fine di identificare gli schemi e le sottocategorie nei prompt. Il risultato è la rapida individuazione dell’esperto più capace a rispondere a uno specifico input. La MoE utilizza le GPU per ampliare le capacità e velocizzare il flusso di risposta ai prompt. 

Scopri di più sui modelli fondativi

 

In che modo la MoE sfrutta le reti neurali? 

Le reti neurali costituiscono l'architettura alla base del deep learning, e sono composte da numerosi livelli di neuroni che interpretano i dati. 

Nelle architetture tradizionali, ogni livello interpreta i dati in ingresso e li invia al livello successivo, fino a quando non viene raggiunto il neurone in grado di rispondere al prompt. Queste reti neurali ad alta densità sono denominate reti Feed-Forward (FFN). 

I dati inviati dalle reti FFN procedono in una sola direzione, attraversando ogni loro componente: livelli di input, livelli nascosti e livelli di output. Man mano che i dati attraversano i livelli di input e quelli di output, i livelli nascosti apprendono gli schemi e i trend di ciascun input, fino a produrre il risultato finale. 

A differenza delle FFN, la MoE può percorrere più strade per produrre un output. Identificando gli esperti, la MoE abbrevia il percorso verso il risultato finale e amplia la capacità del modello. Ciò permette ai modelli di apprendere nuove informazioni e identificare gli schemi senza richiedere più memoria, capacità di calcolo o tempo. 

Per isolare il processo in corso dalle elaborazioni che avvengono simultaneamente, la MoE introduce la sparsità.

 

In che modo la MoE sfrutta la sparsità?

La sparsità è una tecnica che aiuta le reti neurali a risparmiare memoria, riducendo il numero di pesi utilizzati, 

ovvero il numero di calcoli che indicano a un modello le azioni da intraprendere. Ogni peso è valutato in base alla capacità di rispondere a un determinato prompt e ciò consente di associare l'input all'esperto più adatto. Non tutti i pesi sono tuttavia necessari per ogni prompt. La sparsità identifica i pesi necessari e ignora quelli che non servono. 

Dal punto di vista tecnico, ciò significa che i pesi non necessari sono impostati su 0. Quando il modello incontra uno 0, sa che può ignorare quel calcolo, perché qualsiasi numero moltiplicato per 0 equivale a 0. Gli esperti possono perciò concentrarsi solo sui pesi rilevanti.

Nascondendo i pesi non necessari, il modello ha più memoria e lavora più velocemente. La difficoltà sta nel trovare l'equilibrio tra la maggiore velocità e la possibile diminuzione dell'accuratezza o delle prestazioni.

Scopri altri modi per ottimizzare l'inferenza

4 elementi chiave da considerare per l'implementazione dell'IA

La maggior parte dei modelli fondativi utilizza un tipo di rete neurale nota come rete transformer, che aiuta i modelli ad acquisire le relazioni di contesto e le dipendenze come sequenze di dati. Per rendere più efficiente il modello, spesso gli sviluppatori sostituiscono le architetture ad alta densità con l’architettura MoE.

Una architettura MoE è composta da due componenti principali: i livelli di rete neurale sparsi e una rete di gating. 

  • In una rete neurale, i modelli MoE sparsi hanno meno connessioni rispetto ai modelli densi. 

    Per applicare la sparsità, questi modelli non eseguono tutti i calcoli ma solo quelli necessari. Con meno connessioni, la rete neurale risparmia più memoria e lavora più velocemente. 

    Un livello denso funziona in modo simile a un browser con decine di finestre aperte: la connessione a Internet rallenta perché il sistema elabora i segnali delle schede aperte ma non utilizzate, impiegando così molta memoria e rallentando l'esecuzione dell'unica scheda effettivamente necessaria. 

    I livelli sparsi ignorano le connessioni superflue della rete neurale e permettono a quelle necessarie di operare nel modo più veloce possibile. Riprendendo l'analogia del browser, i livelli sparsi capiscono quali schede aperte possono essere ignorate e quali devono funzionare velocemente.

     

  • I router, o reti di gating dell'architettura MoE, analizzano ogni prompt e lo instradano verso l'esperto più adatto, consentendo alla MoE di utilizzare percorsi diversi per raggiungere il risultato.

    Avvalendosi di parametri già addestrati, la rete di gating valuta ogni esperto e seleziona il più adatto a ogni richiesta. Questa selezione genera sparsità perché vengono attivati solo gli esperti scelti, ignorando il resto e permettendo al modello di concentrare la potenza di calcolo laddove è più necessaria. 

    Una volta valutati gli esperti, la rete di gating distribuisce i prompt di conseguenza.

    Ad esempio, la rete di gating riceve l'input di scrivere una favola originale. In base ai punteggi degli esperti in questa materia, il router identifica un esperto addestrato in scrittura creativa, evitando gli esperti addestrati in medicina, marketing e ingegneria che hanno punteggi più bassi. La rete di gating seleziona e attiva gli esperti più pertinenti e ignora gli altri. Grazie all'addestramento, la rete di gating instrada il prompt verso l'esperto in scrittura creativa che garantisce il miglior output possibile. 

Poiché l'architettura MoE consente il funzionamento simultaneo di più modelli specializzati, a volte il router identifica più di un esperto in grado di rispondere velocemente al prompt. Quando gli esperti hanno completato l'attività, la rete di gating acquisisce i risultati e li unisce in una risposta finale completa.

Scopri di più sull'infrastruttura IA

Aiutando i modelli a ottenere più efficienza con meno risorse, la MoE offre svariati vantaggi:

  • Velocità. Proprio come lo studente che ha risparmiato tempo e impegno chiedendo direttamente all'insegnante di biologia, un modello MoE consente di risparmiare tempo e risorse ignorando i dati superflui e rivolgendosi direttamente all'esperto. A livello di prestazioni, i modelli MoE superano quelli densi, che elaborano ogni dataset di ogni prompt.
  • Specializzazione. Man mano che elaborano più prompt, i modelli MoE diventano più efficienti nel riconoscere schemi e dati di specifici argomenti. Risultano pertanto più accurati rispetto ai modelli densi, che ricevono ogni prompt e tentano di conoscere in maniera approfondita ogni argomento contemporaneamente.
  • Scalabilità. Attivando solo i pesi necessari per ogni processo, i modelli MoE sono in grado di gestire richieste di calcolo elevate. A differenza dei modelli densi, i modelli MoE non attivano milioni di parametri per ogni inferenza, permettendo di ampliare l'infrastruttura senza consistenti investimenti in risorse. 

Fine tuning dei modelli MoE

Il fine tuning tradizionale è complesso perché l'aggiornamento di miliardi di parametri può causare l'overfitting, ovvero un modello che memorizza dati specifici invece di apprendere schemi generali. A questo, si aggiunge una problematica specifica dei modelli MoE: l'instabilità del routing.

I modelli MoE utilizzano una rete di gating per inviare le informazioni agli esperti specializzati. Se, tuttavia, la rete invia i nuovi dati agli esperti sbagliati o se alcuni esperti sono sovraccarichi, il modello può incorrere in: 

  • Collasso degli esperti: il modello perde la diversità di specializzazione.
  • Oblio catastrofico: gli esperti perdono le conoscenze specializzate originali. 

Apprendere nuovi dati senza perdere o alterare la base di conoscenze attuale può rappresentare un ostacolo tecnico importante.

Bilanciamento del carico dei modelli MoE 

In un modello MoE, gli esperti apprendono principalmente dai token inviati dalla rete di gating. Si genera così un ciclo di "arricchimento del ricco", noto come squilibrio degli esperti: se la rete di gating identifica precocemente un esperto valido, questo diventa un po' più competente, aumentando la probabilità che venga scelto di nuovo. Se non si interviene, alcuni esperti vengono sovraccaricati, mentre gli altri rimangono poco addestrati o sottoutilizzati.

Per evitare questo problema, la maggior parte delle implementazioni MoE moderne prevede meccanismi di bilanciamento del carico e strategie di routing.

Requisiti di memoria per la MoE

I modelli MoE sono efficienti, ma richiedono grandi capacità di storage, 

poiché utilizzano un elevato numero di parametri per addestrare ogni modello sul proprio argomento specifico. Nonostante utilizzi la sparsità, la MoE necessita comunque di hardware per tutti gli esperti della rete, che occupano spazio anche se non sono sempre attivi. 

Gli elevati requisiti di memoria comportano in genere una maggiore necessità di hardware e costi più elevati. 

L'addestramento dei modelli MoE è più complesso rispetto a quello dei modelli densi standard, e la sua riuscita dipende dalla capacità della rete di gating e degli esperti di imparare a coordinarsi in maniera sincronica. Se questi due componenti non imparano a funzionare in sinergia, l'architettura non è in grado di instradare le attività né di elaborare i dati in modo efficace. 

Instradamento dell'input e selezione degli esperti

Per abbinare con precisione ogni prompt all'esperto più adatto, la rete di gating prende decisioni in tempo reale, un processo chiamato instradamento dell'input. 

La rete di gating è addestrata per identificare i migliori esperti qualificati, denominati "top-k experts", in cui "k" è un segnaposto che indica il numero di esperti con il punteggio più alto da attivare per rispondere a ciascun prompt. Poiché la MoE utilizza la sparsità, questo numero è basso, in genere 1 o 2. Tutti gli altri esperti sono impostati su 0 e vengono ignorati. 

Addestramento degli esperti

Affinché funzionino correttamente, gli esperti devono essere addestrati in modo uniforme. Il problema è che possono apprendere solo dai prompt inviati dalla rete di gating. 

Man mano che la rete identifica gli esperti addestrati su determinati argomenti, impara anche a instradare i prompt verso gli esperti. Se un esperto risponde costantemente e correttamente a domande scientifiche, la rete di gating imparerà a inviare più domande su biologia, chimica e fisica. In questo modo gli esperti sviluppano conoscenze approfondite specialistiche e riconoscono schemi complessi nel tempo.

Come evitare una rete di gating inefficiente 

Se un esperto diventa molto efficace nel rispondere a diversi tipi di prompt, la rete di gating può iniziare a inviargli un numero di input sproporzionato, causando squilibri tra i carichi o l'overfitting. 

Per evitare questo problema, gli sviluppatori utilizzano una perdita di bilanciamento del carico o penalità ausiliaria, una tecnica di machine learning che insegna alla rete di gating regole di equità e distribuzione. Quando viene penalizzata per aver scelto troppo spesso lo stesso esperto, la rete impara a rivolgersi ad altri esperti. Nel tempo, apprende come bilanciare il carico di lavoro e distribuire i prompt tra i vari esperti. 

Ciò rafforza il concetto che tutti gli esperti sono specializzati in qualcosa di unico e continuano ad acquisire dati e schemi relativi ai propri argomenti di nicchia. 

I concetti di base di RAG e fine tuning 

L'espansione continua di modelli e dataset richiede un maggior numero di GPU per lo storage. Il parallelismo tra modelli esperti distribuisce i modelli e le architetture MoE su più hardware al fine di utilizzare le risorse in modo più efficiente. 

Come prima cosa, è utile comprendere il parallelismo dei dati. Questa strategia per la scalabilità dell'IA divide un dataset di grandi dimensioni in categorie e distribuisce ogni porzione di dati a un processore o una GPU distinta. Le GPU operano in parallelo e contemporaneamente, generando output coerenti e uniformi. La rete di gating unisce quindi gli output e fornisce il risultato finale. 

Il parallelismo tra modelli esperti applica questa strategia distribuendo gli esperti tra più GPU. All'arrivo di una richiesta, la rete di gating instrada i token ai dispositivi sui quali risiedono gli esperti più pertinenti, anche se si trovano su macchine diverse. Simultaneamente, ogni esperto elabora i prompt e accorpa i risultati per fornire una risposta. La suddivisione dell'elaborazione dell'inferenza permette ai modelli di elaborare gli input e utilizzare le risorse di calcolo in modo più efficiente e scalabile. 

Questo approccio si differenzia dall'architettura dei modelli MoE perché distribuisce gli esperti su più hardware in modo scalabile: non distribuisce gli input del modello, ma gli esperti stessi su più GPU diverse. 

Le MoE funzionano come un lavoro di gruppo: l'insegnante assegna un progetto al gruppo e i vari membri si suddividono le attività in base alle proprie competenze. Quando tutti hanno completato la parte a loro assegnata, è possibile presentare il progetto unificato.

Il parallelismo tra modelli esperti è come un intero distretto scolastico che collabora per raccogliere dei fondi: da sedi diverse, ogni scuola è contemporaneamente impegnata alla realizzazione dello stesso obiettivo. Se più di una scuola partecipa alla raccolta fondi, è probabile che si raccolgano più soldi in meno tempo. 

Il parallelismo tra modelli esperti può riscontrare la stessa difficoltà della MoE: il bilanciamento del carico. Se la rete di gating instradasse troppi token agli esperti sulla stessa GPU, l'utilizzo potrebbe non essere uniforme e generare potenziali ostacoli. È fondamentale monitorare le GPU per accertarsi che nessuna venga sovraccaricata. 

Cos'è l'inferenza distribuita?

Le architetture MoE sono utilizzate da ingegneri di IA, sviluppatori di modelli e provider di servizi cloud, e sono diffuse tra i team che si occupano di machine learning e IA per le aziende. 

Le architetture MoE sono particolarmente utili quando:

  • È necessario aumentare la capacità del modello senza incrementare significativamente le risorse di calcolo per ogni richiesta.
  • Il problema trae vantaggio dalla specializzazione, con parti diverse del modello che apprendono schemi diversi.
  • Negli scenari di grandi dimensioni a elevato consumo di larghezza di banda serve più capacità di calcolo o più macchine.
  • Durante l'aggiornamento o l'inferenza, è richiesto l'uso efficiente di un budget di capacità di calcolo prestabilito.

Le architetture MoE sono particolarmente efficienti su argomenti inerenti ai seguenti scenari: 

  • Elaborazione del linguaggio naturale (NLP): le architetture MoE possono supportare NLP con prompt che richiedono il riepilogo di documenti estesi, l'indicazione del sentiment positivo o negativo nei commenti e lo sviluppo di informazioni approfondite per assistenti virtuali automatici e chatbot. 

    Un'assistente chatbot, ad esempio, può utilizzare un'architettura MoE per instradare le domande in un'altra lingua a un esperto che è stato addestrato in lingue specifiche. 

  • Visione artificiale: le architetture MoE possono servirsi di tecniche di deep learning per comprendere immagini analogamente a come fanno gli esseri umani, incluse attività come il riconoscimento facciale e la classificazione delle immagini. 

    Le architetture MoE possono, ad esempio, supportare l'imaging medico assistito dall'IA nell'identificazione di diverse categorie di immagini come radiografie, risonanze magnetiche e TAC. I diversi esperti possono specializzarsi nell'individuazione di anomalie come fratture o tumori. 

  • Sistemi di raccomandazione: le architetture MoE possono prevedere le preferenze degli utenti analizzando i comportamenti passati e il contesto. 

    Ne sono esempi le piattaforme di streaming come Netflix e Spotify, che analizzano il comportamento degli utenti e ne prevedono le preferenze. Al momento dell'accesso, il servizio propone immediatamente i contenuti che con più probabilità risultano di maggiore interesse all'utente. Le architetture MoE dimostrano grande efficacia nell'identificazione di questi trend in modo più rapido e accurato.

Anche i modelli densi sono in grado di gestire tutti questi scenari di utilizzo, ma potrebbero non essere altrettanto veloci o altamente addestrati su argomenti specifici. È la capacità di rispondere in modo rapido e accurato che distingue i modelli MoE dagli altri modelli. 

Come applicare l'IA in azienda

La MoE è una strategia diffusa nella maggior parte dei modelli open source: è stata adottata da oltre il 60% dei modelli di IA open source diffusi nel 2025,1 un forte segnale dell'interesse del settore verso il valore di questa tecnologia.

Tra le architetture MoE open source citiamo: 

  • Mixtral 8x7B
  • OLMoE
  • DBRX
  • OpenMoE 

Le architetture MoE hanno dimostrato che realizzare modelli di maggiori dimensioni per gestire più potenza di calcolo non è sempre la strategia più efficace. I modelli MoE open source raggiungono livelli di intelligenza più elevati in tempi ridotti, perché sono in grado di apprendere argomenti specializzati più velocemente rispetto ai modelli densi. 

Leggi di più sui modelli linguistici di piccole dimensioni

Red Hat® AI è progettato per un'inferenza rapida, flessibile ed efficiente tramite un server basato su vLLM. Collega in modo affidabile i modelli ai dati per unificare la personalizzazione e lo sviluppo di agenti specializzati su un'unica piattaforma. Realizzati su una base open source, i nostri prodotti offrono il pieno controllo dei flussi di lavoro end to end dell'IA, in modo scalabile. 

L'offerta Red Hat AI include Red Hat AI Inference Server, uno stack di inferenza che fornisce il controllo operativo necessario per l'esecuzione di qualsiasi modello su qualsiasi acceleratore nel cloud ibrido. Scopri come Red Hat AI aiuta le aziende a realizzare un'inferenza rapida, efficiente e conveniente in modo scalabile. 

Scopri di più su Red Hat AI Inference Server

 

1Koparkar, Shruti, "Mixture of Experts Powers the Most Intelligent Frontier AI Models, Runs 10x Faster to Deliver 1/10 the Token Cost on NVIDIA Blackwell NVL72", articolo del blog di NVIDIA, 3 dicembre 2025.

Blog

Artificial Intelligence (AI)

See how our platforms free customers to run AI workloads and models anywhere

Definizione della strategia aziendale per l'IA: una guida introduttiva

Leggi questa guida introduttiva per scoprire come Red Hat OpenShift AI e Red Hat Enterprise Linux AI possono accelerare il percorso di adozione dell'IA.

Continua a leggere

What is AgentOps?

Con AgentOps (Agent Operations) si intende un framework di strumenti volti a monitorare come lavora la "mente" dell'IA e come arriva a prendere certe decisioni in tempo reale.

What is sovereign AI?

Per "IA sovrana" si intende il possesso della tecnologia di IA, il mantenimento dei dati all’interno della giurisdizione nazionale e la garanzia che i sistemi riflettano valori specifici e requisiti legali.

What is llm-d?

llm-d è un framework open source nativo di Kubernetes che accelera l'inferenza LLM distribuita in modo scalabile.

AI/ML: risorse consigliate