O que é combinação de especialistas (MoE)?
A combinação de especialistas (MoE) é uma técnica de arquitetura aplicada a modelos de IA. Ela reduz o tempo de inferência direcionando cada tarefa à parte mais capacitada do modelo.
Os modelos que usam essa arquitetura passam por um treinamento para oferecer respostas sobre subcategorias específicas com mais rapidez e precisão.
Pense assim: na escola, se você tivesse uma dúvida sobre anatomia humana, procuraria cada professor ou perguntaria diretamente ao de biologia? Certamente, você falaria primeiro com o professor de biologia, a pessoa mais adequada dessa "combinação de especialistas".
E o motivo é simples: você quer a resposta correta o mais rápido possível.
Por mais que todos os professores dominem as disciplinas que ensinam, você sabe que o de biologia é quem teria a resposta certa quando o assunto é anatomia humana. É por isso que você perguntaria primeiro a ele, em vez de, por exemplo, procurar a professora de português.
A combinação de especialistas usa a mesma lógica.
Como a combinação de especialistas (MoE) funciona?
Para a inferência ser bem-sucedida, os modelos de IA precisam realizar uma grande quantidade de cálculos em pouco tempo. Quanto maior o modelo, mais complexo ele é e mais lenta fica a inferência. Fatores como tamanho do modelo, volume de acessos e latência podem limitar o desempenho.
Para superar todos esses desafios, a arquitetura de combinação de especialistas cria uma rede neural que acelera a inferência em grande escala.
Como a MoE usa o deep learning?
Deep learning é uma técnica de IA que ensina computadores a processar dados e aprender por observação, imitando a forma como os humanos adquirem conhecimento.
O funcionamento do modelo depende de duas características essenciais:
- Transfer learning (ou aprendizagem por transferência): ocorre quando um modelo aplica o conhecimento sobre uma situação à outra e expande seu repertório interno. Muitos modelos fundamentais têm centenas de camadas neurais previamente treinadas com técnicas de deep learning. É assim que os modelos descobrem relações e padrões em um conjunto de dados.
- Escala: define a capacidade do acelerador de hardware (especificamente das unidades de processamento gráfico, ou GPUs) de realizar múltiplos cálculos simultaneamente.
A MoE integra deep learning e transfer learning para reconhecer padrões e subcategorias nos prompts. Assim, esses modelos identificam rapidamente o melhor "especialista" para responder a cada pergunta. As GPUs são essenciais para expandir a escala e acelerar a operação, do processamento do prompt à geração da resposta.
Como a MoE usa as redes neurais?
As redes neurais compõe a arquitetura por trás do deep learning. Elas possuem muitas camadas de neurônios que interpretam os dados.
Tradicionalmente, cada camada interpreta os dados recebidos e os envia para a próxima até chegar no neurônio capaz de responder ao prompt. Essas redes neurais, geralmente densas, são chamadas de feed-forward (FFNs).
As FFNs enviam dados em uma única direção, passando pelas camadas de entrada, pelas camadas ocultas e pelas camadas de saída. À medida que os dados são transportados das camadas de entrada para as camadas de saída, as camadas ocultas aprendem os padrões e tendências de cada solicitação para entregar um resultado final.
Diferentemente das FFNs, as MoEs podem seguir diferentes caminhos para produzir um resultado. Ao identificar os especialistas, a MoE toma o caminho mais curto para a resposta final e expande a capacidade do modelo. É assim que esses modelos aprendem informações novas e identificam padrões sem exigir mais memória, capacidade de processamento ou tempo.
Para evitar que processamentos simultâneos interfiram uns nos outros, a MoE faz uso da esparsidade.
Como a MoE usa a esparsidade?
A esparsidade é uma técnica que permite que as redes neurais economizem memória com o uso de menos pesos.
Os pesos são cálculos que instruem o modelo sobre o que ele deve fazer. Cada peso recebe uma pontuação com base na capacidade de responder ao prompt para que a pergunta recebida seja direcionada ao especialista certo. Mas, dependendo do prompt, alguns pesos são dispensáveis. A esparsidade identifica os pesos necessários e ignora aqueles que não fazem diferença.
Os pesos desnecessários recebem a pontuação zero. Os modelos pulam os cálculos com peso zero, já que qualquer valor multiplicado por esse número também resulta em zero. Assim, os especialistas levam em consideração somente os pesos que importam.
Quando pesos desnecessários são ocultados, o modelo libera memória e opera com maior velocidade. O desafio está em encontrar o equilíbrio entre ganhar velocidade e perder precisão ou desempenho.
Quatro considerações importantes sobre a implementação da tecnologia de IA
Como é a arquitetura de MoE?
A maioria dos modelos fundamentais usam um tipo de rede neural conhecido como modelo de transformação. Ele ajudam a identificar relações contextuais e dependências nas sequências de dados. É comum que desenvolvedores substituam arquiteturas complexas por MoEs para tornar o modelo mais eficiente.
Uma MoE é composta pelas camadas esparsas da rede neural e pela rede de gating.
Os modelos de MoE esparsos em uma rede neural têm menos conexões do que as camadas densas.
Para garantir a esparsidade, esses modelos não processam todos os cálculos, somente os necessários. Com menos conexões, a rede neural economiza memória e trabalha mais rápido.
Uma camada densa é como se fosse um navegador da web com um monte de janelas e guias abertas. A navegação na internet fica mais lenta porque é necessário processar vários sinais diferentes nas guias que continuam abertas sem ninguém estar usando. Isso consome muita memória e faz com que a guia em uso fique mais lenta.
Com as camadas esparsas, as conexões irrelevantes na rede neural são ignoradas para acelerar as conexões necessárias. Usando a analogia do navegador de internet, as camadas esparsas sabem quais guias abertas podem ser ignoradas e quais precisam funcionar sem travar.
As redes de gating (ou roteadores) de uma MoE analisam o prompt e depois o encaminham para o especialista mais capacitado. Isso possibilita que as MoEs percorram vários caminhos diferentes para chegar a uma resposta.
Usando parâmetros pré-treinados, a rede de gating pontua cada especialista e escolhe os mais adequados para resolver cada solicitação. Isso cria esparsidade, ou seja, só os especialistas escolhidos são acionados. O restante é ignorado. Dessa forma, o modelo concentra esforços no processamento do que realmente interessa.
Após pontuar os especialistas, a rede de gating delega os prompts adequadamente.
Por exemplo, a rede de gating recebe um pedido para escrever um conto de fadas original. O roteador identifica um especialista treinado em escrita criativa, com base na alta pontuação recebida nesse quesito. Outros especialistas treinados em assuntos como medicina, marketing ou engenharia recebem uma pontuação baixa. A rede de gating escolhe e aciona o especialista mais relevante, ignorando os demais. Por causa desse treinamento, a rede de gating sabe que deve encaminhar o prompt ao especialista em escrita criativa para gerar o melhor resultado possível.
A arquitetura da MoE permite que vários modelos especializados trabalhem juntos. Por isso, não é raro que o roteador identifique mais de um especialista capaz de responder ao prompt rapidamente. Após os especialistas concluírem a tarefa, a rede de gating coleta e combina os resultados para gerar uma resposta final coesa.
Benefícios da combinação de especialistas
Um modelo com arquitetura de combinação de especialistas trabalha mais rápido e consome menos recursos. Entre suas vantagens estão:
- Velocidade: assim como o estudante que tira sua dúvida de anatomia direto com o professor de biologia, um modelo de combinação de especialistas economiza tempo e recursos significativos ao ignorar os dados desnecessários e se concentrar no especialista apropriado. Os modelos de combinação de especialistas têm desempenho superior ao dos modelos densos, que precisam processar o conjunto de dados inteiro à cada prompt.
- Especialização: à medida que as combinações de especialistas processam mais prompts, ficam mais precisas no reconhecimento de padrões e dados em seus tópicos específicos. Por isso, esses modelos são mais precisos do que os modelos densos, que tentam dominar todos os assuntos ao mesmo tempo, independentemente do prompt.
- Escala: as combinações de especialistas ativam apenas os pesos necessários para cada tarefa, o que permite lidar com uma alta demanda computacional. Diferentemente dos modelos densos, as combinações de especialistas não ativam milhões de parâmetros a cada inferência. Dessa forma, é possível escalar a infraestrutura sem tanto investimento em recursos.
Desafios da combinação de especialistas
Ajuste fino das combinações de especialistas
O ajuste fino convencional é um desafio pois a atualização de bilhões de parâmetros pode resultar em overfitting (sobreajuste), fazendo com que o modelo memorize dados específicos, em vez de aprender padrões gerais. As MoEs enfrentam ainda uma outra complexidade: a instabilidade do roteamento.
Os modelos de MoE dependem de uma rede de gating para direcionar as informações aos especialistas adequados. Mas se essa rede enviar dados novos para os especialistas errados, ou sobrecarregar determinados especialistas, o modelo pode sofrer as seguintes consequências:
- Colapso dos especialistas: quando o modelo perde a diversidade de especialização.
- Esquecimento catastrófico: quando os especialistas perdem o conhecimento especializado original.
Fazer o modelo aprender dados novos sem perder nem desestruturar a base de conhecimento atual pode ser um grande desafio técnico.
Balanceamento de carga das MoEs
Em um modelo de MoE, os especialistas aprendem principalmente por meio de tokens enviados pela rede de gating. Isso cria um efeito conhecido como desequilíbrio de especialistas: se a rede de gating identifica o especialista ideal rapidamente, ele vai ficando mais inteligente e é sempre escolhido nos prompts futuros. Sem uma intervenção, alguns especialistas ficam sobrecarregados, enquanto o restante permanece mal treinado ou subutilizado.
A maioria das implementações modernas de MoEs, porém, inclui mecanismos para equilibrar a carga e estratégias de roteamento para evitar esse problema.
Requisitos de memória das MoEs
Os modelos de MoE são eficientes, mas demandam muito armazenamento.
As MoEs usam um grande número de parâmetros para treinar os modelos em assuntos específicos. Apesar da esparsidade, uma MoE precisa de um hardware para todos os especialistas na sua rede. Esses especialistas nem sempre são usados o tempo todo, mas ainda assim ocupam espaço.
Um alto requisito de memória, em geral, significa uma demanda maior de hardware e custos mais elevados.
Treinamento das MoEs
Treinar uma MoE é mais complexo do que treinar um modelo denso padrão. Para ter sucesso, a rede de gating e os especialistas precisam aprender a trabalhar em sintonia. Se isso não acontecer, a arquitetura não conseguirá encaminhar tarefas ou processar dados com eficácia.
Encaminhamento de dados e escolha dos especialistas
A rede de gating encaminha os dados inseridos, tomando decisões em tempo real para direcionar cada prompt ao especialista apropriado.
Ela é treinada para identificar os especialistas mais qualificados, conhecidos como "top-k" (o "k" representa o número de especialistas com as maiores pontuações a serem acionados para responder um prompt). Como as MoEs usam a esparsidade, esse número costuma ser baixo (um ou dois especialistas). Os demais especialistas recebem peso zero e são ignorados.
Treinamento dos especialistas
Para o modelo funcionar corretamente, todos os especialistas precisam receber o mesmo nível de treinamento. O porém é que eles só aprendem com os prompts que a rede de gating envia.
Conforme a rede identifica qual especialista é treinado em cada assunto, ela aprende a encaminhar os prompts adequadamente. Se um especialista sempre dá respostas certas para perguntas de ciência, a rede de gating aprenderá que deve enviar prompts sobre biologia, química e física para ele. Assim, esse especialista desenvolverá um repertório aprofundado em um nicho específico e começará a reconhecer padrões complexos com o passar do tempo.
Como impedir que a rede de gating fique preguiçosa
Se um especialista fica muito bom em responder prompts sobre diferentes assuntos, a rede de gating começa a enviar um número desproporcional de entradas para ele. Isso gera overfitting ou distribuição desigual de carga entre os especialistas.
Para evitar que isso aconteça, os desenvolvedores aplicam uma perda de balanceamento de carga ou penalidade auxiliar. Essa é uma técnica de machine learning que ensina à rede de gating regras sobre imparcialidade e distribuição de tarefas. Ao receber uma penalidade por escolher sempre o mesmo especialista, a rede de gating entende que precisa dar uma chance aos outros. Com o tempo, ela aprende a balancear a carga de trabalho e distribuir os prompts entre os diferentes especialistas.
Isso reforça a ideia de que cada especialista se concentra em um tópico específico e continua coletando dados e padrões referentes ao respectivo assunto.
O que é paralelismo de especialistas?
À medida que os modelos e conjuntos de dados ficam maiores, eles precisam de mais GPUs para armazenamento. Com o paralelismo de especialistas, é possível escalar modelos e arquiteturas MoE por todo o hardware para uma maior eficiência no uso dos recursos.
Primeiro, é necessário entender o que é paralelismo de dados. Essa estratégia de escala de IA divide grandes conjuntos de dados em categorias e depois encaminha cada dado para um processador ou GPU diferente. As GPUs trabalham simultaneamente, produzindo resultados consistentes e coesos. Por fim, a rede de gating combina esses resultados para entregar uma resposta final.
No paralelismo de especialistas, essa estratégia é aplicada com a distribuição de especialistas por várias GPUs. Quando chega uma solicitação, a rede de gating encaminha os tokens para os dispositivos que hospedam os especialistas mais relevantes, mesmo se estiverem em máquinas diferentes. Esses especialistas processam os prompts ao mesmo tempo e os resultados são combinados para dar uma resposta. Como o processamento da inferência é dividido, os modelos são mais eficientes na resolução das solicitações e no uso dos recursos computacionais.
Isso é diferente da arquitetura de MoE porque usa especialistas espalhados pelo hardware, em grande escala. Não se trata da distribuição de entradas no modelo, e sim de especialistas por diferentes GPUs.
A MoE funciona como um trabalho em grupo. O professor passa um trabalho ao grupo e cada aluno fica responsável por uma tarefa, com base no que sabe fazer melhor. Depois que todo mundo termina a própria tarefa, o grupo pode apresentar o projeto finalizado.
O paralelismo de especialistas é como uma rede de escolas unindo forças para arrecadar fundos. Cada escola atua em um local diferente, mas todas estão trabalhando pela mesma causa. Com esse esforço conjunto, são maiores as chances de arrecadar mais dinheiro em menos tempo.
O paralelismo de especialistas enfrenta o mesmo desafio das MoEs: o balanceamento de carga. Quando a rede de gating encaminha muitos tokens para especialistas em uma mesma GPU, a utilização de recursos fica desequilibrada, resultando em um possível congestionamento. É importante monitorar as GPUs para assegurar que nenhuma delas esteja trabalhando muito mais do que as outras.
Casos de uso da MoE
As MoEs são usadas por engenheiros de IA, desenvolvedores de modelos e provedores de serviços de nuvem. Elas são amplamente adotadas por equipes de machine learning e IA empresarial.
A MoE é útil quando:
- Você quer expandir a capacidade do modelo, sem provocar um aumento significativo no consumo de recursos computacionais a cada solicitação.
- A solução de um problema exige especialização, com diferentes partes do modelo aprendendo padrões distintos.
- A demanda de processamento e a escala exigem mais capacidade computacional ou várias máquinas.
- É preciso usar o orçamento para recursos de computação com eficiência, seja durante o treinamento ou a inferência.
A arquitetura de MoE se destaca nos seguintes cenários:
PLN (Processamento de Linguagem Natural) : a MoE é usada no processamento de linguagem natural para resumir documentos extensos, identificar sentimentos positivos ou negativos em comentários e gerar respostas para assistentes virtuais e chatbots.
Um chatbot pode usar a arquitetura de MoE para direcionar perguntas em outro idioma a um especialista treinado naquela língua.
Visão computacional: as MoEs podem usar técnicas de deep learning para compreender imagens da mesma maneira que os humanos. Isso inclui reconhecimento facial e classificação de imagens.
Por exemplo, as MoEs podem ajudar um sistema de diagnóstico assistido por IA a identificar categorias diferentes de exames, como raios-X, ressonâncias magnéticas e tomografias. Diferentes especialistas podem se dedicar a identificar anormalidades, como fraturas ou tumores.
Sistemas de recomendação: uma MoE pode prever as preferências de um usuário ao analisar o contexto e os comportamentos anteriores.
Por exemplo, as plataformas de streaming, como a Netflix e o Spotify, analisam tudo o que você faz nelas para prever o que você gosta. Assim que você faz login, o serviço já mostra o conteúdo que mais combina com seu perfil. As MoEs são excelentes para identificar essas tendências com rapidez e precisão.
Os modelos densos também servem para todos esses casos de uso, mas são mais lentos e menos treinados em tópicos específicos. A grande vantagem das MoEs é que elas são mais rápidas e precisas.
MoE e open source
A maioria dos modelos open source usa a estratégia de combinação de especialistas. Mais de 60% dos modelos de IA open source lançados em 2025 adotaram a MoE.1 Isso mostra que o setor reconhece o valor dessa arquitetura e tem interesse nela.
Alguns modelos open source com arquitetura MoE:
- Mixtral 8x7B
- OLMoE
- DBRX
- OpenMoE
A MoE provou que aumentar o modelo para lidar com uma maior demanda computacional nem sempre é a melhor estratégia. Os modelos open source com arquitetura MoE atingem níveis mais altos de inteligência com mais rapidez porque aprendem tópicos especializados mais rápido do que os modelos densos.
Como a Red Hat pode ajudar
O Red Hat® AI foi criado para realizar inferências rápidas, flexíveis e eficientes usando um servidor com tecnologia vLLM. Ele conecta modelos aos seus dados com segurança e consistência para unificar a personalização e o desenvolvimento de agentes especializados na mesma plataforma. Desenvolvidas sobre uma base open source, nossas soluções oferecem controle sobre os fluxos de trabalho de IA de ponta a ponta, em qualquer escala.
O Red Hat AI Portfolio inclui o Red Hat AI Inference Server, um stack de inferência que oferece o controle operacional para executar todos os modelos em qualquer acelerador na sua nuvem híbrida. Descubra como o Red Hat AI contribui para as empresas alcançarem uma inferência rápida, eficiente e econômica em grande escala.
1Koparkar, Shruti. "Mixture of Experts Powers the Most Intelligent Frontier AI Models, Runs 10x Faster to Deliver 1/10 the Token Cost on NVIDIA Blackwell NVL72", blog da NVIDIA, 3/12/2025.
Artificial Intelligence (AI)
See how our platforms free customers to run AI workloads and models anywhere