¿Qué es la mezcla de expertos (MoE)?

Copiar URL

La mezcla de expertos (MoE) es una técnica de arquitectura de modelos que agiliza la inferencia de inteligencia artificial dirigiendo las tareas a la parte más capaz del modelo. 

Los modelos de mezcla de expertos están especialmente entrenados para responder a subcategorías particulares con rapidez y precisión. 

La importancia de la inferencia 

Piénsalo de este modo: Si fueras un estudiante que tiene una pregunta sobre anatomía humana, ¿le preguntarías a cada profesor hasta obtener una respuesta? ¿O irías primero a consultarle al profesor de biología? Lo más probable es que fueras directamente a preguntarle a tu profesor de biología, quien es el más adecuado para ello entre tu "mezcla de expertos". 

¿Por qué? Porque tu objetivo es obtener la respuesta correcta lo más pronto posible.

Aunque todos tus profesores sean expertos en sus propias materias, sabes que es el de biología quien sabrá la respuesta correcta cuando se trate de una consulta sobre anatomía humana. Por esta razón, le preguntarías a él tu duda, sin pasar por el Departamento de Inglés. 

La mezcla de expertos sigue la misma lógica. 

Lee la publicación del blog sobre la adaptación de la inteligencia con la MoE 

Para que la inferencia sea exitosa, los modelos de inteligencia artificial deben realizar muchos cálculos en poco tiempo. A medida que el tamaño de los modelos aumenta, estos se vuelven más complejos y el proceso de inferencia se ralentiza. Ciertos factores, como el tamaño del modelo, el gran volumen de usuarios y la latencia, pueden limitar el rendimiento. 

Para superar estos desafíos, la mezcla de expertos crea una red neuronal que permite una inferencia más veloz a gran escala. 

 

Uso del deep learning por parte de la MoE 

El deep learning (aprendizaje profundo) es una técnica de inteligencia artificial que enseña a las computadoras a procesar los datos y a aprender mediante la observación, imitando la manera en que los seres humanos adquirimos los conocimientos.

Dos características definen a esta tecnología y respaldan el funcionamiento de los modelos: 

  • El aprendizaje por transferencia se refiere a cuando un modelo aplica la información que tiene sobre una situación a otra y desarrolla su conocimiento interno sobre la base de la información que ya poseía. Muchos modelos base tienen cientos de capas neuronales que están entrenadas previamente con técnicas de deep learning. Es de esta manera que los modelos descubren las relaciones y los patrones que se dan dentro de un conjunto de datos.
  • La capacidad de ajuste se refiere a los elementos de hardware, concretamente a las unidades de procesamiento gráfico (GPU), que permiten que el modelo lleve a cabo diversos procesos informáticos a la vez. 

La MoE integra el entrenamiento con deep learning y el aprendizaje por transferencia para identificar patrones y subcategorías en las peticiones del usuario. Por lo tanto, los modelos de MoE pueden identificar con rapidez al mejor "experto" para responder la consulta ingresada. La MoE utiliza las GPU para adaptar y agilizar el proceso de respuesta a las peticiones. 

Obtén más información sobre los modelos base 

 

Uso de las redes neuronales por parte de la MoE 

Las redes neuronales forman la arquitectura fundamental del deep learning. Están compuestas por muchas capas de neuronas que interpretan los datos. 

En las arquitecturas tradicionales, cada capa interpreta los datos que ingresan y los envía a la capa siguiente, y así sucesivamente, hasta que llegan a una neurona que puede responder a la petición. Estas redes neuronales, que suelen ser densas, se denominan redes de alimentación directa (FFN). 

Las FFN envían datos en una dirección a través de todas sus partes: las capas de entrada, las ocultas y las de salida. A medida que los datos fluyen desde las capas de entrada hacia las de salida, las capas ocultas aprenden los patrones y las tendencias de cada entrada para entregar un resultado final. 

A diferencia de las redes de alimentación directa, las mezclas de expertos pueden seguir distintos caminos para llegar a un resultado. Cuando las MoE identifican a los expertos, se acorta el camino para obtener un resultado final y se amplía la capacidad del modelo. Así, los modelos aprenden nueva información e identifican patrones sin tener que utilizar más memoria, recursos informáticos ni tiempo. 

Para aislar el proceso en curso de los demás cálculos que se llevan a cabo simultáneamente, la MoE introduce la escasez.

 

Uso de la escasez por parte de la MoE

La escasez es una técnica que ayuda a las redes neuronales a ahorrar memoria utilizando menos pesos, 

los cuales son cálculos que le indican al modelo qué medida tomar. Cada peso recibe una puntuación en función de la habilidad que posee para responder a cada petición. Esto permite asignar la consulta al experto adecuado. Sin embargo, no todos los pesos son necesarios para todas las peticiones. La escasez identifica los pesos que se necesitan e ignora a aquellos que no son fundamentales. 

En términos técnicos, esto significa que la puntuación que se asigna a los pesos innecesarios es 0. Cuando el modelo ve este valor, sabe que debe evitar dichos cálculos (porque todo lo que se multiplica por 0 da como resultado también 0). Esto permite que los expertos se centren solo en los pesos que importan.

Cuando los pesos innecesarios están ocultos, el modelo tiene más memoria y puede trabajar con mayor rapidez. Lo complicado es encontrar el equilibrio justo entre aumentar la velocidad y disminuir la precisión o el rendimiento.

Encuentra más maneras de optimizar la inferencia 

Cuatro aspectos clave para la implementación de la tecnología de inteligencia artificial

La mayoría de los modelos base utilizan un tipo de red neuronal conocido como transformador. Los transformadores ayudan a los modelos a registrar relaciones y dependencias contextuales en las secuencias de datos. Los desarrolladores suelen remplazar las arquitecturas densas por las MoE para aumentar la eficiencia de los modelos.

La mezcla de expertos está compuesta por dos partes principales: las capas de redes neuronales escasas y la red de enrutamiento. 

  • Los modelos escasos de MoE en una red neuronal tienen menos conexiones que las capas densas. 

    Para aplicar la escasez, estos modelos no realizan todos los cálculos, sino solo aquellos necesarios. Con menos conexiones, la red neuronal ahorra más memoria y puede trabajar más rápido. 

    Una capa densa funciona de forma similar a un explorador web con decenas de ventanas abiertas. Internet comienza a ralentizarse debido a que debe procesar demasiadas señales distintas en pestañas que permanecen abiertas, pero sin utilizarse. Esto consume mucha memoria y provoca que la pestaña que realmente necesitas funcione con lentitud. 

    Las capas escasas ignoran las conexiones innecesarias de la red neuronal para que aquellas que precisas funcionen lo más rápido posible. En esta analogía del explorador, las capas escasas entienden cuáles pestañas abiertas tienen que ignorar y cuáles deben ejecutarse con rapidez.

     

  • Las redes de enrutamiento de MoE o los enrutadores analizan cada petición y la dirigen al experto más capaz. Esto permite que las mezclas de expertos sigan distintos caminos para llegar al resultado.

    La red de enrutamiento usa parámetros entrenados previamente para calificar a cada experto y selecciona los más adecuados para cada solicitud. Esta selección crea escasez, ya que solo se activan los expertos elegidos y se omiten los demás. De esta manera, el modelo se puede concentrar en procesar lo más importante. 

    Una vez que los expertos obtienen sus calificaciones, la red de enrutamiento delega las peticiones en consecuencia.

    Por ejemplo, la red de enrutamiento recibe la indicación de escribir un cuento de hadas original. El enrutador identifica al experto entrenado en redacción creativa basándose en su alta puntuación en esta materia. Los expertos entrenados en medicina, marketing e ingeniería reciben puntuaciones bajas. La red de enrutamiento selecciona y activa los expertos más relevantes e ignora a los demás. Debido a este entrenamiento, la red de enrutamiento sabe que debe dirigir la petición al experto en redacción creativa para obtener el mejor resultado posible. 

La arquitectura de MoE permite que varios modelos especializados trabajen en conjunto. Por eso, el enrutador muchas veces identifica más de un experto que puede responder a la petición con rapidez. Luego de que los expertos completan sus tareas, la red de enrutamiento recopila los resultados y los combina para lograr una respuesta final unificada.

Obtén más información sobre la infraestructura de IA 

La mezcla de expertos permite que los modelos se ejecuten más rápido y con menos recursos, lo que brinda varias ventajas:

  • Velocidad. Así como el estudiante ahorraba mucho tiempo y esfuerzo al preguntarle su duda directamente al profesor de biología, un modelo de MoE ahorra tiempo y recursos valiosos ignorando los datos innecesarios y acudiendo directamente al experto adecuado. Esto significa que los modelos de MoE consiguen mejores resultados que los modelos densos que procesan todos los conjuntos de datos para cada petición.
  • Especialización. A medida que los MoE procesan más peticiones, se vuelven mejores en el reconocimiento de patrones y datos de sus áreas específicas. Esto permite que los modelos de MoE sean más precisos que los modelos densos que analizan todas las peticiones e intentan dominar todas las áreas a la vez.
  • Capacidad de ajuste. Las MoE activan solo los pesos necesarios para cada tarea, por lo que pueden gestionar una alta demanda informática. A diferencia de los modelos densos, las MoE no activan millones de parámetros para cada inferencia, lo que permite ampliar la infraestructura sin tener que realizar una enorme inversión en recursos. 

Perfeccionamiento de las mezclas de expertos

El perfeccionamiento tradicional es complejo porque la actualización de miles de millones de parámetros puede generar un sobreajuste, o el modelo puede memorizar datos específicos en lugar de aprender patrones generales. A esto se agrega un desafío particular de las MoE: la inestabilidad del enrutamiento.

Los modelos de MoE dependen de una red de enrutamiento para enviar la información a los expertos especializados en cada tema específico. Sin embargo, si la red envía datos nuevos a los expertos equivocados o si algunos de ellos están sobreutilizados, el modelo puede experimentar: 

  • Colapso de expertos: El modelo pierde su diversidad especializada.
  • Olvido catastrófico: Los expertos pierden su conocimiento especializado original. 

Aprender nuevos datos sin perder ni interrumpir la base de conocimientos actual puede ser un gran desafío técnico.

Equilibrio de carga de la MoE 

En un modelo de MoE, los expertos aprenden principalmente de los tokens que envía la red de enrutamiento. Esto crea un ciclo de "enriquecimiento de los ricos" que se denomina desequilibrio de expertos: si la red identifica a un experto exitoso desde el principio, este se vuelve un poco más inteligente, lo que aumenta la posibilidad de que la red lo vuelva a elegir. Si no se interviene, algunos expertos terminan sobrecargados, mientras el resto no recibe el entrenamiento adecuado o se desaprovecha porque no se utiliza de manera óptima.

Sin embargo, la mayoría de las implementaciones de MoE modernas incluyen estrategias de enrutamiento y de equilibrio de carga para evitar estos problemas.

Requisitos de memoria de la MoE

Los modelos de MoE son eficientes, pero requieren de mucho almacenamiento. 

La mezcla de expertos utiliza una gran cantidad de parámetros para entrenar cada modelo en su área específica. A pesar de aplicar la escasez, la MoE igual necesita contar con hardware para todos los expertos de su red. Estos expertos no siempre se utilizan, pero sí ocupan espacio. 

Los altos requisitos de memoria suelen generar aumentos en las necesidades de hardware y en los costos. 

El entrenamiento de las MoE es más complejo que el de un modelo denso estándar. El éxito depende de que la red de enrutamiento y los expertos aprendan a coordinarse de forma sincronizada. Si estos dos elementos no trabajan bien en conjunto, la arquitectura no puede dirigir las tareas ni procesar los datos de forma eficaz. 

Enrutamiento de entrada y selección de expertos

El enrutamiento de entrada hace referencia a la forma en que la red de enrutamiento toma decisiones en tiempo real para asignar con exactitud cada petición a un experto. 

La red de enrutamiento está entrenada para identificar a los expertos mejor calificados, los cuales reciben el nombre de "expertos top-k", donde la "k" es un parámetro de sustitución que indica el número de expertos con la puntuación más alta que deben activarse para responder a cada petición. Dado que las MoE aplican la escasez, este número es bajo, por lo general, 1 o 2. Todos los demás expertos obtienen la calificación 0 y, por tanto, se ignoran. 

Entrenamiento de los expertos

Para que los expertos funcionen bien, deben entrenarse de la misma manera. El problema es que solo pueden aprender de las peticiones que les envía la red de enrutamiento. 

A medida que la red identifica qué expertos están entrenados en determinados temas, aprende a dirigir esas peticiones en consecuencia. Si un experto responde las preguntas científicas correctamente de manera constante, la red aprenderá que debe enviarle más preguntas sobre biología, química y física. Esto ayuda a dichos expertos a desarrollar un conocimiento profundo y especializado, y a reconocer patrones complejos con el paso del tiempo.

Cómo evitar una red de enrutamiento perezosa 

Si un experto se vuelve muy eficaz para responder a distintos tipos de peticiones, la red puede comenzar a enviarle una cantidad de peticiones desproporcionada, lo que genera sobreajustes y cargas desequilibradas. 

Para evitar estos problemas, los desarrolladores utilizan una sanción por pérdida del equilibrio de carga o sanción auxiliar. Se trata de una técnica de machine learning (aprendizaje automático) que le enseña a la red de enrutamiento reglas sobre el equilibrio y la distribución. Cuando reciba una sanción por elegir a un experto demasiado seguido, aprenderá que debe probar con otros expertos. Con el paso del tiempo, la red de enrutamiento aprende a equilibrar la carga de trabajo y a distribuir las peticiones entre todos los expertos. 

Esto refuerza la idea de que todos los expertos se especializan en un área única y continúan recopilando datos y patrones en sus temas específicos. 

Descubre las diferencias entre la RAG y el perfeccionamiento de modelos 

A medida que los modelos y los conjuntos de datos aumentan de tamaño, requieren más GPU para almacenamiento. El paralelismo de expertos ajusta los modelos y las arquitecturas de mezcla de expertos en distintos sistemas de hardware para utilizar los recursos de manera más eficiente. 

En primer lugar, resulta útil entender lo que significa el paralelismo de datos. Esta estrategia de ajuste de inteligencia artificial divide un conjunto de datos grande en categorías y distribuye cada uno de los datos a un procesador o GPU independiente. Las GPU trabajan simultáneamente y ofrecen un resultado uniforme y unificado. Luego, la red de enrutamiento combina los distintos resultados para brindar uno final. 

El paralelismo de expertos aplica esta estrategia distribuyendo los expertos en varias GPU. Cuando ingresa una solicitud, la red dirige los tokens a los dispositivos que alojan a los expertos más relevantes, incluso si están ubicados en distintas máquinas. Cada experto procesa las peticiones al mismo tiempo y, luego, el sistema combina los diferentes resultados para proporcionar una respuesta. Al dividir el procesamiento de inferencias, los modelos pueden gestionar las entradas y aplicar los procesos informáticos de manera más eficiente y según sea necesario. 

Esto se diferencia de la arquitectura de modelos de MoE porque utiliza expertos en distintos sistemas de hardware según se necesite. No se trata de distribuir los datos de entrada del modelo, sino de distribuir expertos entre muchas GPU diferentes. 

La MoE es como hacer un proyecto en grupo: el profesor asigna una tarea grupal y el equipo delega cada tarea a un miembro distinto en función de sus habilidades. Una vez que todos cumplan con su parte de la tarea, estarán listos para presentar un proyecto unificado.

El paralelismo de expertos es como un distrito escolar completo que trabaja en conjunto para recaudar dinero. Cada escuela trabaja en distintas ubicaciones para el mismo fin y al mismo tiempo. Cuando más de una escuela participa en la recaudación de fondos, es probable que recauden más dinero en menos tiempo. 

El paralelismo de expertos puede implicar el mismo desafío que las MoE: el equilibrio de carga. Cuando la red dirige demasiados tokens a los expertos de una misma GPU, el uso puede ser desigual y generar bloqueos. Es importante supervisar las GPU para asegurarse de que ninguna trabaje más que las demás. 

¿Qué es la inferencia distribuida? 

Los ingenieros de inteligencia artificial, los desarrolladores de modelos y los proveedores de servicios de nube utilizan las MoE. Son populares entre los equipos de machine learning e inteligencia artificial empresarial. 

La MoE suele ser útil cuando:

  • Quieres aumentar la capacidad del modelo sin incrementar significativamente los recursos necesarios para cada solicitud.
  • El problema se beneficia de la especialización, es decir, de que distintas partes del modelo aprendan patrones diferentes.
  • Tus escenarios de gran escala y alto rendimiento requieren más procesamiento o varias máquinas.
  • Necesitas utilizar de forma eficiente un presupuesto de procesamiento determinado durante el entrenamiento o la inferencia.

La MoE puede destacarse en temas relacionados con los siguientes casos: 

  • Procesamiento del lenguaje natural: La MoE puede admitir el procesamiento del lenguaje natural (NLP) en peticiones que solicitan resumir documentos extensos, detectar opiniones positivas o negativas en los comentarios o generar información valiosa para los asistentes virtuales automatizados y los chatbots. 

    Por ejemplo, un asistente de chatbot puede usar una arquitectura de MoE para dirigir las preguntas en otro idioma a un experto que esté entrenado en idiomas específicos. 

  • Visión artificial: Las MoE utilizan las técnicas de deep learning para comprender las imágenes como lo hacemos nosotros, a través de métodos como el reconocimiento facial y la clasificación de imágenes, entre otros. 

    Por ejemplo, las MoE pueden ayudar a los sistemas de imágenes asistidas por inteligencia artificial a identificar las diferentes categorías de imágenes, como los rayos X, las resonancias magnéticas y las tomografías computadas. Los distintos expertos pueden especializarse en identificar determinadas anomalías, como las fracturas y los tumores. 

  • Sistemas de recomendación: La MoE puede predecir las preferencias de los usuarios analizando el contexto y el comportamiento anterior. 

    Por ejemplo, las plataformas de transmisión de videos, como Netflix y Spotify, analizan tu comportamiento para predecir tus preferencias. Cuando inicias sesión, el servicio muestra inmediatamente el contenido que es más probable que te guste. Las MoE se destacan en identificar estas tendencias con mayor rapidez y precisión.

Recuerda, los modelos densos también pueden gestionar todos estos casos prácticos, pero es posible que no trabajen tan rápido o que no estén tan bien entrenados en temas específicos. El beneficio de las MoE es que pueden ayudar al usuario con rapidez y precisión. 

Aplicación de la inteligencia artificial en el entorno empresarial 

La mezcla de expertos es una estrategia popular para la mayoría de los modelos open source. Más del 60 % de los modelos de inteligencia artificial open source que se lanzaron en 2025 adoptaron la MoE1, lo que demuestra que el sector comprende el valor de esta tecnología y se interesa en ella.

Algunas MoE open source incluyen: 

  • Mixtral 8x7B;
  • OLMoE;
  • DBRX;
  • OpenMoE. 

La MoE ha demostrado que diseñar modelos de mayor tamaño para gestionar más recursos informáticos no siempre es la mejor estrategia. Los modelos de MoE open source alcanzan niveles de inteligencia más altos con mayor velocidad debido a su habilidad para aprender temas especializados más rápido que los modelos densos. 

Obtén información sobre los modelos de lenguaje pequeños 

Red Hat® AI está diseñada para realizar inferencias rápidas, flexibles y eficientes a través de su servidor con vLLM. Conecta los modelos a tus datos de manera confiable para unificar la personalización y el desarrollo de agentes especializados en una sola plataforma. Los productos cuentan con una base open source y te brindan el control total de los flujos de trabajo de inteligencia artificial en cualquier escala. 

La cartera de productos de Red Hat AI incluye Red Hat AI Inference Server, una stack de inferencias que proporciona el control operativo para ejecutar cualquier modelo en cualquier acelerador en toda la nube híbrida. Descubre las maneras en que Red Hat AI puede ayudar a las empresas a realizar inferencias rápidas, eficientes y rentables según sea necesario. 

Obtén más información sobre Red Hat AI Inference Server

 

1 Koparkar, Shruti. "Mixture of Experts Powers the Most Intelligent Frontier AI Models, Runs 10x Faster to Deliver 1/10 the Token Cost on NVIDIA Blackwell NVL72". Blog de NVIDIA, 3 de diciembre de 2025.

Blog

Artificial Intelligence (AI)

See how our platforms free customers to run AI workloads and models anywhere

Introducción a la inteligencia artificial para las empresas: Guía para principiantes

Acelera tu proceso de adopción de la inteligencia artificial con Red Hat OpenShift AI y Red Hat Enterprise Linux AI. Obtén más información al respecto en esta guía para principiantes.

Más información

What is AgentOps?

AgentOps (operaciones de los agentes) es un marco de herramientas que sirve para supervisar el "cerebro" de un recurso de inteligencia artificial a medida que toma decisiones en tiempo real.

What are predictive analytics

El análisis predictivo es un método que permite analizar datos actuales y anteriores para realizar predicciones sobre acontecimientos futuros.

What is sovereign AI?

La inteligencia artificial soberana implica ser propietario de la tecnología de inteligencia artificial, mantener los datos en tus entornos locales y garantizar que los sistemas reflejen tus valores y requisitos legales únicos.

IA/ML: lecturas recomendadas