Mixture of Experts(MoE)란?
Mixture of Experts(MoE)는 모델 내에서 처리 능력이 가장 높은 부분에 태스크를 라우팅하여 AI 추론을 가속화하는 모델 아키텍처 기술입니다.
특히 MoE 모델은 특정 하위 범주에 대해 신속하고 정확하게 답변하도록 학습합니다.
이렇게 생각해 보세요. 여러분이 학생으로서 인체 구조에 관한 질문이 있다면 답을 얻을 때까지 모든 교수님을 찾아가시겠어요? 아니면 생물학 교수님에게 먼저 질문하시겠어요? 곧장 생물학 교수에게 질문할 것입니다. Mixture of Experts, 즉 '혼합된 전문가' 중에서 가장 적절한 전문가니까요.
이유가 무엇일까요? 최대한 빨리 정답을 얻고 싶기 때문입니다.
모든 교수님이 각자의 분야에서 풍부한 지식을 갖추고 있지만 인체 구조에 관한 질문에 대해서는 생물학 교수님이 가장 적절한 답변을 준다는 사실을 여러분은 알고 있습니다. 바로 이런 이유로 다른 전공 연구실을 기웃거릴 필요 없이 생물학 교수님에게 질문하는 것이죠.
Mixture of Experts(MoE)에도 같은 논리가 사용됩니다.
Mixture of Experts(MoE)의 작동 방식
성공적으로 추론하려면 AI 모델이 단기간에 많은 계산을 수행해야 합니다. 모델 규모가 클수록 모델의 복잡성이 높아지고 추론 속도가 떨어집니다. 모델 규모, 높은 사용자 볼륨, 대기 시간과 같은 요인은 모두 성능을 제한할 수 있습니다.
이러한 문제를 극복하기 위해 Mixture of Experts(MoE)는 더 빠른 추론을 대규모로 지원하는 신경망을 생성합니다.
MoE의 딥러닝 사용 방법
딥러닝은 컴퓨터에게 데이터를 처리하고 관찰을 통해 배워 인간의 지식 습득 방식을 모방하도록 가르치는 AI 기술입니다.
모델의 기능을 뒷받침하는 두 가지 핵심 특징이 있습니다.
- 전이 학습은 모델이 한 상황에 관한 정보를 다른 상황에 적용하고 내부 지식을 구축하는 것입니다. 많은 파운데이션 모델은 딥러닝 기술을 통해 사전 학습된 수백 개의 신경망 레이어가 있습니다. 이러한 체계를 통해 모델은 데이터세트 내에서 관계와 패턴을 발견합니다.
- 스케일링은 모델이 여러 계산을 동시에 수행하도록 하는 하드웨어, 특히 GPU(그래픽 처리 장치)를 의미합니다.
MoE는 딥러닝과 전이 학습을 통합하여 프롬프트 내에서 패턴과 하위 범주를 식별합니다. 그런 다음 MoE 모델은 입력에 대해 답변할 최적의 “전문가”를 빠르게 식별할 수 있습니다. MoE는 GPU를 사용하여 프롬프트-답변 파이프라인을 확장 및 가속화합니다.
MoE가 신경망을 사용하는 방법
신경망은 딥러닝 근저의 아키텍처를 형성합니다. 데이터를 해석하는 많은 뉴런 레이어들로 구성됩니다.
전통적으로 각 레이어는 들어오는 데이터를 해석하고 다음 레이어에 전송하며, 이를 반복하여 프롬프트에 답변할 수 있는 뉴런에 도달합니다. 대체로 밀도가 높은 이 신경망을 순방향 신경망(FFN)이라고 합니다.
FFN은 한 방향으로 입력 레이어, 숨겨진 레이어, 출력 레이어 등 모든 부분을 통과하여 데이터를 전송합니다. 데이터가 입력 레이어에서 출력 레이어로 흐르는 과정에서, 숨겨진 레이어는 각 입력의 패턴과 추세를 학습하여 최종 결과를 제공합니다.
MoE는 FFN과 달리 여러 경로를 활용하여 출력을 제공할 수 있습니다. MoE는 전문가를 식별하면 최종 결과 경로를 단축하고 모델 용량을 확장합니다. 이런 방식으로 모델은 메모리, 컴퓨팅, 시간을 더 쓰지 않고 새로운 정보를 학습하고 패턴을 식별합니다.
동시에 발생하는 다른 컴퓨팅의 노이즈를 방지하기 위해 MoE는 희소화를 도입합니다.
MoE가 희소화를 사용하는 방법
희소화는 신경망이 가중치를 더 적게 사용하여 메모리를 절약하는 기술입니다.
가중치는 모델이 어떤 작업을 해야 할지 알려 주는 계산 결과입니다. 각 가중치는 각 프롬프트에 답변하는 능력을 기준으로 매겨집니다. 이런 과정을 통해 올바른 전문가와 입력이 매핑됩니다. 하지만 프롬프트마다 매번 가중치가 필요한 것은 아닙니다. 희소화는 필수 가중치를 식별하고 중요하지 않은 가중치는 무시합니다.
이를 기술적 용어로 표현하면 불필요한 가중치는 0으로 설정된다고 말할 수 있습니다. 모델이 0을 확인하면 해당 계산을 건너뜁니다(0에 무엇을 곱해도 0이 되므로). 즉, 전문가가 중요한 가중치에만 집중할 수 있습니다.
불필요한 가중치가 숨겨지면, 모델은 더 많은 메모리를 확보하여 더 빠르게 작업할 수 있습니다. 어려운 부분은 속도를 높이는 것과 정확성이나 성능을 낮추는 것 사이의 최적점을 찾는 일입니다.
AI 기술 구현의 4가지 핵심 고려 사항
MoE 아키텍처의 원리
대다수의 파운데이션 모델은 트랜스포머라는 신경망 유형을 사용합니다. 트랜스포머를 통해 모델은 데이터 시퀀스에서 컨텍스트 관계와 종속성을 포착할 수 있습니다. 개발자는 모델의 효율성을 높이기 위해 고밀도 아키텍처를 MoE로 대체하는 경우가 많습니다.
MoE를 구성하는 두 가지 주요 부분은 희소 신경망 레이어와 gating network입니다.
신경망의 MoE 희소 모델은 고밀도 레이어에 비해 연결이 적습니다.
희소화를 적용하기 위해 이 모델은 모든 계산이 아닌 필수 계산만 처리합니다. 연결이 더 적기 때문에 신경망은 메모리를 더 절약하면서 더 신속하게 작업할 수 있습니다.
고밀도 레이어의 작동 방식은 창이 수십 개 열려 있는 웹 브라우저에 비유할 수 있습니다. 열려 있지만 상호작용하지 않는 여러 탭에서 너무 많은 신호를 처리하므로 인터넷 속도가 떨어지게 됩니다. 많은 양의 메모리가 사용되는 탓에 실제로 필요한 탭 하나가 느리게 반응하는 것입니다.
희소 레이어는 신경망 내의 불필요한 연결을 무시하여 필요한 연결이 최대한 신속하게 처리될 수 있도록 합니다. 브라우저 비유로 설명하면, 희소 레이어는 열려 있는 탭 중 어느 것을 무시하고 어느 것을 원활하게 실행해야 하는지 파악합니다.
MoE gating network 또는 라우터는 각 프롬프트를 분석하고 가장 능력 있는 전문가에게 라우팅합니다. 이에 따라 MoE는 여러 경로를 활용하여 결과에 도달할 수 있습니다.
gating network는 사전 학습된 매개 변수를 사용하여 각 전문가의 점수를 매기고 요청별로 최적의 전문가를 선택합니다. 이렇게 선택하면 희소화가 이루어져, 선택한 전문가만 활성화되고 나머지는 건너뜁니다. 모델은 가장 중요한 항목에 컴퓨팅을 집중합니다.
전문가에 점수가 부여되면, gating network는 점수에 따라 프롬프트를 배정합니다.
예를 들어 gating network가 창작 동화를 써 달라는 입력을 수신하는 경우, 라우터는 창작 글쓰기를 학습한 전문가를 해당 주제의 높은 점수를 근거로 식별합니다. 의학, 마케팅, 엔지니어링을 학습한 다른 전문가들은 해당 주제의 점수가 낮습니다. gating network는 가장 관련성 높은 전문가를 선택하여 활성화하고 나머지는 건너뜁니다. 이러한 학습 덕분에 gating network는 최상의 출력을 얻으려면 프롬프트를 창작 글쓰기 전문가에게 라우팅하면 된다는 것을 알게 됩니다.
MoE 아키텍처에서는 여러 개의 전문 모델이 함께 작동할 수 있습니다. 따라서 라우터가 프롬프트에 신속하게 답변할 수 있는 전문가를 하나 이상 식별하는 경우가 많습니다. 전문가가 태스크를 완료하고 나면 gating network는 결과를 수집하고 결합하여 통합된 최종 답변을 도출합니다.
Mixture of Experts(MoE)의 장점
Mixture of Experts(MoE)는 모델이 더 적은 리소스를 쓰면서도 더 빠르게 실행할 수 있게 지원하며, 몇 가지 장점을 제공합니다.
- 속도: 곧바로 생물학 교수님에게 질문하여 많은 시간을 절약한 학생의 비유처럼, MoE 모델은 불필요한 데이터를 무시하고 곧바로 전문가에게 문의하므로 상당한 시간과 리소스를 절약합니다. 다시 말해서 MoE 모델은 프롬프트마다 모든 데이터세트를 처리하는 고밀도 모델보다 뛰어난 성능을 보입니다.
- 전문성. MoE는 더 많은 프롬프트를 처리하므로 특정 토픽에서 패턴과 데이터를 인식하는 능력이 점점 향상됩니다. 따라서 MoE 모델은 각 프롬프트를 확인하고 모든 토픽을 한꺼번에 마스터하려는 고밀도 모델보다 더 정확해집니다.
- 확장. MoE는 태스크별로 필요한 가중치만 활성화하므로 높은 컴퓨팅 요구를 처리할 수 있습니다. 고밀도 모델과 달리 MoE는 추론할 때마다 수백만 개의 매개 변수를 활성화하지 않습니다. 이런 방식 덕분에 리소스에 막대한 투자를 하지 않고도 인프라를 확장할 수 있습니다.
Mixture of Experts(MoE)의 과제
MoE 미세 조정(fine-tuning)
전통적인 미세 조정(fine-tuning)은 까다롭습니다. 수십 억 개의 매개 변수를 업데이트하면 과적합이 발생할 수 있고, 모델이 일반적인 패턴을 학습하는 대신 특정 데이터를 기억하는 경우가 있기 때문입니다. 하지만 MoE는 고유한 문제가 있습니다. 바로 라우팅 불안정성입니다.
MoE 모델은 gating network가 전문 모델에 정보를 전송해야 하는 방식입니다. 만약 gating network가 엉뚱한 전문가에게 새 데이터를 전송하거나 특정 전문가가 과도하게 사용된다면 모델에는 다음과 같은 상황이 발생할 수 있습니다.
- 전문가 붕괴: 모델이 특화된 다양성을 잃는 일입니다.
- 모델 학습 중 기존 지식 손실: 전문가가 원래 가지고 있던 전문적인 지식을 잃는 일입니다.
기존 지식 기반을 잃거나 훼손하지 않으면서 새 데이터를 학습하는 것이 중요한 기술적 장애입니다.
MoE 부하 분산
MoE 모델에서 전문가는 주로 gating network가 전송하는 토큰을 통해 학습합니다. 이는 '부익부' 현상을 발생시키는데 이를 전문가 불균형(expert imbalance)이라고 합니다. 즉, gating network가 초기에 성공적인 전문가를 식별하면 해당 전문가는 조금 더 스마트해지므로 gating network가 다시 선택할 가능성이 더 상승하는 것입니다. 개입이 없다면 소수의 전문가는 과부하되고 나머지는 학습이 부족하거나 과소 활용되는 상태로 머무르게 됩니다.
하지만 대부분의 현대적인 MoE 구현에는 이러한 문제를 방지하기 위한 부하 분산 손실과 라우팅 전략이 포함됩니다.
MoE 메모리 요구 사항
MoE 모델은 효율적이지만, 많은 스토리지가 필요합니다.
MoE는 많은 매개 변수를 사용하여 특정 토픽에 관해 모델을 학습시킵니다. 희소화를 사용해도 MoE는 네트워크상의 모든 전문가를 구동할 하드웨어가 필요합니다. 항상 사용되지 않더라도 모든 전문가가 공간을 차지할 수밖에 없습니다.
메모리 요구량이 많으면 일반적으로 하드웨어 요구 사항이 증가하고 비용이 높아집니다.
Mixture of Experts(MoE) 학습
MoE를 학습시키는 일은 표준 고밀도 모델을 학습시키는 것보다 복잡합니다. 성공은 gating network와 전문가가 동기화되어 조율하는 것을 학습하는 데 달려 있습니다. 이 두 구성 요소가 협력하는 것을 학습하지 못하면 아키텍처는 태스크를 라우팅하거나 데이터를 효율적으로 처리할 수 없습니다.
입력 라우팅 및 전문가 선택
입력 라우팅은 gating network가 각 프롬프트와 전문가를 정확히 매칭시키기 위해 실시간으로 결정하는 방식입니다.
gating network는 'top-k 전문가'라고 불리는 가장 적합한 전문가를 식별하도록 학습합니다(여기서 “k”는 자리 표시자로서 각 프롬프트에 답변하도록 활성화해야 할 최고 점수 전문가의 수를 나타냄). MoE는 희소화를 사용하므로, 이 숫자는 대체로 1이나 2 등으로 작습니다. 다른 모든 전문가는 0으로 설정되어 무시됩니다.
전문가 학습
제대로 작동하려면 전문가가 동일하게 학습해야 합니다. 여기서 맹점은 gating network가 보내 주는 프롬프트를 통해서만 전문가가 학습할 수 있다는 점입니다.
gating network는 특정 토픽을 학습한 전문가들이 누구인지 식별하게 되면, 해당 프롬프트를 그에 맞게 라우팅하는 법을 학습합니다. 지속해서 과학 질문에 올바르게 답변하는 전문가가 있으면, gating network는 이후 생물학, 화학, 물리학 질문을 해당 전문가에게 보내도록 학습합니다. 그러면 해당 전문가는 해당 분야에 집중한 심도 있는 지식을 구축하게 되고 시간이 지남에 따라 복잡한 패턴을 인식하게 됩니다.
게으른 gating network를 방지하는 방법
한 전문가가 다양한 유형의 프롬프트에 답변하는 능력이 매우 좋아지면 gating network는 이 전문가에게 과도하게 많은 입력을 보내기 시작할 수도 있습니다. 그러면 과적합이나 부하 불균형이 발생합니다.
이런 문제를 방지하기 위해 개발자는 부하 분산 손실이라는 보조 페널티를 사용합니다. 부하 분산 손실은 gating network에게 공정성과 분배(distribution)에 관한 규칙을 가르치는 머신 러닝 기술입니다. 한 전문가를 너무 자주 선택하는 것에 대해 페널티를 받은 gating network는 다른 전문가를 시도하도록 학습합니다. 이런 학습을 반복하다 보면 gating network는 워크로드를 분산하고 프롬프트를 여러 전문가에게 분배(distribution)하는 것을 배웁니다.
이 과정에서, 모든 전문가가 고유한 무언가에 특화되어 있으며 특정 분야 토픽에서 지속적으로 데이터와 패턴을 수집한다는 아이디어가 강화됩니다.
전문가 병렬 처리란?
모델과 데이터세트의 규모가 커짐에 따라 저장을 위해 더 많은 GPU가 필요합니다. 전문가 병렬 처리는 리소스를 더 효율적으로 사용하기 위해 하드웨어 전반에서 Mixture of Experts(MoE) 모델 및 아키텍처를 확장합니다.
우선 데이터 병렬 처리를 이해하는 것이 좋습니다. 이 AI 스케일링 전략은 대규모 데이터세트를 범주로 나누고 각 데이터를 별도의 프로세서나 GPU로 분배(distribution)합니다. GPU들은 동시에 함께 작동하여 일관되고 통합된 출력을 제공합니다. 이러한 출력을 gating network가 결합하여 최종 결과를 제공합니다.
전문가 병렬 처리는 이 전략을 적용하여 여러 GPU 전반에서 전문가를 분배(distribution)합니다. 요청이 들어오면 gating network는 가장 관련성 높은 전문가를 호스팅하는 장치에 토큰을 라우팅하며, 이때 해당 전문가가 서로 다른 머신에 위치해 있어도 괜찮습니다. 각 전문가는 동시에 프롬프트를 처리한 후 결과를 결합하여 답변을 제공합니다. 추론 처리를 분할하면 모델은 규모에 맞게 입력을 처리하고 컴퓨팅을 더욱 효율적으로 사용할 수 있습니다.
이 방식은 MoE 모델 아키텍처와는 다릅니다. 하드웨어 전반에서 규모에 맞춰 전문가를 사용하기 때문입니다. 모델 입력을 분배(distribution)하는 것이 아니라, 서로 다른 다수의 GPU에 전문가를 분배하는 것입니다.
MoE는 그룹 프로젝트를 수행하는 것과 같습니다. 교사가 그룹에게 과제를 주면 팀은 팀원의 기술을 기준으로 팀원에게 각 태스크를 위임합니다. 과제에서 각자 맡은 부분을 모두 완료하면 통합된 프로젝트를 제출할 수 있습니다.
전문가 병렬 처리는 기금 마련을 위해 학구 전체가 협력하는 것과 같습니다. 각 학교가 같은 이유로 서로 다른 위치에서 동시에 일합니다. 두 개 학교 이상이 기금 모금에 참여하면 더 짧은 시간 내에 더 많은 자금을 모을 가능성이 높습니다.
전문가 병렬 처리는 MoE 아키텍처가 겪는 부하 분산 과제를 경험할 수 있습니다. gating network가 동일 GPU에 위치한 전문가에게 너무 많은 토큰을 라우팅하면 활용이 한쪽으로 치우치고 병목이 발생할 수 있습니다. GPU를 모니터링하여 한 전문가가 나머지 전문가들보다 많이 일하고 있지 않은지 확인해야 합니다.
Mixture of Experts(MoE) 활용 사례
AI 엔지니어, 모델 개발자, 클라우드 서비스 공급업체가 MoE를 사용합니다. 머신 러닝 및 엔터프라이즈 AI 팀에서 많이 사용됩니다.
MoE는 일반적으로 다음과 같은 경우에 유용합니다.
- 요청당 컴퓨팅 용량을 크게 늘리지 않으면서 모델 용량을 증대하려 합니다.
- 모델 내의 각 부분이 서로 다른 패턴을 학습하도록 하는 전문화가 문제 해결에 이점을 줍니다.
- 높은 처리량, 대규모 시나리오에서 더 많은 컴퓨팅이나 여러 머신이 필요합니다.
- 고정된 컴퓨팅 예산을 학습이나 추론 과정에 효율적으로 사용해야 합니다.
MoE는 다음과 같은 시나리오의 토픽에서 특히 강점을 발휘할 수 있습니다.
자연어 처리(Natural Language Processing, NLP): MoE는 긴 문서를 요약하고, 문구에 긍정적 또는 부정적 감정을 나타내고, 자동화된 가상 어시스턴트 및 챗봇에 대한 인사이트를 생성하는 프롬프트와 관련하여 NLP에 도움을 줄 수 있습니다.
예를 들어 챗봇 어시스턴트는 MoE 아키텍처를 사용하여 다른 언어로 된 질문을 특정 언어를 학습한 전문가에게 전달할 수 있습니다.
컴퓨터 비전: MoE는 인간과 같은 방식으로 이미지를 이해하기 위해 딥러닝 기술을 사용할 수 있습니다. 여기에는 얼굴 인식, 이미지 분류 등이 포함됩니다.
예를 들어 AI 지원 의료 영상에 MoE를 활용하면 엑스레이, MRI, CT 스캔 등 다양한 유형의 이미지를 효과적으로 식별할 수 있습니다. 여러 전문가가 골절이나 종양 같은 이상 상태를 식별하는 데 특화되었을 수 있습니다.
추천 시스템: MoE는 과거 행동과 컨텍스트를 분석하여 사용자 선호도를 예측할 수 있습니다.
예를 들어 Netflix나 Spotify 같은 스트리밍 플랫폼은 사용자의 행동을 분석해 선호도를 예측합니다. 사용자가 로그인하면 사용자가 가장 좋아할 만한 콘텐츠를 즉시 제안합니다. MoE는 이러한 추세를 더 빠르고 더 정확하게 파악하는 데 강점을 발휘합니다.
고밀도 모델도 위와 같은 활용 사례를 모두 처리할 수 있습니다. 하지만 처리 속도나 전문 토픽 학습 정도는 낮을 수 있다는 점을 기억하시기 바랍니다. MoE의 장점은 빠르고 정확하게 도움을 줄 수 있다는 점입니다.
Mixture of Experts(MoE)와 오픈소스
Mixture of Experts(MoE)는 대부분의 오픈소스 모델에 많이 사용되는 전략입니다. 2025년에 릴리스된 오픈소스 AI 모델의 60% 이상이 MoE를 도입했습니다.1 이는 MoE의 가치에 대한 업계의 관심과 이해를 보여줍니다.
일부 오픈소스 MoE는 다음을 포함합니다.
- Mixtral 8x7B
- OLMoE
- DBRX
- OpenMoE
MoE는 더 많은 컴퓨팅을 처리하기 위해 모델 규모를 늘리는 것이 반드시 최상의 전략은 아니라는 점을 입증했습니다. MoE 오픈소스 모델은 고밀도 모델에 비해 더 신속하게 전문 토픽을 학습하는 능력 덕분에 높은 지능 수준에 더 빠르게 도달합니다.
Red Hat의 지원 방식
Red Hat® AI는 vLLM 기반 서버로 신속하고 유연하며 효율적인 추론 성능을 제공합니다. 모델과 데이터를 안정적으로 연결하여 하나의 플랫폼에서 전문 에이전트의 사용자 지정 및 개발을 통합합니다. 오픈소스 기반의 당사 제품으로 규모와 상관없이 AI 워크플로우의 모든 과정을 완전히 제어할 수 있습니다.
Red Hat AI Portfolio에는 Red Hat AI Inference Server라는 추론 스택이 있습니다. 하이브리드 클라우드의 어떤 가속기에서든 모델을 실행하도록 운영 제어를 제공합니다. Red Hat AI가 기업 규모에 맞게 빠르고 효율적이며 비용 효율적인 추론을 구현하도록 지원하는 방법을 알아보세요.
1Koparkar, Shruti. “Mixture of Experts Powers the Most Intelligent Frontier AI Models, Runs 10x Faster to Deliver 1/10 the Token Cost on NVIDIA Blackwell NVL72.” NVIDIA 블로그, 2025년 12월 3일
Artificial Intelligence (AI)
See how our platforms free customers to run AI workloads and models anywhere