什么是混合专家模型(MoE)?
混合专家模型(MoE)是一种模型架构技术,通过将任务路由至模型中最适配的模块,来提升 AI 推理速度。
MoE 模型经过专门训练,能够快速且准确地回答特定子类别的问题。
不妨这样理解:假如您是一名学生,遇到了一道人体解剖学的问题,您会挨个去问每个教授,直至得到答案吗?还是会直接去找生物学教授?您很可能会直接去找生物学教授,这其实就类似于“混合专家”的工作方式——系统会优先选择最匹配的“专家”来处理任务。
为什么呢?因为您希望尽快得到正确答案。
尽管每位教授在各自的专业领域都学识渊博,但您知道在人体解剖学方面,找生物学教授绝对没错。所以您会直接向他请教,而不是绕道去英语系。
混合专家模型运用的正是这一逻辑。
混合专家模型(MoE)是如何运作的?
AI 模型在进行推理时,需要在短时间内完成大量计算。随着模型规模不断扩大,其复杂度也随之上升,从而拖慢推理速度。模型规模、高并发用户访问和延迟等因素都可能会限制性能表现。
为了克服这些挑战,混合专家模型构建了一种神经网络,能够在大规模场景下实现更快的推理。
MoE 如何运用深度学习?
深度学习是一种让计算机能够像人类一样,通过观察数据不断学习与理解规律的 AI 技术。
模型的运行和持续学习主要依赖两个关键能力:
- 迁移学习是指模型能够将一个场景中学到的知识迁移到另一个场景,并在已有知识基础上不断扩展理解能力。许多基础模型包含数百个经过深度学习预训练的神经网络层,因此能够识别数据中的关系与模式。
- 规模化主要指硬件层面,尤其是图形处理单元(GPU),它使模型能够同时执行多项计算。
MoE 融合深度学习训练与迁移学习,以识别提示中的规律和子类别。随后,MoE 模型能够快速匹配最合适的“专家”来回答输入的问题。同时,MoE 借助 GPU 进行扩展,加速从提示输入到答案输出的整个流程。
MoE 如何运用神经网络?
神经网络是深度学习的底层架构,由多层负责解读数据的神经元构成。
在传统架构中,每一层都会解读传入的数据并将其发送给下一层,如此层层递进,直至数据到达能够响应提示的神经元。这类通常较为密集的神经网络称为前馈网络(FFN)。
FFN 中的数据始终单向流动,并依次经过输入层、隐藏层与输出层。在数据从输入层流向输出层的过程中,隐藏层会学习每个输入的规律与趋势,从而得出最终结果。
而与 FFN 不同,MoE 可以通过多条路径来生成输出。当 MoE 识别出合适的专家后,会缩短通往最终结果的处理路径,同时扩展模型的容量。正因如此,模型能够在不额外增加内存、算力或时间开销的情况下,学习新信息并识别规律。
为了屏蔽其他并行计算带来的干扰,MoE 还引入了稀疏化技术。
MoE 如何运用稀疏化技术?
稀疏化技术是指通过减少使用的权重,来帮助神经网络节省内存。
权重(weight)是指导模型采取何种行动的计算参数。系统会根据不同的提示,为各权重的重要性进行评估,从而将任务分配给最合适的“专家”。但并不是每个提示都需要用到所有权重。稀疏化技术能够识别出真正必要的权重,并忽略无关紧要的权重。
从技术角度讲,被忽略的权重通常会被设置为 0。当模型识别到 0 时,便会跳过相关计算(因为任何数乘以 0 都等于 0)。这样一来,各专家模块只需专注于关键权重即可。
随着不必要的权重被隐藏,模型将拥有更多内存,运行速度也会更快。不过,其中最关键、也最困难的部分,在于如何在提升速度的同时,尽量避免模型准确率与性能下降。
实施 AI 技术的 4 个关键注意事项
MoE 架构解析
大多数基础模型都采用一种名为 Transformer 的神经网络。这种架构有助于模型捕捉数据序列中的上下文关系和依赖项。开发人员通常会以 MoE 架构替代密集架构,以提升模型运行效率。
MoE 主要由两部分组成:稀疏神经网络层和门控网络。
神经网络中的 MoE 稀疏模型相比密集层具有更少的连接。
为实现稀疏化,这些模型仅执行必要的计算,而非全部运算。由于连接数量更少,神经网络能够节省更多内存,并提升运行速度。
稠密层的运行方式类似于一个打开了数十个窗口的 Web 浏览器。虽然很多标签页一直开着,却根本没有被使用,但浏览器仍需要持续处理这些页面产生的各种信号。这会占用大量内存,并导致您真正需要使用的标签页运行缓慢。
而稀疏层会忽略神经网络中不必要的连接,从而使需要的连接能够尽可能快速地运行。沿用浏览器的类比:稀疏层能够识别出哪些打开的标签页可以忽略,以及哪个标签页需要流畅运行。
MoE 门控网络或路由器会分析每个提示,并将其路由至能力最匹配的专家。这使得 MoE 能够通过多条路径得出结果。
门控网络会利用预训练参数,对每个专家的处理能力进行评分,并针对每个请求筛选出最优专家。这种筛选机制就是稀疏化的核心:只有被选中的专家会被激活,其余专家则会被跳过。由此,模型便可将算力集中于最重要的任务。
专家获得各自的评分后,门控网络便会据此分配给对应专家处理。
例如,当用户要求 AI 创作一个原创童话故事时,路由器会识别出某位在创意写作方面得分较高的专家,而医学、营销或工程领域的专家则会获得较低评分。于是,门控网络会选择并激活最相关的专家,同时跳过其他专家。经过此类训练,门控网络能够知道:对于这个提示,创意写作专家最有可能生成最佳结果。
MoE 架构支持多个专业化模型协同工作。因此,路由器很多时候并不只会选择一位专家,而是会同时识别多位能够高效完成任务的专家。在各专家完成任务后,门控网络会收集所有结果,并将它们整合成完整、连贯的最终答案。
混合专家模型的优势
混合专家模型有助于模型以更少的资源实现更快的运行速度,并具有以下优势:
- 速度快:就像那位学生通过直接去找生物教授而节省了大量时间和精力一样,MoE 模型会忽略不必要的数据并直接找到适配的专家,进而节省大量时间和资源。这意味着相较于需针对每个提示处理全部数据集的稠密模型,MoE 模型通常具有更高效率。
- 专业性强: 随着处理的提示任务越来越多,MoE 在特定领域的规律识别和数据理解能力会不断提升。这使得 MoE 模型比稠密模型更加精准,因为稠密模型在面对每个提示时,会试图一次性掌握所有主题。
- 可扩展性高。 MoE 模型只会为当前任务激活必要权重,因此能够更好地应对高计算需求。与稠密模型不同,MoE 不需要在每次推理过程中都调动数百万参数。这样一来,企业无需投入大量资源,也能够实施基础架构规模扩展。
混合专家模型面临的挑战
微调 MoE
传统的微调工作颇具挑战性,因为更新数十亿个参数可能会导致过拟合,即模型记住特定数据而非学习普遍规律。然而,MoE 还面临一个独特的挑战:路由不稳定性。
MoE 模型依赖于门控网络将信息发送给特定专家模块。但如果门控网络将新数据发送给了错误的专家模块,或者某些模块被过度使用,模型可能会遇到以下问题:
- 专家坍塌:模型丧失其专业多样性。
- 灾难性遗忘:专家丧失其原本的专业知识。
在不丢失或破坏当前知识体系的前提下学习新数据,可能是一个重大的技术障碍。
实现 MoE 负载均衡
在 MoE 模型中,专家模块主要从门控网络发送的词元中进行学习。这就形成了一种“强者愈强”的循环,称为专家失衡:如果门控网络在早期识别出一位成功的专家,该专家会变得稍显“聪明”,从而使门控网络更倾向于再次选择它。如果不加以干预,少数专家模块将不堪重负,而其余则会处于训练不足或利用不足的状态。
不过,大多数现代 MoE 实现都包含负载均衡损失函数和路由策略,以防止这种情况发生。
MoE 的内存需求
MoE 模型虽然高效,但需要大量的存储空间。
MoE 会使用大量参数,针对特定主题分别训练各个模型。尽管采用了稀疏化机制,MoE 仍然需要为其网络中的所有专家模块配备硬件资源。这类专家模块并非始终处于激活使用状态,但仍会持续占用存储空间。
而较高的内存需求通常会导致硬件需求增加,从而推高成本。
训练混合专家模型
训练 MoE 比训练标准的稠密模型更为复杂。其成功与否取决于门控网络与各专家模块能否学会同步协调配合。如果这两个组成部分无法协同工作,整个架构就无法有效地路由任务或处理数据。
输入路由与专家选择
输入路由机制是门控网络通过实时决策,将每个提示精准分配至对应专家模块的过程。
门控网络经过训练,能够识别出最符合条件的专家,这些专家被称为“top-k 专家”(其中,“k” 表示:为了回答当前提示,需要激活的高评分专家数量)。由于 MoE 采用稀疏化机制,该数值通常较小,一般为 1 或 2。其余所有专家均设为 0 并被忽略。
专家培训
为实现高效运作,各专家需要得到同等训练。但问题在于,专家只能通过门控网络发送的提示来进行学习。
随着系统逐步识别出各专家擅长的特定领域,门控网络也会相应调整提示的路由策略。如果一个专家总能准确回答科学问题,门控网络就会学会向其发送更多关于生物学、化学和物理学的问题。这有助于这些专家随着时间的推移,积累深厚的细分领域专业知识,并识别出复杂的规律。
如何避免门控网络“偏心”
如果某个专家非常擅长相应不同类型的提示,门控网络便可能向其分配过多输入任务,进而引发过拟合或负载失衡问题。
为了防止这种情况,开发人员会采用负载均衡损失,或辅助惩罚机制。这是一种机器学习技术,旨在指导门控网络关于公平性和分发的规则。当门控网络因过于频繁地选择同一个专家而受到惩罚时,它就会学着去尝试其他专家。随着时间的推移,门控网络便学会平衡工作负载,并将提示合理分发至各个专家。
久而久之,系统就能更均衡地分配工作负载,并让不同专家持续强化各自擅长的领域。
什么是专家并行?
随着模型与数据集规模不断扩大,所需的 GPU 存储资源也随之增加。专家并行可实现混合专家模型及架构的跨硬件扩展,从而更高效地利用资源。
首先,理解数据并行会有所帮助。这种 AI 扩展策略将大型数据集划分为不同类别,并将每条数据分配给独立的处理器或 GPU。这些 GPU 同时并行工作,生成一致且连贯的输出结果。随后,门控网络将这些输出整合在一起,得出最终结果。
专家并行借鉴这一策略,将专家分布到多个 GPU 上。当收到请求时,门控网络会将词元路由到托管最相关专家的设备上,即使它们分布在不同的机器上。每个专家同时处理提示,随后将各自的结果合并以生成答案。通过拆分推理过程,模型能够在大规模场景下更高效地处理输入并利用计算资源。
这与 MoE 模型架构不同,因为它是在大规模场景下跨硬件使用专家模块。它并不分发模型输入,而是在将专家分布到许多不同的 GPU 上。
MoE 就像开展小组项目。老师给小组布置一项作业,团队根据成员的技能,将各项任务分配给不同的人员。当每个人都完成自己负责的部分后,便可以呈现一个完整的项目成果。
专家并行有点像整个学区的学校一起参与募款活动。不同学校会在不同地点同时展开行动,但目标是相同的。当多所学校同时参与募款时,通常能够在更短时间内筹集到更多资金。
专家并行也可能面临与 MoE 同样的挑战:负载均衡。当门控网络将过多的词元路由到同一 GPU 上的专家时,利用率就会变得不均,从而形成潜在的性能瓶颈。因此,必须监控各 GPU 的使用情况,避免单个 GPU 承担过重压力。
混合专家模型用例
AI 工程师、模型开发人员以及云服务提供商都在使用 MoE。这类模型在机器学习团队和企业级 AI 团队中广受欢迎。
MoE 通常适用于以下场景:
- 希望在不显著增加单次请求计算开销的情况下,提升模型容量。
- 当前任务适合专业化处理,即模型不同部分能够分别学习不同模式与任务特征。
- 面向大规模、高吞吐场景,需要更多算力资源或多机协同运行。
- 需要在训练或推理过程中,高效地利用固定算力预算。
MoE 在以下场景中表现尤为出色:
自然语言处理(NLP): MoE 可以支持 NLP 任务,如总结长篇文档、判断评论中的正面或负面情绪,以及为自动化虚拟助手和聊天机器人生成见解。
例如,聊天机器人助手可以利用 MoE 架构,将其他语种的提问直接引导至接受过特定人类语言训练的专家。
计算机视觉: MoE 可以使用深度学习技术,以接近人类认知的方式理解图像,涵盖人脸识别、图像分类等任务。
例如,MoE 可以帮助 AI 辅助医学影像识别不同类型的图像,如 X 光、MRI 和 CT 扫描。不同专家可能各自专精于检测骨折、肿瘤等异常病灶。
推荐系统: MoE 可以通过分析用户的历史行为和上下文信息来预测用户偏好。
例如,Netflix 和 Spotify 等流媒体平台会分析您的行为并预测您的喜好。每当您登录,这些服务会立刻呈现您最有可能感兴趣的内容。MoE 能够更快速、更准确地识别这些趋势。
请记住,稠密模型同样可以处理所有这些应用场景,但它们可能运行速度不够快,或者在专业化主题方面的训练程度不够高。MoE 的优势在于能够提供快速且精准的帮助。
混合专家模型与开源
混合专家模型已成为大多数开源模型广泛采用的策略。2025 年发布的开源 AI 模型中,超过 60% 都采用了 MoE 架构,1 这表明业界对其价值的关注和认可。
一些开源 MoE 包括:
- Mixtral 8x7B
- OLMoE
- DBRX
- OpenMoE
MoE 已经证明:单纯通过构建更大的模型、投入更多算力,并不一定是提升 AI 能力的最佳策略。MoE 开源模型之所以能更快地达到更高的智能水平,是因为它们比稠密模型更擅长快速学习特定领域的专业知识。
红帽能如何提供帮助
红帽® AI 旨在通过 vLLM 驱动的服务器实现快速、灵活且高效的推理。它能将模型与企业数据可靠地连接起来,在单一平台上统一实现专用代理的定制与开发。依托开源基础架构,红帽的产品能够帮助企业在任意规模下,对 AI 工作流实现端到端的全面掌控。
此外,红帽 AI 产品组合中的红帽 AI 推理服务器,是一套支持在混合云环境中、基于任意加速器运行任意模型的推理栈,可帮助企业获得统一的运维控制能力。了解红帽 AI 如何帮助企业实现快速、高效且具有成本效益的大规模推理。
1Koparkar、Shruti。“Mixture of Experts Powers the Most Intelligent Frontier AI Models, Runs 10x Faster to Deliver 1/10 the Token Cost on NVIDIA Blackwell NVL72(混合专家模型赋能前沿智能 AI 模型,在 NVIDIA Blackwell NVL72 上实现 10 倍推理加速,同时将单个词元处理成本降低至 1/10)”。 英伟达博客,2025 年 12 月 3 日。
Artificial Intelligence (AI)
See how our platforms free customers to run AI workloads and models anywhere