什么是混合专家模型(MoE)?

复制 URL

混合专家模型(MoE)是一种模型架构技术,通过将任务路由至模型中最适配的模块,来提升 AI 推理速度。 

MoE 模型经过专门训练,能够快速且准确地回答特定子类别的问题。 

为什么要关注推理

不妨这样理解:假如您是一名学生,遇到了一道人体解剖学的问题,您会挨个去问每个教授,直至得到答案吗?还是会直接去找生物学教授?您很可能会直接去找生物学教授,这其实就类似于“混合专家”的工作方式——系统会优先选择最匹配的“专家”来处理任务。 

为什么呢?因为您希望尽快得到正确答案。

尽管每位教授在各自的专业领域都学识渊博,但您知道在人体解剖学方面,找生物学教授绝对没错。所以您会直接向他请教,而不是绕道去英语系。 

混合专家模型运用的正是这一逻辑。 

想进一步了解 MoE 如何实现规模化智能?欢迎阅读相关博客文章

AI 模型在进行推理时,需要在短时间内完成大量计算。随着模型规模不断扩大,其复杂度也随之上升,从而拖慢推理速度。模型规模、高并发用户访问和延迟等因素都可能会限制性能表现。 

为了克服这些挑战,混合专家模型构建了一种神经网络,能够在大规模场景下实现更快的推理。 

 

MoE 如何运用深度学习? 

深度学习是一种让计算机能够像人类一样,通过观察数据不断学习与理解规律的 AI 技术。

模型的运行和持续学习主要依赖两个关键能力: 

  • 迁移学习是指模型能够将一个场景中学到的知识迁移到另一个场景,并在已有知识基础上不断扩展理解能力。许多基础模型包含数百个经过深度学习预训练的神经网络层,因此能够识别数据中的关系与模式。
  • 规模化主要指硬件层面,尤其是图形处理单元(GPU),它使模型能够同时执行多项计算。 

MoE 融合深度学习训练与迁移学习,以识别提示中的规律和子类别。随后,MoE 模型能够快速匹配最合适的“专家”来回答输入的问题。同时,MoE 借助 GPU 进行扩展,加速从提示输入到答案输出的整个流程。 

进一步了解基础模型

 

MoE 如何运用神经网络? 

神经网络是深度学习的底层架构,由多层负责解读数据的神经元构成。 

在传统架构中,每一层都会解读传入的数据并将其发送给下一层,如此层层递进,直至数据到达能够响应提示的神经元。这类通常较为密集的神经网络称为前馈网络(FFN)。 

FFN 中的数据始终单向流动,并依次经过输入层、隐藏层与输出层。在数据从输入层流向输出层的过程中,隐藏层会学习每个输入的规律与趋势,从而得出最终结果。 

而与 FFN 不同,MoE 可以通过多条路径来生成输出。当 MoE 识别出合适的专家后,会缩短通往最终结果的处理路径,同时扩展模型的容量。正因如此,模型能够在不额外增加内存、算力或时间开销的情况下,学习新信息并识别规律。 

为了屏蔽其他并行计算带来的干扰,MoE 还引入了稀疏化技术。

 

MoE 如何运用稀疏化技术?

稀疏化技术是指通过减少使用的权重,来帮助神经网络节省内存。 

权重(weight)是指导模型采取何种行动的计算参数。系统会根据不同的提示,为各权重的重要性进行评估,从而将任务分配给最合适的“专家”。但并不是每个提示都需要用到所有权重。稀疏化技术能够识别出真正必要的权重,并忽略无关紧要的权重。 

从技术角度讲,被忽略的权重通常会被设置为 0。当模型识别到 0 时,便会跳过相关计算(因为任何数乘以 0 都等于 0)。这样一来,各专家模块只需专注于关键权重即可。

随着不必要的权重被隐藏,模型将拥有更多内存,运行速度也会更快。不过,其中最关键、也最困难的部分,在于如何在提升速度的同时,尽量避免模型准确率与性能下降。

探索更多优化推理的方法

实施 AI 技术的 4 个关键注意事项

大多数基础模型都采用一种名为 Transformer 的神经网络。这种架构有助于模型捕捉数据序列中的上下文关系和依赖项。开发人员通常会以 MoE 架构替代密集架构,以提升模型运行效率。

MoE 主要由两部分组成:稀疏神经网络层和门控网络。 

  • 神经网络中的 MoE 稀疏模型相比密集层具有更少的连接。 

    为实现稀疏化,这些模型仅执行必要的计算,而非全部运算。由于连接数量更少,神经网络能够节省更多内存,并提升运行速度。 

    稠密层的运行方式类似于一个打开了数十个窗口的 Web 浏览器。虽然很多标签页一直开着,却根本没有被使用,但浏览器仍需要持续处理这些页面产生的各种信号。这会占用大量内存,并导致您真正需要使用的标签页运行缓慢。 

    而稀疏层会忽略神经网络中不必要的连接,从而使需要的连接能够尽可能快速地运行。沿用浏览器的类比:稀疏层能够识别出哪些打开的标签页可以忽略,以及哪个标签页需要流畅运行。

     

  • MoE 门控网络或路由器会分析每个提示,并将其路由至能力最匹配的专家。这使得 MoE 能够通过多条路径得出结果。

    门控网络会利用预训练参数,对每个专家的处理能力进行评分,并针对每个请求筛选出最优专家。这种筛选机制就是稀疏化的核心:只有被选中的专家会被激活,其余专家则会被跳过。由此,模型便可将算力集中于最重要的任务。 

    专家获得各自的评分后,门控网络便会据此分配给对应专家处理。

    例如,当用户要求 AI 创作一个原创童话故事时,路由器会识别出某位在创意写作方面得分较高的专家,而医学、营销或工程领域的专家则会获得较低评分。于是,门控网络会选择并激活最相关的专家,同时跳过其他专家。经过此类训练,门控网络能够知道:对于这个提示,创意写作专家最有可能生成最佳结果。 

MoE 架构支持多个专业化模型协同工作。因此,路由器很多时候并不只会选择一位专家,而是会同时识别多位能够高效完成任务的专家。在各专家完成任务后,门控网络会收集所有结果,并将它们整合成完整、连贯的最终答案。

进一步了解 AI 基础架构

混合专家模型有助于模型以更少的资源实现更快的运行速度,并具有以下优势:

  • 速度快:就像那位学生通过直接去找生物教授而节省了大量时间和精力一样,MoE 模型会忽略不必要的数据并直接找到适配的专家,进而节省大量时间和资源。这意味着相较于需针对每个提示处理全部数据集的稠密模型,MoE 模型通常具有更高效率。
  • 专业性强: 随着处理的提示任务越来越多,MoE 在特定领域的规律识别和数据理解能力会不断提升。这使得 MoE 模型比稠密模型更加精准,因为稠密模型在面对每个提示时,会试图一次性掌握所有主题。
  • 可扩展性高。 MoE 模型只会为当前任务激活必要权重,因此能够更好地应对高计算需求。与稠密模型不同,MoE 不需要在每次推理过程中都调动数百万参数。这样一来,企业无需投入大量资源,也能够实施基础架构规模扩展。 

微调 MoE

传统的微调工作颇具挑战性,因为更新数十亿个参数可能会导致过拟合,即模型记住特定数据而非学习普遍规律。然而,MoE 还面临一个独特的挑战:路由不稳定性。

MoE 模型依赖于门控网络将信息发送给特定专家模块。但如果门控网络将新数据发送给了错误的专家模块,或者某些模块被过度使用,模型可能会遇到以下问题: 

  • 专家坍塌:模型丧失其专业多样性。
  • 灾难性遗忘:专家丧失其原本的专业知识。 

在不丢失或破坏当前知识体系的前提下学习新数据,可能是一个重大的技术障碍。

实现 MoE 负载均衡 

在 MoE 模型中,专家模块主要从门控网络发送的词元中进行学习。这就形成了一种“强者愈强”的循环,称为专家失衡:如果门控网络在早期识别出一位成功的专家,该专家会变得稍显“聪明”,从而使门控网络更倾向于再次选择它。如果不加以干预,少数专家模块将不堪重负,而其余则会处于训练不足或利用不足的状态。

不过,大多数现代 MoE 实现都包含负载均衡损失函数和路由策略,以防止这种情况发生。

MoE 的内存需求

MoE 模型虽然高效,但需要大量的存储空间。 

MoE 会使用大量参数,针对特定主题分别训练各个模型。尽管采用了稀疏化机制,MoE 仍然需要为其网络中的所有专家模块配备硬件资源。这类专家模块并非始终处于激活使用状态,但仍会持续占用存储空间。 

而较高的内存需求通常会导致硬件需求增加,从而推高成本。 

训练 MoE 比训练标准的稠密模型更为复杂。其成功与否取决于门控网络与各专家模块能否学会同步协调配合。如果这两个组成部分无法协同工作,整个架构就无法有效地路由任务或处理数据。 

输入路由与专家选择

输入路由机制是门控网络通过实时决策,将每个提示精准分配至对应专家模块的过程。 

门控网络经过训练,能够识别出最符合条件的专家,这些专家被称为“top-k 专家”(其中,“k” 表示:为了回答当前提示,需要激活的高评分专家数量)。由于 MoE 采用稀疏化机制,该数值通常较小,一般为 1 或 2。其余所有专家均设为 0 并被忽略。 

专家培训

为实现高效运作,各专家需要得到同等训练。但问题在于,专家只能通过门控网络发送的提示来进行学习。 

随着系统逐步识别出各专家擅长的特定领域,门控网络也会相应调整提示的路由策略。如果一个专家总能准确回答科学问题,门控网络就会学会向其发送更多关于生物学、化学和物理学的问题。这有助于这些专家随着时间的推移,积累深厚的细分领域专业知识,并识别出复杂的规律。

如何避免门控网络“偏心” 

如果某个专家非常擅长相应不同类型的提示,门控网络便可能向其分配过多输入任务,进而引发过拟合或负载失衡问题。 

为了防止这种情况,开发人员会采用负载均衡损失,或辅助惩罚机制。这是一种机器学习技术,旨在指导门控网络关于公平性和分发的规则。当门控网络因过于频繁地选择同一个专家而受到惩罚时,它就会学着去尝试其他专家。随着时间的推移,门控网络便学会平衡工作负载,并将提示合理分发至各个专家。 

久而久之,系统就能更均衡地分配工作负载,并让不同专家持续强化各自擅长的领域。 

了解 RAG 与微调的基础知识

随着模型与数据集规模不断扩大,所需的 GPU 存储资源也随之增加。专家并行可实现混合专家模型及架构的跨硬件扩展,从而更高效地利用资源。 

首先,理解数据并行会有所帮助。这种 AI 扩展策略将大型数据集划分为不同类别,并将每条数据分配给独立的处理器或 GPU。这些 GPU 同时并行工作,生成一致且连贯的输出结果。随后,门控网络将这些输出整合在一起,得出最终结果。 

专家并行借鉴这一策略,将专家分布到多个 GPU 上。当收到请求时,门控网络会将词元路由到托管最相关专家的设备上,即使它们分布在不同的机器上。每个专家同时处理提示,随后将各自的结果合并以生成答案。通过拆分推理过程,模型能够在大规模场景下更高效地处理输入并利用计算资源。 

这与 MoE 模型架构不同,因为它是在大规模场景下跨硬件使用专家模块。它并不分发模型输入,而是在将专家分布到许多不同的 GPU 上。 

MoE 就像开展小组项目。老师给小组布置一项作业,团队根据成员的技能,将各项任务分配给不同的人员。当每个人都完成自己负责的部分后,便可以呈现一个完整的项目成果。

专家并行有点像整个学区的学校一起参与募款活动。不同学校会在不同地点同时展开行动,但目标是相同的。当多所学校同时参与募款时,通常能够在更短时间内筹集到更多资金。 

专家并行也可能面临与 MoE 同样的挑战:负载均衡。当门控网络将过多的词元路由到同一 GPU 上的专家时,利用率就会变得不均,从而形成潜在的性能瓶颈。因此,必须监控各 GPU 的使用情况,避免单个 GPU 承担过重压力。 

什么是分布式推理?

AI 工程师、模型开发人员以及云服务提供商都在使用 MoE。这类模型在机器学习团队和企业级 AI 团队中广受欢迎。 

MoE 通常适用于以下场景:

  • 希望在不显著增加单次请求计算开销的情况下,提升模型容量。
  • 当前任务适合专业化处理,即模型不同部分能够分别学习不同模式与任务特征。
  • 面向大规模、高吞吐场景,需要更多算力资源或多机协同运行。
  • 需要在训练或推理过程中,高效地利用固定算力预算。

MoE 在以下场景中表现尤为出色: 

  • 自然语言处理(NLP): MoE 可以支持 NLP 任务,如总结长篇文档、判断评论中的正面或负面情绪,以及为自动化虚拟助手和聊天机器人生成见解。 

    例如,聊天机器人助手可以利用 MoE 架构,将其他语种的提问直接引导至接受过特定人类语言训练的专家。 

  • 计算机视觉: MoE 可以使用深度学习技术,以接近人类认知的方式理解图像,涵盖人脸识别、图像分类等任务。 

    例如,MoE 可以帮助 AI 辅助医学影像识别不同类型的图像,如 X 光、MRI 和 CT 扫描。不同专家可能各自专精于检测骨折、肿瘤等异常病灶。 

  • 推荐系统: MoE 可以通过分析用户的历史行为和上下文信息来预测用户偏好。 

    例如,Netflix 和 Spotify 等流媒体平台会分析您的行为并预测您的喜好。每当您登录,这些服务会立刻呈现您最有可能感兴趣的内容。MoE 能够更快速、更准确地识别这些趋势。

请记住,稠密模型同样可以处理所有这些应用场景,但它们可能运行速度不够快,或者在专业化主题方面的训练程度不够高。MoE 的优势在于能够提供快速且精准的帮助。 

如何在整个企业中采用 AI 技术

混合专家模型已成为大多数开源模型广泛采用的策略。2025 年发布的开源 AI 模型中,超过 60% 都采用了 MoE 架构,1 这表明业界对其价值的关注和认可。

一些开源 MoE 包括: 

  • Mixtral 8x7B
  • OLMoE
  • DBRX
  • OpenMoE 

MoE 已经证明:单纯通过构建更大的模型、投入更多算力,并不一定是提升 AI 能力的最佳策略。MoE 开源模型之所以能更快地达到更高的智能水平,是因为它们比稠密模型更擅长快速学习特定领域的专业知识。 

了解小语言模型

红帽® AI 旨在通过 vLLM 驱动的服务器实现快速、灵活且高效的推理。它能将模型与企业数据可靠地连接起来,在单一平台上统一实现专用代理的定制与开发。依托开源基础架构,红帽的产品能够帮助企业在任意规模下,对 AI 工作流实现端到端的全面掌控。 

此外,红帽 AI 产品组合中的红帽 AI 推理服务器,是一套支持在混合云环境中、基于任意加速器运行任意模型的推理栈,可帮助企业获得统一的运维控制能力。了解红帽 AI 如何帮助企业实现快速、高效且具有成本效益的大规模推理。 

进一步了解红帽 AI 推理服务器

 

1Koparkar、Shruti。“Mixture of Experts Powers the Most Intelligent Frontier AI Models, Runs 10x Faster to Deliver 1/10 the Token Cost on NVIDIA Blackwell NVL72(混合专家模型赋能前沿智能 AI 模型,在 NVIDIA Blackwell NVL72 上实现 10 倍推理加速,同时将单个词元处理成本降低至 1/10)”。 英伟达博客,2025 年 12 月 3 日。

博客

Artificial Intelligence (AI)

See how our platforms free customers to run AI workloads and models anywhere

开启企业 AI 之旅:新手指南

此新手指南介绍了红帽 OpenShift AI 和红帽企业 Linux AI 如何加快您的 AI 采用之旅。

扩展阅读

What is AgentOps?

AgentOps(代理运维)是一套工具框架,用于实时监控 AI 在制定决策时的“大脑”运行情况。

What is sovereign AI?

主权 AI 意味着拥有 AI 技术,将数据保留在本地,并确保您的系统能够体现您的独特价值观和法律要求。

What are predictive analytics

预测性分析是一种分析方法,它通过分析当前数据和历史数据,来预测未来可能发生的事件或趋势。

AI/ML 相关资源