什么是参数高效微调（PEFT）？

Published 2025 年 2 月 18 日•7 分钟阅读

大语言模型（LLM）的运作需要耗费计算资源与资金。参数高效微调（PEFT）是指利用一组技术来仅对 LLM 中的部分参数进行调整，从而实现资源节省。

PEFT 不仅使 LLM 定制变得更加简便易行，还能生成与传统微调模型相当的输出结果。

探索红帽 AI

微调和 PEFT 均为 LLM 对齐技术。它们都利用您提供的数据来调整和引导 LLM，使其生成您期望的结果。可以说，PEFT 是传统微调技术的演进形式。

传统微调通过进一步训练整个 LLM 来对模型进行调整。这一过程需要耗费大量的计算资源、数据以及时间。

相比之下，PEFT 仅修改模型中的一小部分参数，因此对于资源有限的企业组织而言，通常更易于实施。

PEFT 的优势在于能够以更少的硬件资源、更快的速度训练大型模型。

具体而言，PEFT 的优势包括：

训练速度更快：由于仅需更新少量参数，PEFT 可以加快实验和迭代速度。
资源高效利用：与传统微调相比，PEFT 占用的 GPU 内存大幅减少，并且可以在消费级硬件上运行。这意味着无需专用服务器，仅用一台笔记本电脑就能训练 LLM。
有效克服灾难性遗忘：灾难性遗忘是指模型在接触新的训练数据时，会遗忘已学到的知识。而 PEFT 可以帮助模型避免灾难性遗忘，因为它仅更新少量参数，而非整个模型。
可移植性更强：经 PEFT 调优的模型体积更小、更易于管理，且能更便捷地跨平台部署。这使得模型在运维环境中更易于更新与优化。
可持续发展：PEFT 消耗的计算资源更少，符合环保运维目标。
可及性更高：即便计算资源有限的团队或企业组织，也能对模型进行微调，并仍能获得理想的效果。

什么是企业 AI？

LLM 由多个神经网络层构成。可以将这些层想象成一种流程图，从输入层开始，到输出层结束。在两层之间，还嵌套着众多其他层，每一层都在数据流经神经网络的过程中发挥着处理数据的作用。

如果要调整语言模型处理信息的方式，只需修改其参数即可。

PEFT 技术：如何利用 GPU 优化 LLM

LLM 中的参数是什么？

参数（有时称为权重）决定了 LLM 对语言的理解能力。

可以将参数想象成机器内的可调节齿轮。每个参数都有一个特定的数值，其变化会影响模型解读和生成语言的能力。

一个 LLM 可能包含数十亿（甚至数千亿）个参数。模型拥有的参数越多，它能执行的任务就越复杂。

然而，随着模型中参数数量的增加，对硬件资源的需求也随之上升。一些企业组织可能无力投资满足这些硬件需求，这也是 PEFT 等调优技术如此重要的原因。

要提高模型效率，可了解如何在保持准确性的同时，剔除不必要的参数。

高效微调参数

PEFT 会在保持预训练模型主体结构不变的前提下，仅策略性地修改少量参数。实现这些调整的常见方法包括：

冻结模型层：在推理过程中，计算会遍历神经网络的所有层。通过冻结其中一些层，可以减少执行计算所需的处理能力。

添加适配器：适配器如同棋盘游戏的扩展包。可将适配器添加到预训练模型中的各层之上，并对其进行训练以学习特定领域或应用场景的信息。在此过程中，原始模型的结构保持不变，却能由此获得新的能力。

有多种方法可用于执行 PEFT，包括：

LoRA（低秩自适应）
QLoRA（量化低秩自适应）
前缀调优
提示调优
P 调优

了解 LoRA 与 QLoRA 的区别

vLLM 是该领域的领先工具。vLLM 是一种节省内存的推理服务器和引擎，旨在提升混合云环境中大语言模型的运行速度和处理能力。vLLM 支持 PEFT（特别是支持服务多个 LoRA 适配器），通过允许一个基础模型持续驻留于 GPU 内存中，从而实现效率显著提升。

使用 vLLM 服务 PEFT，这样可使一个模型同时支持多个经过微调的版本。换言之，PEFT 创建小型文件，而 vLLM 通过共享和分发来自单个底层模型的内存资源（如键值（KV）缓存），优化这些文件的服务。

了解有关 vLLM 的更多信息

微调是一种向 LLM 传达意图的方式，它能让模型根据您的目标定制输出内容。

可以这样理解：一个 LLM 或许能以莎士比亚的风格撰写电子邮件，但它对贵公司产品的具体细节却一无所知。

要使用您的独特信息来训练模型，便可采用微调技术。

微调是指利用更具针对性的数据集对经过预先训练的模型进一步训练的过程，这样可以使模型能够有效执行特定任务。这些额外的训练数据会修改模型的参数，并创建一个新版本来替换原始模型。

对于将 LLM 个性化适配到特定领域的用例而言，微调至关重要。然而，传统微调方式成本高昂。

为何微调成本高昂？

导致 LLM 微调成本高昂的因素主要有以下几点：

GPU 需求：微调过程需要消耗大量算力。图形处理单元（GPU）的购置和运维成本高昂，并且在微调过程中需要长时间运行。此外，随之产生的能耗与散热成本也不容忽视。
数据需求：为使 LLM 学习新信息，所使用的微调数据集必须质量优异且标注精准。而获取、构建以及预处理这类数据的过程，往往既耗费资金又耗时费力。

LLM 对齐是指通过训练和个性化调整，使语言模型生成符合您需求的输出结果。

在权衡不同的 LLM 对齐技术时，需考虑以下因素：

数据依赖性：需要多少数据？您是否有权访问使这项技术有效运行所需的数据？
准确性：这项技术会在多大程度上提升模型调优后的输出准确性？
用户易用性：该技术是否易于使用？

与传统的微调相比，PEFT 所需的数据更少，准确率极高且用户体验更加友好。

另一个值得探索的 LLM 对齐方案是检索增强生成（RAG）。RAG 可以用您选择的外部知识源（例如数据存储库、文本集合和既有文档）来补充 LLM 中的数据。尽管 RAG 对外部数据的依赖性较强，但准确率较高，使用起来也不如微调复杂。

了解 RAG 与微调的对比。

参数高效微调是红帽® OpenShift® AI 支持的多种对齐技术之一。

OpenShift AI 是一个灵活且可扩展的 MLOps 平台，其配备的工具可用于构建、部署和管理依托 AI 的应用。OpenShift AI 可为本地环境和公共云中的 AI/ML 实验和模型提供覆盖整个生命周期的支持。

了解红帽 OpenShift AI

红帽® AI 是一系列产品与服务的组合，能够在您企业 AI 旅程的任何阶段提供帮助，无论您是刚刚起步，还是准备在混合云环境中进行扩展。针对您企业独特的用例，它既能支持生成式 AI，也能支持预测性 AI 相关工作。

红帽 AI 依托开源技术和广泛的合作伙伴生态系统，致力于在各类基础架构上实现卓越的性能、稳定性以及 GPU 支持。它能对小型、专用的模型进行高效微调，并且可灵活地在数据所在的任何位置进行部署。

扩展阅读

什么是可解释 AI？

可解释 AI（XAI）是指一组应用于机器学习（ML）生命周期的技术，旨在使 AI 的输出结果对人类而言更易于理解、更具透明度。

什么是分布式推理？

分布式推理通过将推理任务分配给一组互联设备，从而使 AI 模型更高效地处理工作负载。

什么是模型上下文协议（MCP）？

了解模型上下文协议（MCP）如何将 AI 应用连接到外部数据源，助您构建更加智能的工作流。

什么是参数高效微调（PEFT）？

红帽 AI

LLM 中的参数是什么？

高效微调参数

为何微调成本高昂？

开启企业 AI 之旅：新手指南

红帽 OpenShift AI

扩展阅读

什么是可解释 AI？

什么是分布式推理？

什么是模型上下文协议（MCP）？

AI/ML 相关资源

平台

工具

试用购买与出售

联系我们

关于红帽

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links