什么是 LLMOps?

复制 URL

大语言模型(LLM)是可以理解和生成人类语言的机器学习(ML)模型。 GPT-3、LLaMA 和 Falcon 等 LLM 是工具通过学习数据来生成词语和句子。随着这些工具的不断演进,企业组织需要掌握如何运维这些模型的最佳实践。 而这正好就是 LLMOps 的用武之地。

大语言模型运维(LLMOps)是指一系列用于管理大语言模型的运维方法。通过 LLMOps,可对 LLM 从微调到维护的整个生命周期进行管理并实现自动化,从而帮助开发人员和团队部署、监控和维护 LLM。

探索红帽 AI

如果说 LLM 是 ML 模型的一个子集,那么 LLMOps 同样也是机器学习运维(MLOps)中适用于大语言模型的一个子集。作为一组工作流实践,MLOps 旨在简化 ML 模型的部署和维护过程。MLOps 的目标是建立一个不断发展演进的过程,以便将 ML 模型无缝融入到软件开发流程中。同样,LLMOps 也要不断地试验、迭代、部署和改进 LLM 的开发和部署生命周期。

什么是模型即服务?

LLMOps 和 MLOps 既有相似之处,也有不同之处。具体来说:

学习:传统的 ML 模型都是从头开始创建或训练,但 LLM 是从一个基础模型开始,然后使用数据进行微调,以提高其完成任务的性能。

调优:对于 LLM,微调可以改进模型的性能并提高准确性,使其更加深入地理解某个特定主题的知识。而提示词调优(Prompt Tuning)可以使 LLM 更好地执行特定任务。超参数调优是另一个不同之处。在传统 ML 中,调优侧重于提高准确性。对于 LLM,调优不仅关乎准确性,还有助于减少成本和训练过程中所需的能源消耗。无论是传统 ML 模型还是 LLM,调优过程都有好处,但侧重点各不相同。最后,值得一提的是检索增强生成(RAG),这是指利用外部知识来确保 LLM 能够收集到准确和具体的事实,以生成更好的回答。

反馈:人类反馈强化学习(RLHF)是一种改进 LLM 训练的方法。人类的反馈对 LLM 的性能至关重要。LLM 会使用人类反馈来评估准确性,而传统 ML 模型使用特定的指标来评估准确性。

性能指标:ML 模型具有明确的性能指标,但 LLM 有一套不同的评价指标,例如双语评估辅助(BLEU)和面向会议的摘要评估辅助(ROUGE),这些指标需要更为复杂的评估方法。

进一步了解 MLOps

红帽资源

随着时间的推移,LLMOps 已逐渐成为监控和增强 LLM 性能的首选方式,它有三大突出优势:

效率:LLMOps 使得团队能够更快地开发模型,提升模型质量,并实现快速部署。通过一种更简化的管理方式,团队可以在一个促进沟通、开发和部署的平台上进行更有效的协作。vLLM(一种开源推理服务器,可加速生成式 AI)等工具有助于更高效地使用 GPU。

可扩展性:LLMOps 有助于可扩展性和管理,因为它能够对多个模型进行管理和监控,以实现持续集成和持续交付/部署(CI/CD)。此外,LLMOps 通过改善数据通信和响应,为用户提供了更加迅捷的体验。 

风险降低:LLMOps 提高了透明度,并帮助更好地遵守企业组织和行业的政策。 通过保护敏感信息和防止风险暴露,LLMOps 能够增强安全性并加强隐私保护

了解 vLLM 如何助力三家知名企业组织实现快速扩展。 

探索三个真实用例

下方列出了 LLMOps 的几个用例。

持续集成和交付(CI/CD):CI/CD 旨在简化、加速和自动执行模型开发生命周期。 它减少了获取新代码所需的人工干预,从而缩短了系统停机时间并加快了代码发布速度。Tekton 等工具(红帽 OpenShift Pipelines 即基于该工具构建)通过在多个平台上实现自动化部署,帮助开发人员提高了工作效率。

了解如何实施 AI

数据收集、标记、存储:数据收集过程从多种来源获取准确的信息。数据标注对收集的数据进行分类,而数据存储负责收集和保存与网络关联的数字化信息。

模型微调、推理、监控:模型微调可以优化模型,以执行特定领域的任务。AI 推理是指 AI 模型依据数据提供答案的过程。模型推理可以基于现有知识来管理生产的内容,并基于推理的信息来执行操作。模型监控(包括人类反馈)可以收集和存储有关模型行为的数据,以了解模型如何使用真实的生产数据。

为什么要关注 AI 推理

LLMOps 分为几个阶段,各自都有相应的最佳实践:

探索性数据分析(EDA):通过创建数据集来评估数据,准备机器学习生命周期所需的数据。

  • 数据收集:训练 LLM 的第一步,从不同来源(例如代码库和社交媒体网络)收集数据。
  • 数据清理:收集到数据后,就需要对数据进行检查并为训练做好准备,包括剔除错误、纠正不一致和删除重复数据。
  • 数据探索:接着是探索数据,以更好地了解数据特征,包括识别异常值和发现特定模式。

数据准备和提示词工程:在团队之间共享可访问的数据并为 LLM 开发提示的过程。

  • 数据准备:以各种方式准备用于 LLM 训练的数据,包括综合和总结收集的数据。
  • 提示词工程:创建用于输入文本的提示词,以确保 LLM 生成所需的输出。

模型微调:使用主流的开源库(例如 Hugging Face Transformers)来微调和改进模型性能。

  • 模型训练:在准备好数据后,通过使用机器学习算法来学习数据中的模式,从而训练或微调 LLM。
  • 模型评估:完成训练后,需要使用未曾用于 LLM 训练的测试数据集来评估 LLM 的性能。
  • 模型微调:如果 LLM 表现不佳,可以对其进行微调,包括修改 LLM 的参数来提高其性能。

模型审查和治理:借助 Kubeflow 等开源 MLOps 平台,实现 ML 模型的发现、共享与协作。

  • 模型审查:完成微调后,就需要对 LLM 进行审查来确保其安全可靠,包括检查偏差和安全风险。
  • 模型治理:模型治理是指在 LLM 的整个生命周期中管理 LLM 的过程,包括跟踪其性能,根据需要进行更改,以及在不再需要时将其停用。

模型推理和服务:管理生产环境中的细节,例如模型刷新频率或请求时间。 

  • 模型服务:LLM 经过审查并获得批准后,就可以部署到生产环境中,以便用户通过应用编程接口(API)使用 LLM。当 LLM 规模较大(例如拥有数千亿个参数)时,通常需要采用分布式推理技术,即将模型拆分到多个 GPU 上运行。llm-d 等开源项目提供了一种托管式 Kubernetes 原生解决方案,可高效编排这类分布式设置。
  • 模型推理:相关的应用可以查询 API 来生成文本或回答问题。这可以通过多种方式实现,例如表述性状态传递应用编程接口(REST API)或 Web 应用。

模型监控与人类反馈:创建模型和数据以监控异常或负面用户行为。

  • 模型监控:完成部署后,需要对 LLM 进行监控,以确保其按预期执行,包括跟踪其性能、识别存在的问题以及根据需要进行更改。
  • 人类反馈:人类用户对 LLM 生成的文本进行反馈,或者识别出 LLM 性能中的任何问题,从而提升 LLM 的性能。

    AI 技术在企业中是什么样?

LLMOps 平台为开发人员和团队提供了一个促进协作的环境,它涵盖数据分析、实验跟踪、提示词工程和 LLM 管理。它还可为 LLM 提供受控的模型转换、部署和监控。 通过更好的库管理,该平台可帮助降低运维成本,并在完成数据预处理、模型监控和部署等任务时减少对高技能人才的依赖。

了解如何选择适用于 AI 和 LLMOPs 的平台

红帽® AI 旨在通过 vLLM 驱动的服务器实现快速、灵活且高效的推理。它能将模型与您的数据可靠地连接起来,在单一平台上统一实现专用代理的定制与开发。我们的产品建立在开源基础之上,让您能够端到端全方位掌控任意规模的 AI 工作流。

红帽 AI 产品组合包含红帽 AI Enterprise:这是一个用于在任何基础架构上部署、管理和扩展 AI 推理、代理式 AI 工作流和 AI 赋能应用的平台。

探索红帽 AI

红帽官方博客

获取有关我们的客户、合作伙伴和社区生态系统的最新信息。

自适应企业:AI 就绪,从容应对颠覆性挑战

这本由红帽首席运营官兼首席战略官 Michael Ferris 撰写的电子书,介绍了当今 IT 领导者面临的 AI 变革和技术颠覆挑战。

扩展阅读

What is Mixture of Experts (MoE)?

混合专家模型(MoE)是一种模型架构技术,通过将任务路由至模型中最适配的模块,来提升 AI 推理速度。

What is AgentOps?

AgentOps(代理运维)是一套工具框架,用于实时监控 AI 在制定决策时的“大脑”运行情况。

What is sovereign AI?

主权 AI 意味着拥有 AI 技术,将数据保留在本地,并确保您的系统能够体现您的独特价值观和法律要求。

AI/ML 相关资源