什么是 LLMOps?

复制 URL

大语言模型(LLM)是可以理解和生成人类语言的机器学习(ML)模型。 GPT-3、LLaMA 和 Falcon 等 LLM 是工具通过学习数据来生成词语和句子。随着这些工具的不断演进,企业组织需要掌握如何运维这些模型的最佳实践。 而这正好就是 LLMOps 的用武之地。

大语言模型运维(LLMOps)是指一系列用于管理大语言模型的运维方法。通过 LLMOps,可对 LLM 从微调到维护的整个生命周期进行管理并实现自动化,从而帮助开发人员和团队部署、监控和维护 LLM。

探索红帽 AI

如果说 LLM 是 ML 模型的一个子集,那么 LLMOps 同样也是机器学习运维(MLOps)中适用于大语言模型的一个子集。作为一组工作流实践,MLOps 旨在简化 ML 模型的部署和维护过程。MLOps 的目标是建立一个不断发展演进的过程,以便将 ML 模型无缝融入到软件开发流程中。同样,LLMOps 也要不断地试验、迭代、部署和改进 LLM 的开发和部署生命周期。

什么是模型即服务?

LLMOps 和 MLOps 既有相似之处,也有不同之处。具体来说:

学习:传统的 ML 模型都是从头开始创建或训练,但 LLM 是从一个基础模型开始,然后使用数据进行微调,以提高其完成任务的性能。

调优:对于 LLM,微调可以改进模型的性能并提高准确性,使其更加深入地理解某个特定主题的知识。而提示词调优(Prompt Tuning)可以使 LLM 更好地执行特定任务。超参数调优是另一个不同之处。在传统 ML 中,调优侧重于提高准确性。对于 LLM,调优不仅关乎准确性,还有助于减少成本和训练过程中所需的能源消耗。无论是传统 ML 模型还是 LLM,调优过程都有好处,但侧重点各不相同。最后,值得一提的是检索增强生成(RAG),这是指利用外部知识来确保 LLM 能够收集到准确和具体的事实,以生成更好的回答。

反馈:人类反馈强化学习(RLHF)是一种改进 LLM 训练的方法。人类的反馈对 LLM 的性能至关重要。LLM 会使用人类反馈来评估准确性,而传统 ML 模型使用特定的指标来评估准确性。

性能指标:ML 模型具有明确的性能指标,但 LLM 有一套不同的评价指标,例如双语评估辅助(BLEU)和面向会议的摘要评估辅助(ROUGE),这些指标需要更为复杂的评估方法。

进一步了解 MLOps

红帽资源

随着时间的推移,LLMOps 已逐渐成为监控和增强 LLM 性能的首选方式,它有三大突出优势:

效率:LLMOps 使得团队能够更快地开发模型,提升模型质量,并实现快速部署。通过一种更简化的管理方式,团队可以在一个促进沟通、开发和部署的平台上进行更有效的协作。vLLM(一种开源推理服务器,可加速生成式 AI)等工具有助于更高效地使用 GPU。

可扩展性:LLMOps 有助于可扩展性和管理,因为它能够对多个模型进行管理和监控,以实现持续集成和持续交付/部署(CI/CD)。此外,LLMOps 通过改善数据通信和响应,为用户提供了更加迅捷的体验。 

风险降低:LLMOps 提高了透明度,并帮助更好地遵守企业组织和行业的政策。 通过保护敏感信息和防止风险暴露,LLMOps 能够增强安全性并加强隐私保护

了解 vLLM 如何助力三家知名企业组织实现快速扩展。 

探索三个真实用例

下方列出了 LLMOps 的几个用例。

持续集成和交付(CI/CD):CI/CD 旨在简化、加速和自动执行模型开发生命周期。 它减少了获取新代码所需的人工干预,从而缩短了系统停机时间并加快了代码发布速度。Tekton 等工具(红帽 OpenShift Pipelines 即基于该工具构建)通过在多个平台上实现自动化部署,帮助开发人员提高了工作效率。

了解如何实施 AI

数据收集、标记、存储:数据收集过程从多种来源获取准确的信息。数据标注对收集的数据进行分类,而数据存储负责收集和保存与网络关联的数字化信息。

模型微调、推理、监控:模型微调可以优化模型,以执行特定领域的任务。AI 推理是指 AI 模型依据数据提供答案的过程。模型推理可以基于现有知识来管理生产的内容,并基于推理的信息来执行操作。模型监控(包括人类反馈)可以收集和存储有关模型行为的数据,以了解模型如何使用真实的生产数据。

为什么要关注 AI 推理

LLMOps 分为几个阶段,各自都有相应的最佳实践:

探索性数据分析(EDA):通过创建数据集来评估数据,准备机器学习生命周期所需的数据。

  • 数据收集:训练 LLM 的第一步,从不同来源(例如代码库和社交媒体网络)收集数据。
  • 数据清理:收集到数据后,就需要对数据进行检查并为训练做好准备,包括剔除错误、纠正不一致和删除重复数据。
  • 数据探索:接着是探索数据,以更好地了解数据特征,包括识别异常值和发现特定模式。

数据准备和提示词工程:在团队之间共享可访问的数据并为 LLM 开发提示的过程。

  • 数据准备:以各种方式准备用于 LLM 训练的数据,包括综合和总结收集的数据。
  • 提示词工程:创建用于输入文本的提示词,以确保 LLM 生成所需的输出。

模型微调:使用主流的开源库(例如 Hugging Face Transformers)来微调和改进模型性能。

  • 模型训练:在准备好数据后,通过使用机器学习算法来学习数据中的模式,从而训练或微调 LLM。
  • 模型评估:完成训练后,需要使用未曾用于 LLM 训练的测试数据集来评估 LLM 的性能。
  • 模型微调:如果 LLM 表现不佳,可以对其进行微调,包括修改 LLM 的参数来提高其性能。

模型审查和治理:借助 Kubeflow 等开源 MLOps 平台,实现 ML 模型的发现、共享与协作。

  • 模型审查:完成微调后,就需要对 LLM 进行审查来确保其安全可靠,包括检查偏差和安全风险。
  • 模型治理:模型治理是指在 LLM 的整个生命周期中管理 LLM 的过程,包括跟踪其性能,根据需要进行更改,以及在不再需要时将其停用。

模型推理和服务:管理生产环境中的细节,例如模型刷新频率或请求时间。 

  • 模型服务:LLM 经过审查并获得批准后,就可以部署到生产环境中,以便用户通过应用编程接口(API)使用 LLM。当 LLM 规模较大(例如拥有数千亿个参数)时,通常需要采用分布式推理技术,即将模型拆分到多个 GPU 上运行。llm-d 等开源项目提供了一种托管式 Kubernetes 原生解决方案,可高效编排这类分布式设置。
  • 模型推理:相关的应用可以查询 API 来生成文本或回答问题。这可以通过多种方式实现,例如表述性状态传递应用编程接口(REST API)或 Web 应用。

模型监控与人类反馈:创建模型和数据以监控异常或负面用户行为。

  • 模型监控:完成部署后,需要对 LLM 进行监控,以确保其按预期执行,包括跟踪其性能、识别存在的问题以及根据需要进行更改。
  • 人类反馈:人类用户对 LLM 生成的文本进行反馈,或者识别出 LLM 性能中的任何问题,从而提升 LLM 的性能。

    AI 技术在企业中是什么样?

LLMOps 平台为开发人员和团队提供了一个促进协作的环境,它涵盖数据分析、实验跟踪、提示词工程和 LLM 管理。它还可为 LLM 提供受控的模型转换、部署和监控。 通过更好的库管理,该平台可帮助降低运维成本,并在完成数据预处理、模型监控和部署等任务时减少对高技能人才的依赖。

了解如何选择适用于 AI 和 LLMOPs 的平台

红帽 AI 是一个包含各种产品与服务的平台,能够在您企业 AI 旅程的任何阶段提供帮助,无论您是刚刚起步,还是准备进行扩展。针对您企业独特的用例,它既能支持生成式 AI,也能支持预测性 AI 相关工作。

借助红帽 AI,您就可以访问红帽® AI 推理服务器,在混合云上优化模型推理,从而实现更快、更具成本效益的部署。推理服务器由 vLLM 提供支持,可最大限度提高 GPU 利用率,加快响应速度。

了解有关红帽 AI 推理服务器的更多信息

红帽 AI 推理服务器还包含红帽 AI 存储库,这是一个经过第三方验证和优化的模型集合,既能保证模型选择的灵活性,又能促进跨团队的一致性。通过接入第三方模型存储库,企业能够显著缩短推向市场所需的时间,并降低 AI 成功落地的成本门槛。 

了解有关经红帽 AI 验证的模型的更多信息

红帽官方博客

获取有关我们的客户、合作伙伴和社区生态系统的最新信息。

自适应企业:AI 就绪,从容应对颠覆性挑战

这本由红帽首席运营官兼首席战略官 Michael Ferris 撰写的电子书,介绍了当今 IT 领导者面临的 AI 变革和技术颠覆挑战。

扩展阅读

什么是预测性分析

预测性分析是一种分析方法,它通过分析当前数据和历史数据,来预测未来可能发生的事件或趋势。

什么是 llm-d?

llm-d 是一种开源的 Kubernetes 原生框架,可加速大规模的分布式 LLM 推理。

AI 基础架构简介

AI 基础架构结合了人工智能和机器学习(AI/ML)技术,来开发和部署可靠且可扩展的数据解决方案。

AI/ML 相关资源

相关文章