采用 MLOps 有何益处?
机器学习模型通过检测数据中的模式来进行预测。随着模型不断演变,会遇到训练中从未见过的新数据,此时便会发生“数据漂移”问题。数据漂移会随时间的推移自然发生,因为用于训练 ML 模型的统计属性会过时,如果不加以解决和纠正,则可能会对业务产生负面影响。
为了避免漂移,企业组织必须监控模型并保持高水平的预测准确性。应用 MLOps 实践可以提高预测模型的质量和准确性,简化管理流程、避免数据漂移、提高数据科学家的效率,从而使整个团队获益。
以下是 MLOps 为企业组织带来益处的几种具体方式:
可重复性:MLOps 框架可帮助跟踪和管理与不同模型相关联的代码、数据和配置文件的更改,因此,企业可以完全信赖 ML 实验具有稳定的可重复性。
持续集成和持续部署(CI/CD):MLOps 框架与 CI/CD 管道集成,可实现自动化测试、验证和部署。这反过来又可以加快开发和交付周期,并促进持续改进文化的发展。
增强协作并加快进度:MLOps 使团队成员能够高效协作,同时消除瓶颈并提高生产力。此外,手动任务实现自动化后,企业组织便可以更迅速地部署更多的模型,提高迭代频率,以实现更高的准确性。
节省成本: 为了维护准确的 ML 模型,需要进行持续调整和增强,这项工作十分繁琐,尤其是在手动完成的情况下。通过 MLOps 实现自动化,有助于企业组织节省资源,否则这些资源可能会被分配给耗时的手动工作。它还能简化部署过程,最大限度降低人为错误风险,并缩短价值实现时间。
改善治理和合规性:MLOps 实践可助力企业组织加强安全措施,并确保遵守数据隐私法规。通过监控性能和准确性,还可确保在集成新数据时跟踪模型偏移,并采取主动措施来长期保持较高的准确性。
红帽资源
借助 MLOps 拥抱自动化并节省时间
采用 MLOps 实践,可消除维护机器学习模型所涉及的繁琐手动工作,同时持续保障性能和可靠性。通过简化不同团队之间的协作,MLOps 实践可促进企业组织内的敏捷开发和数据驱动型决策。
借助 MLOps,各行各业能够自动化和简化 ML 开发流程。用例包括将 MLOps 用于:
预测性维护:预测设备故障并主动安排维护。
欺诈检测:构建和部署模型,使其能够持续监控交易行为,及时发现可疑活动。
自然语言处理(NLP):确保聊天机器人、翻译工具及其他大语言模型(LLM)等应用高效可靠地运行。
计算机视觉:为医学图像分析、目标检测及自动驾驶等任务提供支持。
异常检测:检测网络安全、工业流程和物联网设备等场景中偏离常规的异常现象。
医疗卫生:部署用于疾病诊断、患者结果预测和医学影像分析的模型。
零售:管理库存、预测需求、优化价格和提升客户购物体验。
MLOps 与 DevOps 的对比
MLOps 可以说是由 DevOps 演变而来,采用了与 ML 模型开发中所应用的协作、自动化和持续改进相同的基本概念MLOps 和 DevOps 的共同目标是改善与 IT 运维团队的协作,因为只有与 IT 运维团队密切合作,才能在软件或 ML 模型的整个生命周期中管理和维护模型。
不过 DevOps 专注于自动化日常运维任务和标准化开发和部署环境,而 MLOps 本质上更具实验性,专注于探索管理和维护数据管道的方法。由于 ML 模型中使用的数据在不断变化,模型本身也必须随之变化,这就需要不断地适应和微调。
MLOps 的测试、部署和生产环节看起来与 DevOps 有所不同。这就是为什么在 ML 项目中,团队中通常会有数据科学家,他们可能不专攻软件工程,而是专注于探索性数据分析、模型开发和实验。MLOps 中涉及而 DevOps 通常不包含的一些任务包括:
- 数据验证测试、经过训练的模型质量评估和模型验证。
- 构建一个多步骤管道,以便在收到新数据时自动重新训练和部署 ML 模型。
- 跟踪数据的汇总统计并监控模型的在线性能,以便在值偏离预期时进行沟通
最后,对于 MLOps 中的持续集成和持续部署(CI/CD),持续集成(CI)不再仅仅涉及测试和验证代码与组件(如同在 DevOps 中那样),还涉及测试和验证数据、数据模式及模型。持续部署(CD)也不再仅仅涉及单一软件包或服务,而是关乎一个能自动部署另一服务(模型预测服务)的系统(ML 训练管道)。
红帽如何看待 MLOps 的各阶段
在构建和实施 ML 模型方面,并不存在一种放之四海而皆准的方法。但是,在构建和运行应用时,需要遵循包含五个核心阶段的生命周期。
红帽® OpenShift® 包含多项关键功能,可跨数据中心、公共云计算和边缘计算以一致的方式实现 MLOps:
第 1 步:收集/准备数据
收集、清理结构化或非结构化数据,并将这些数据标记为合适的格式,以用于训练和测试 ML 模型。
第 2 步:模型训练
ML 模型在红帽 OpenShift 上的 Jupyter Notebook 中进行训练。
第 3 步:自动化
红帽 OpenShift Pipelines 提供事件驱动的持续集成功能,有助于将 ML 模型打包为容器镜像。
第 4 步:部署
红帽 OpenShift GitOps 可以在任何地方(无论是公共、私有、混合还是边缘环境)大规模自动部署 ML 模型。vLLM 等技术可用于在部署阶段的推理过程中优化 GPU 使用率。
第 5 步:监控
借助我们生态系统合作伙伴提供的工具,您的团队可以监控模型,并根据需要通过重新训练和重新部署来更新模型。在摄入新数据后,该过程将返回到第一阶段,无限期地持续自动循环运行这五个阶段。
开始使用 MLOps
无论您是处于在企业组织内集成机器学习的探索阶段,还是已经使用 ML 管道一段时间,了解您的工作流和流程如何适应更广泛的 MLOps 都会有所帮助。机器学习过程的成熟度通常分为三个级别,具体取决于工作流中的自动化程度。
MLOps 0 级:全部手动操作
刚开始接触机器学习的团队,通常会采用完全手动的工作流。在这个阶段,创建模型的数据科学家与提供模型服务的工程师之间是脱节的,并且流程的每一步(数据准备、模型训练、自动化、部署和监控)均是在未经自动化的情况下执行的。不存在持续集成(CI),也没有持续部署(CD)。这阶段不常部署新模型版本控制,因此在部署新模型后,有很大几率无法适应更改。
MLOps 1 级:自动化 ML 管道
如果模型需要主动适应新因素,那么开始在工作流中引入自动化就很有必要。借助自动化管道,新数据会被循环引入以实现持续训练(CT)——这使得模型能够获取最相关的信息以用于预测服务。
MLOps 2 级:自动化 CI/CD 系统
在此阶段,ML 模型更新速度变快且十分可靠。此模型每天(甚至每小时)都会使用新数据进行重新训练,并且更新会同时部署到数千台服务器。该系统使数据科学家和工程师能够在单一的协作环境中和谐地工作。
构建与购买
在决定是构建还是购买 MLOps 平台时,资源和时间表都是需要考虑的因素。构建一个正常运行的 ML 基础架构可能需要一年以上的时间,而要弄清楚如何构建真正为企业组织创造价值的管道,则可能需要更长时间。此外,要维护基础架构,需要生命周期管理和一个专职团队。如果您的团队不具备相关技能或没有精力学习这些技能,那么投资端到端 MLOps 平台可能是最佳解决方案。
红帽能如何提供帮助
红帽® AI 是我们专门针对企业组织需求而构建的 AI 产品组合,它筑基于深受客户信赖的红帽解决方案。有了这种稳健的基础,我们的产品就能始终可靠、灵活且可扩展。
红帽 AI 可以助力企业组织:
- 快速采用 AI 并进行创新。
- 拆解交付 AI 解决方案的复杂流程。
- 随时随地部署。
单一集成式 MLOps 平台
红帽 AI 中包含红帽® OpenShift® AI,这是一个用于跨混合云环境和边缘管理 AI/ML 生命周期的 AI 平台。
该平台提供以下支持:
- 协作工作流。
- 监控。
- 混合云应用。
对于那些准备好大规模运行预测性和生成式 AI 模型的人来说,红帽 OpenShift AI 可以帮助团队无缝地组织和简化其关键工作负载。
灵活选择合作伙伴
我们的 AI 合作伙伴生态系统正在不断壮大。众多技术合作伙伴与红帽携手合作,以认证他们的产品能否与红帽 AI 产品无缝衔接。这样,您就可以有更多的选择。
您的战略自主性有多高?红帽数字主权就绪度评估工具简介
红帽数字主权就绪度评估工具 (Red Hat Sovereignty Readiness Assessment tool) 是一款基于 Web 的自助式评估工具,能够针对您组织在七大关键领域的数字化掌控力,提供清晰、客观的基准分析。