什么是在红帽 OpenShift 上运行 AI/ML?
凭借自助式红帽® OpenShift® 或 AI/ML 云服务,在红帽® OpenShift® 上运行 AI/ML 可以为 AI/ML 工作流提速并加快 AI 驱动型智能应用的交付。
红帽 OpenShift 助力 MLOps
红帽 OpenShift 包含多项关键功能,可以跨数据中心、公共云计算和边缘计算以一致的方式实现机器学习运维(MLOps)。
通过应用 DevOps 和 GitOps 原则,企业可以自动化并简化将 ML 模型集成到软件开发、生产部署、监控、复训和重新部署的迭代流程,以保持预测准确性。
什么是 ML 生命周期?
它是一个多阶段的过程,旨在借助各种海量数据、丰富的计算和开源机器学习工具来构建智能应用。
总体而言,它的生命周期有 4 个阶段:
- 收集和准备数据以确保输入数据的完整性和高质量
- 开发模型,包括训练、测试和选择具有最高预测精度的模型
- 在应用开发过程中集成模型 ,并进行推理
- 模型监控和管理,旨在衡量业务绩效和解决潜在的生产数据漂移问题
数据获取和准备
ML 建模
ML 模型部署
ML 模型监控和管理
数据科学家面临的主要挑战
数据科学家主要负责 ML 建模,确保所选模型持续提供最高的预测准确性。
数据科学家面临的主要挑战是:
- 选择和部署正确的 ML 工具(例如 Apache Spark、Jupyter notebook、TensorFlow 和 PyTorch 等)
- 训练、测试、选择和复训 ML 模型以获得最高预测准确性需要大量时间,且过程复杂
- 由于缺乏硬件加速功能,建模和推理任务的执行速度很缓慢
- 反复依赖 IT 运维来置备和管理基础架构
- 需要与数据工程师和软件开发人员合作,确保输入数据的清洁,并在应用开发过程中成功部署 ML 模型
为什么要在机器学习计划中采用容器和 Kubernetes?
容器和 Kubernetes 是加速 ML 生命周期的关键,因为这些技术为数据科学家提供了训练、测试和部署 ML 模型所急需的敏捷性、灵活性、可移植性和可扩展性。
红帽® OpenShift® 是行业领先的容器和 Kubernetes 混合云平台。它提供了所有关键优势,并通过集成式 DevOps 功能(如 OpenShift Pipelines、OpenShift GitOps 和红帽 Quay)以及与硬件加速器的集成,帮助数据科学家和软件开发人员更有效地协作,并加速智能应用在混合云(数据中心、边缘和公共云)上的部署。
红帽 OpenShift 数据科学
红帽 OpenShift AI 是一个围绕 AI 打造的产品组合,提供涵盖 AI/ML 实验和模型整个生命周期的工具,其中包括红帽 OpenShift 数据科学。
红帽 OpenShift 数据科学是面向数据科学家和智能应用开发人员的自助式托管云服务。它可提供一个享受全面支持的沙盒,在部署至生产环境前,可先在这个沙盒中快速开发、训练和测试公共云中的机器学习(ML)模型。
红帽 OpenShift 对 ML 计划的好处
为数据科学家赋能
- 跨混合云为数据科学家提供一致的自助式云体验
- 赋予数据科学家灵活性和可移植性,让他们可以使用所选择的容器化 ML 工具来快速构建、扩展、复制和共享 ML 模型。
- 通过红帽认证的 Kubernetes Operator,为红帽自助式和 AI 云服务选项使用最契合的 ML 工具。
- 消除对 IT 团队的依赖,为计算密集型的迭代式 ML 建模任务置备基础架构。
- 无需再担忧“受制于”任何特定云提供商及其 ML 工具选项。
- 与 CI/CD 工具紧密集成,ML模型可以根据需要快速迭代部署。
加速计算密集型的 ML 建模工作
OpenShift 通过红帽认证 GPU operator,集成了流行的硬件加速器(如 NVIDIA GPU),从而可以无缝地满足高计算资源要求,帮助选择最佳 ML 模型以提供最高预测准确性,并在模型在生产中遇到新数据时协助 ML 推理工作。
开发智能应用
OpenShift 内置的 DevOps 功能使 MLOps 能够加快交付 AI 驱动型应用,并简化集成 ML 模型和持续重新部署以提高预测准确性的迭代流程。
把 OpenShift DevOps 自动化功能注入到 ML 生命周期,为数据科学家、软件开发人员和 IT 运维之间的协作提供支持,ML 模型也因此可以快速集成到智能应用的开发中。这能够有效提高生产力,并简化 ML 驱动的智能应用的生命周期管理。
- 通过 OpenShift Build 在容器模型镜像仓库的基础上构建应用。
- 借助 OpenShift Pipelines 对 ML 模型驱动的智能应用进行持续的迭代开发。
- 借助 OpenShift GitOps 对 ML 模型驱动的智能应用进行持续的自动化部署。
- 采用红帽 Quay 镜像存储库,方便对模型容器镜像和微服务进行版本管理。
利用红帽数据服务在 ML 生命周期中实施数据管理
为了满足 ML 生命周期中各阶段(从数据获取和准备、ML 建模到推理)的 PB 级存储需求,红帽打造了红帽数据服务。红帽数据服务中包含的红帽 Ceph 存储是一个开源的软件定义存储系统,能为 S3 对象、块和文件存储提供全面支持,并具有在行业标准的商品硬件大规模扩展的能力。
例如,您可以通过 S3 或持久卷向 OpenShift 上的容器化 Jupyter Notebook 提供可扩展的 Ceph 存储。
成功案例
土耳其领先的移动电话运营商 Turkcell 部署了红帽 OpenShift,作为其 AI 驱动型应用工作负载的基础。OpenShift 使他们能够创建一个快速响应的基础架构,以更快的速度交付创新的 AI 应用,将置备时间从数月缩短到几秒钟。这使 AI 开发和运维成本降低了 70%。
加拿大皇家银行及其 AI 研究所 Borealis AI 携手红帽和 NVIDIA,共同开发了一个全新的 AI 计算平台,旨在改变客户银行业务体验,并帮助跟上快速的技术变革和不断变化的客户期望。
通过 Open Data Hub 项目构建完整的 ML 平台
Open Data Hub 项目是一个基于红帽 OpenShift、红帽 Ceph 存储、红帽 AMQ 流和若干上游开源项目的功能架构,旨在建立一个包含必需 ML 工具的开放 ML 平台。
企业就绪型 AI
红帽 OpenShift 与 NVIDIA 认证系统上运行的 NVIDIA AI Enterprise 软件套件相结合,提供一个可帮助加速各种 AI 用例的可扩展平台。该平台包含来自 NVIDIA 和红帽的关键技术,可在混合云、裸机或虚拟化环境中一致地安全部署、管理和扩展 AI 工作负载。
红帽的 AI/ML 合作伙伴生态系统
各行各业纷纷涌现变革性的 AI/ML 用例,如医疗保健、金融服务、电信和汽车等行业。红帽发展了一个强大的合作伙伴生态系统,为面向 AI 驱动的智能应用创建、部署和管理 ML 及深度学习模型提供完整的解决方案。