基于 Kubernetes 1.34CRI-O 1.34 的红帽 OpenShift 4.21 现已全面发布。此版本与红帽 OpenShift 平台 Plus 一起,体现了我们对提供值得信赖、全面且一致的应用平台的一贯承诺,让企业能够在不影响安全性的情况下,跨混合云处理生产工作负载。

此版本强调在相同的基础架构上使用相同的运维模型运行 AI 训练作业、容器化微服务和虚拟化应用。借助 OpenShift 4.21,可在单个经济高效的平台上同时实现现有 IT 基础架构的现代化并加速 AI 创新,该平台可根据实时业务需求自动扩展。

Red Hat OpenShift 4.21 highlights include AI, Core, and Virtualization

想象一下,一家大型金融机构需要维护用于核心银行业务的传统虚拟机(VM),同时还要训练新的 AI 模型来检测欺诈行为。以前,这两个世界存在于不同的系统中,造成了“孤岛”和成本浪费。

但使用 OpenShift 4.21 后,该公司可以在同一基础架构上同时运行这两个平台。借助新的动态资源分配(DRA)operator,甚至可在白天优先将高端 GPU 用于 AI 训练,并在夜间自动转移这些资源或将其缩减为零,以节省资金。此外,可在数据中心之间移动活动虚拟机,实现零停机,确保银行服务在硬件维护期间也能保持在线状态。

无论将 OpenShift 部署为自助式平台,还是将其用作完全托管的云服务,都可获得一整套集成工具和服务,适用于云原生、AI、虚拟和传统工作负载。本博客介绍了 OpenShift 4.21 在 AI、核心平台功能和虚拟化方面的关键创新。如需完整详情,请参阅 OpenShift 4.21 发行说明

AI

人工智能已成为现代工业的基石,推动着从个性化医疗到自主系统等各个领域的突破。然而,随着 AI 模型变得越来越复杂,底层基础架构也必须不断演进,以高效处理大量计算需求。在此版本的 OpenShift 中,我们继续在平台中添加 AI 功能,以大规模支持生产性 AI 工作负载。

利用红帽版 Kueue v1.2 简化 AI 工作负载

借助 OpenShift 4.21,红帽版 Kueue v1.2 提供了两项对大规模 AI 团队至关重要的功能:

  • 支持KubeFlow Trainer v2红帽 OpenShift AI 3.2 中:数据科学家现在只需使用单个 TrainJob API,无需为每个机器学习(ML)框架管理单独的资源。专注于模型代码,而平台团队则通过训练运行时来定义基础架构。
  • 用于待处理工作负载的可见性 API:在此之前,批处理作业位于队列中,无法了解位置或等待时间。用户分不清自己是排在第一名还是第一百名。管理员无法发现资源瓶颈。现在,双方都清楚发生了什么。用户可以获得预计的开始时间。管理员可识别出哪些特定资源(如 GPU 类型)存在超额订阅。队列不再是一个黑匣子。

使用 JobSet 管理分布式工作负载

JobSet Operator 在此版本中正式发布。团队可以使用现有的 GitOps 工作流、基于角色的访问控制(RBAC)策略和监控工具来编排分布式工作负载。JobSet 为相互依赖的复杂作业提供灵活的调度和容错能力,使企业能够大规模运行要求苛刻的机器学习和分布式计算工作负载,同时保持运维一致性。

精准灵活地将工作负载与 GPU 硬件相匹配

随着 AI 工作负载在整个企业范围内扩展,传统上通过简单计算设备数量并期望其能满足需求的 GPU 分配方法很快就会失效。OpenShift 4.21 在 DRA 中引入了三项功能,从根本上改变了企业组织请求和使用 GPU 资源的方式。

Intelligent GPU Allocation with Dynamic Resource Allocation

使用 DRA 驱动程序进行基于属性的 GPU 分配

现在,不必请求 GPU,而是指定实际需要的内容(例如,“具有至少 40GB VRAM 的 GPU”)。调度程序直接使用通用表达式语言(CEL)查询硬件属性,无需手动标记节点,因此无需再在整个集群中维护 gpu-type=h100 标签。系统会读取硬件功能,并自动将其与工作负载要求进行匹配。若要使用此功能,需要使用供应商提供的 operator 或启用了 DRA 功能的驱动程序。

DRA 中受命名空间控制的管理员访问权限

标准 DRA 将 GPU 锁定到其分配的 pod,因此即使是监控工具和调试器也无法触及它们。管理员访问权限可为基础架构工作负载创建特权例外,而不会中断用户分配。这对于集群范围的监控和实时调试特别有用。

设备请求中优先选择的替代方案

直接在资源请求中定义回退策略。可指定一个有序列表,而不是“H100 or fail”:首先是 H100,然后是 A100,最后是 V100。调度程序按顺序尝试每个选项,直到找到可用容量。

核心

OpenShift 的核心基础架构通过不断发展以满足现代性能和成本要求,始终是混合云弹性的行业标准。在这个最新版本中,我们通过创新优化了资源效率,例如自动扩展托管控制平面以动态调整内存,或扩展到零以消除闲置基础架构成本。

此外,OpenShift 继续通过与 VMware Cloud Foundation 9 和甲骨文数据库机等平台的有效集成来扩展其生态系统,确保客户能够跨混合云部署 OpenShift。

在托管控制平面中正确调整大小

在 OpenShift 4.21 中,红帽 OpenShift 的托管控制平面现在包含原生 VerticalPodAutoscaler(VPA)集成。控制平面组件会根据实时内存消耗自动扩展,而不是静态估计或节点数。系统会监控实际使用情况并动态调整资源,无需人工干预,从容量规划转变为需求响应。该平台不会预测六个月后的需求,而是会观察现在发生的情况并做出响应。控制平面会根据当前工作负载精确调整大小。这意味着不会因置备不足而导致性能下降,也不会因置备过多而造成支出浪费。

在托管控制平面上自动伸缩至零

托管控制平面现在在不活动期间缩减到零。控制平面在保留配置和状态的同时休眠,然后在需要时自动恢复,从而消除了闲置基础架构的成本。节点池遵循相同的模式,在开发、测试和临时(ephemeral)环境中缩减至零个节点。这使得托管控制平面成为运行 OpenShift 最具成本效益的方式。此功能可确保托管控制平面在备用状态下保持正常运行,在快速可用性和积极的成本优化之间实现完美平衡。

在 VMware Cloud Foundation 9 上运行 OpenShift

从 OpenShift 4.18 开始,OpenShift 增加了对 VMware vSphere Foundation 9(VVF9)和 VMware Cloud Foundation 9(VCF9)的支持。这为基础架构网络提供了与 VMware NSX 的兼容性,为覆盖网络提供了与 OVN-Kubernetes 的兼容性。红帽 Kubernetes 高级集群管理 2.15.1+ 版本将机群管理功能扩展到这些平台,而红帽 OpenShift 数据基础 4.19.7 和 4.20 则以技术预览版形式提供,并计划于 2026 年初全面推出。从 vSphere 8 和 VCF 5 到 VCF9 的迁移指南将于 2026 年发布,确保客户能够在 OpenShift 的全面支持下实现 VMware 基础架构的现代化。

如需了解详情,请参阅对 VMware vSphere Foundation 9 和 VMware Cloud Foundation 9 上的红帽 OpenShift 的 GA 支持

将 OpenShift 引入甲骨文数据库机

甲骨文数据库机 是一个预配置的集成硬件、存储、网络和软件捆绑包,专为运行 Oracle 数据库而设计。它通常被称为“盒中数据库”,因为它消除了从头开始构建自定义服务器堆栈的复杂性。现在可在甲骨文数据库机上部署 OpenShift,并享受运维简便性、安全性和合规性带来的诸多益处。

使用机密容器在微软 Azure 和微软 Azure 红帽 OpenShift 中部署零信任工作负载

在 OpenShift 4.21 中,我们在微软 Azure 中的客户管理集群上增加了对机密容器的支持,或通过微软 Azure 红帽 OpenShift将其作为托管服务提供支持。机密容器提供基于硬件的安全层,可在数据于内存中处理时对其进行保护。这有助于确保代码和数据与云提供商、主机操作系统甚至虚拟机监控程序隔离,这使其成为金融和医疗保健等高度监管行业的关键选择。

借助微软 Azure 中的机密容器,可有效地将云操作程序从可信计算库(TCB)中剔除。这意味着,即使攻击者获得了物理主机或微软 Azure 控制平面的 root 访问权限,也无法读取容器内存中的明文数据。

虚拟化

红帽 OpenShift 虚拟化在同一平台上运行虚拟机和容器,让一个团队能够在单个基础架构上使用一组工具。这一点很重要,因为大多数公司仍然依赖虚拟机来处理关键工作负载,一夜之间将所有内容迁移到容器中既不现实,也没有必要。借助 OpenShift 虚拟化,可使用 OpenShift 通过同一网络、存储和安全层管理容器化和虚拟化工作负载,从而按照自己的节奏实现现代化。

跨集群迁移虚拟机,实现零停机

通过 OpenShift 虚拟化实现跨集群实时迁移,管理员可以在不同的 OpenShift 集群之间移动运行中的虚拟机,且停机时间为零。管理员现在可以执行集群维护、跨区域重新平衡资源或将工作负载迁移到较新的硬件,而不会中断服务,同时根据严格的服务级别协议管理多集群环境。

仅 IPv6 控制平面和辅助网络支持

现已全面提供仅 IPv6 控制平面和辅助网络支持。对于 IPv4 地址不足的企业来说,这是向前迈出的重要一步。它允许在现代 IPv6 原生环境中部署 OpenShift 集群和虚拟化工作负载,无需复杂的网络地址转换(NAT)变通办法,从而简化网络架构。

通过在集群的核心管理层及其辅助接口上支持 IPv6,OpenShift 虚拟化可确保高密度部署能够无限扩展,同时满足严格的政府和电信合规要求。这种过渡不仅简化了网络路由并提高了端到端安全性,而且还为下一代全球连接服务提供了面向未来的基础架构。

Google Cloud 上的 OpenShift 虚拟化

Google Cloud 裸机上的 OpenShift 虚拟化允许企业直接在专用硬件上运行虚拟机,绕过传统嵌套虚拟化的开销。这种部署模式对于需要直接访问物理 CPU 功能和硬件加速的性能敏感型工作负载(如低延迟数据库或专用电信应用)至关重要。通过在裸机上运行,可获得云的灵活性,同时保持本地服务器的原始性能和可预测的延迟。这种集成简化了基于虚拟机的传统应用向 Google Cloud 的迁移,在单个 OpenShift 控制平面内实现容器和虚拟机的统一管理体验。

如需了解详情,请参阅将红帽 OpenShift 虚拟化引入 Google Cloud

使用增强的虚拟化 UI 配置虚拟网络

OpenShift 虚拟化的增强型 UI 可引导管理员进行正确的网络配置,同时保留高级控制。管理员现在可以使用 localnet 拓扑创建辅助 ClusterUserDefinedNetworks,其内置防护措施可防止意外删除 UDN 派生的 NetworkAttachmentDefinitions。增强的主机网络流首先显示常见的配置路径,从而加快从意图到工作配置的设置。物理网络抽象将 NodeNetworkConfigurationPolicies 组织为逻辑单元,使团队能够一致地管理主机连接,同时保留所需的深度自定义。

Configure Virtual Machine Network

使用红帽 OpenShift Lightspeed 对虚拟机进行故障排除

我们已将红帽 OpenShift Lightspeed 虚拟 AI 助手与 OpenShift 虚拟化用户界面集成,因此虚拟化管理员无需再切换界面或手动上传文件。相反,虚拟化管理员现在可以获得基于 AI 的上下文相关任务洞察,例如对虚拟机错误进行故障排除。

AI-powered VM insights and troubleshooting

立即试用红帽 OpenShift 4.21

立即开始使用红帽混合云控制台,充分利用 OpenShift 中的最新功能和增强功能。如需了解后续动态,请查看以下资源:

如需红帽 OpenShift 4.21 更新的完整列表,请参见 OpenShift 4.21 发行说明。通过您的红帽联系人向我们发送反馈,或在 GitHub 上创建问题。

产品试用

红帽 OpenShift 容器平台 | 产品试用

为构建和扩展容器化应用提供一致的混合云基础。

关于作者

Ju Lim works on the core Red Hat OpenShift Container Platform for hybrid and multi-cloud environments to enable customers to run Red Hat OpenShift anywhere. Ju leads the product management teams responsible for installation, updates, provider integration, and cloud infrastructure.

UI_Icon-Red_Hat-Close-A-Black-RGB

按频道浏览

automation icon

自动化

有关技术、团队和环境 IT 自动化的最新信息

AI icon

人工智能

平台更新使客户可以在任何地方运行人工智能工作负载

open hybrid cloud icon

开放混合云

了解我们如何利用混合云构建更灵活的未来

security icon

安全防护

有关我们如何跨环境和技术减少风险的最新信息

edge icon

边缘计算

简化边缘运维的平台更新

Infrastructure icon

基础架构

全球领先企业 Linux 平台的最新动态

application development icon

应用领域

我们针对最严峻的应用挑战的解决方案

Virtualization icon

虚拟化

适用于您的本地或跨云工作负载的企业虚拟化的未来