红帽智能分析为多项服务提供支持,旨在提升您在使用红帽产品(包括红帽 OpenShift)时的运维、业务和安全体验。在本文中,我们将讨论智能分析顾问中新增的预览功能,它有助于您更安全地升级 OpenShift 集群。

升级风险

在复杂的 Kubernetes 生产环境中,管理升级是一项颇具挑战性的任务。这类环境的基础架构往往由 60 多个独立工作的组件组成。每个组件具有不同的运维状态和配置,这一情况可能导致次要和主要版本升级失败。

红帽智能分析团队和 IBM 研究院一直致力于解决这些问题,现在宣布推出红帽 OpenShift 的智能分析 升级风险预览功能。

该功能利用机器学习 (ML) 概念,将集群最近两小时的状态与通过 OpenShift 远程健康监控功能在连接到红帽的所有集群中观察到的已知升级失败历史记录进行比较。

升级风险功能将会显示集群中存在的已知风险清单,其中包括失败的 Operator 条件、警报和其他指标,并提供有关如何消除这些风险以实现更平稳升级的说明。

Screenshot of Red Hat Insights Upgrade Risks feature

该功能的工作方式

升级风险功能使用通过远程健康监控功能发送到红帽的数据。这些数据由 Prometheus 整理并提取,确保数据集仅包含用于持续实时 ML 模型训练的必要信息。 

然后,使用经过验证的模型,向红帽客户显示最新的结果。

以下是一个架构示意图:

High level architecture diagram of the Red Hat Insights Upgrade Risks feature

这些信息包括升级的阻止条件以及相应的建议操作,您可以在智能分析顾问中找到它们。同时,这些信息也会提供给红帽大客户技术经理,他们能够协助您顺利进行升级,包括规划修复步骤来消除阻止条件。 

红帽和 IBM 研究中使用哪些数据?

相关数据集由以下三个来源构成:

  • 所有连接集群的升级尝试及其结果(成功还是失败)。
  • Operator 触发的警报
  • 在这类尝试之前触发失败 Operator 条件 (FOC)1 的集群,包括集群版本(我们主要关注 y-version2,例如 4.10、4.11 等)

1.FOC 是指报告不可用或降级的 OpenShift Operator。可在此处找到更多有关 Operator 条件的更多信息。

2.对于 OpenShift,我们使用 x.y.z 来表示版本,例如,y-version 或 y-upgrade 将是 4.10 或 4.11。Z-version 为 4.10.31 或 4.11.2。

您应该怎么做? 

建议在升级任何集群之前,先使用升级风险功能生成要修复的问题清单。

如上所述,此功能在混合云控制台上的智能分析顾问中以预览形式提供。如果您的集群连接到红帽基础架构,则您的订阅中就包含红帽智能分析服务。此功能无需另外配置,您可以立即开始使用。

如果您有任何建议,请使用智能分析中的反馈表格发送给我们(您可以在上文屏幕截图的右下角找到该表格,即紫色反馈按钮)。

了解更多


About the author

Red Hatter since 2010, Dosek's professional career started with virtualization technologies and transformed via variety of roles at Red Hat through to hybrid cloud. His focus is at improving product experience with assistance of Red Hat Insights.

Read full bio