什么是可观测性?

复制 URL

可观测性是指能够通过检查系统或应用的输出、日志和性能指标来监控、测量和理解系统或应用的状态。在现代软件系统和云计算中,可观测性在确保应用和基础架构的可靠性、性能和安全性方面发挥着越来越重要的作用。

随着软件系统的复杂程度不断增加、平台工程作为一门学科的迅速兴起、微服务的广泛采用以及对分布式架构的日益依赖,可观测性的重要性也越加凸显。

可观测性超越了传统的监控,能够帮助团队确定问题的根本原因。它能为利益相关者提供关于其应用程序和业务的洞察和信息,包括预报和预测可能出现的问题。可观测性实践使用的工具和技术丰富多样,因而部署方式也非常多样化。这会带来架构上的影响,因此 IT 团队必须知道如何采用适合自己的方法来建立可观测性系统。 

进一步了解红帽 OpenShift Observability

人工智能和机器学习

人工智能(AI)机器学习(ML)越来越多地被用于可观测性平台,以提供自动化异常检测、根本原因分析和预测性见解。这些技术有助于减少识别和解决复杂系统中问题所需的时间和精力。

平台工程

可观测性为平台工程师提供了助力,让他们不再只能标记单个指标,而是可以全面查询和探索所有服务中的数据。这种扩展的可见性揭示了传统监控可能遗漏的关键关系和依赖项,使团队能够更有效地对复杂问题进行故障排除,并确保所有系统组件顺畅、稳定地协同工作。通过可观测性,平台工程团队可以打造一个不仅响应迅速、还具有出色弹性的平台,从而获得识别、解决和预防问题所需的深度洞察。这种积极前瞻性的方法显著提高了系统的整体可靠性,并有助于确保关键应用的持续平稳运行。

混合环境和多云环境

随着企业或机构越来越多地采用混合云和多云策略,无论应用和服务部署到哪里,都需要可观测性工具来提供整个基础架构的视图。

边缘设备

边缘设备、物联网(IoT)设备或其他本地计算设备的未来发展将在监控和管理这些环境方面带来新的挑战。它们需要提供实时见解和快速响应时间。这可能涉及创建用于数据收集的轻量级代理,使用对边缘友好的数据格式和协议,以及结合去中心化数据处理和分析技术,同时还要部署可靠的安全防护和隐私保护功能。

DevOps 中的可观测性

随着可观测性在确保云原生应用的可靠性和性能方面变得越来越重要,它 DevOps 流程中也越来越受重视。这包括将可观测性工具集成到 DevOps 工具链中,以及使用可观测性数据来推动应用性能和可靠性的持续改进。

开源可观测性工具越来越普及

近年来,Grafana、Jaeger、Kafka、OpenTelemetry 和 Prometheus 等开源可观测性工具越来越受欢迎,而且这种趋势可能会经久不息。这一方面是因为大家希望降低专有可观测性工具相关的成本,另一方面则是出于开源工具所能提供的灵活性和定制选项。

云原生基础架构愈发普遍

随着越来越多的企业或机构采用云原生基础架构,对专门为这类环境设计的可观测性工具的需求也可能会增加。云原生应用和基础架构生成的数据量不断增多,ML 和 AI 在云原生可观测性领域也变得愈发重要。这些新兴技术有助于在最终用户受到影响之前识别异常和性能问题,让企业或机构能够主动解决问题,以免造成重大问题。

红帽资源

更高的可靠性

在局面恶化之前检测并解决问题,最大限度减少停机时间,并确保系统依然可供用户使用。

高效的故障排除

深入了解系统行为,从而快速确定问题的根本原因并高效地解决问题。

优化性能:

确定需要优化的领域,如系统中的瓶颈或未充分利用的资源,从而提高资源分配效率并改进性能。

数据驱动的决策

接收最新的系统性能和行为信息,实现数据驱动决策和持续改进。

可观测性和监控是彼此相关的概念,但也有一些关键区别。可观测性是指用系统运行时收集的表层信息来了解系统的内部状态,而不必拆开系统。

随着越来越多的企业或机构采用云原生基础架构,对专门为这类环境设计的可观测性工具的需求也可能会增加。云原生可观测性工具旨在收集和分析来自微服务容器和其他云原生技术的数据,并提供有关这些环境中系统性能的深度见解。

简而言之,云原生可观测性是一种对现代云原生应用进行监控、分析和故障排除的做法,这些应用使用微服务架构构建而成,并部署在容器或无服务器环境中。云原生可观测性的核心要素通常包括以下方面:

指标:侧重于收集有关 Kubernetes 环境和应用的定量数据。指标可以包括 CPU 和内存使用率、网络流量和请求延迟等数据。Kubernetes 可提供数个内置的指标,但您也有可能需要使用其他工具或库来收集更详细的指标。

日志:侧重于收集和分析来自 Kubernetes 环境和应用的日志数据。日志可以提供对应用行为的重要见解,并可用于排查问题、确定性能瓶颈和检测安全威胁。

跟踪:侧重于收集有关跨 Kubernetes 环境和应用执行请求或事务的数据。跟踪可以帮助您了解应用如何处理请求或事务,识别性能问题,并优化应用的性能。

事件:侧重于收集有关 Kubernetes 环境中发生的重要事件的数据,例如应用部署、扩展事件和错误等。事件可以帮助您监控 Kubernetes 环境的运行状况,并在出现问题时快速做出响应。

进一步了解 OpenShift 的可观测性能力

可观测性对于平台工程、站点可靠性工程(SRE)和 DevOps 来说至关重要,因为它能确保系统可靠和高效地运行。可观测性之所以重要,是因为它可提供有关系统性能和行为的深度见解,从而能主动地进行监控、故障排除和优化。 

平台工程师、开发人员、运维团队或站点可靠性工程师需要采取特定的步骤,以利用可观测性数据来识别、分析和解决任何软件系统中的问题。这称为“调试旅程”。

可观测性的旅程始于问题的检测,无论是通过监控、警报系统还是用户报告的故障事件。

检测到问题后,团队必须判断其严重程度,排定它的优先顺序。这一分检过程涉及评估对用户、系统和整体性能的影响。

对于优先级较高的项目,调查收集到的可观测性数据来识别模式和相关性。

确定潜在的相关性和模式后,团队要深入研究这些数据,以查明问题的根本原因。

确定缘由之后,团队可以通过代码更改、修补程序或基础架构调整来实施修复,然后继续监控系统,查看解决方案是否奏效。

面向平台工程、DevOps 和 SRE 的可观测性需要结合使用各种工具、流程和专业知识,才能有效地监控、排除故障和优化系统,并且它在使企业能够向客户提供高质量的数字化服务方面具有举足轻重的作用。红帽 OpenShift Observability 可以提供必要的信息来制定系统的基线,然后监控和提醒与该基线的偏差,从而能缩短平均检测时间(MTTD)和平均解决时间(MTTR)。

红帽® OpenShift® Observability 旨在解决现代架构方面的复杂性,它能在各种可观测性工具和技术之间搭建桥梁,创造统一的可观测性体验。该平台经过精心设计,可实时呈现、监控和分析各种系统指标、日志、跟踪和事件,帮助用户快速诊断和排除问题,以免对应用或最终用户造成影响。


 

Red Hat OpenShift logo

 

一个企业级应用平台,包含一系列统一经过测试的服务,可基于您选择的基础架构将应用推向市场。

了解更多

Red Hat Advanced Cluster Management for Kubernetes logo

 

红帽 Kubernetes 高级集群管理包含丰富的功能,能够统一多集群管理,提供基于策略的监管,以及扩展应用生命周期管理,还可主动监控集群运行状况和性能。

了解更多

红帽 Lightspeed

红帽 Lightspeed 可以持续分析平台和应用,以预测风险、推荐操作并跟踪成本,让企业能够更好地管理混合云环境。

了解更多

 

红帽官方博客

获取有关我们的客户、合作伙伴和社区生态系统的最新信息。

所有红帽产品试用

我们的免费试用服务可让您亲身体验红帽的产品功能,为获得认证做好准备,或评估某个产品是否适合您的企业组织。

扩展阅读

文带你理解 DevOps 工程师是什么?负责哪些工作?

DevOps 工程师的职责是引入相应的流程、工具和方法,从而平衡整个软件开发生命周期的需求。DevOps 工程师在组合代码、应用维护和应用管理方面发挥着重要作用。DevOps Engineer 职位解读。

什么是多云 GitOps?

GitOps 是一套用于指导工作流,以及为云原生应用实施持续部署 (CD)的原则。GitOps 有助于对以前的手动流程引入自动化,从而帮助管理集群配置和应用部署。

GitOps 工作流是什么样的?

GitOps 是一种现代的软件开发和部署方法,它利用 Git 存储库作为单一事实来源,来管理整个基础架构和应用生命周期。

DevOps 相关资源