概述
CloudOps(云运维)是一系列策略、工具和流程的集合,它们用于管理在云中运行的 IT 服务的交付、安全、性能和编排。
有人将 CloudOps 定义为应用于云架构的 ITOps(IT 运维),而也有些人认为它融合了 ITOps、云计算和 DevOps(开发运维)的原则。CloudOps 团队的目标是通过持续运维来加速和优化在云端运行的业务流程,他们依靠分析、监控工具和自动化来管理云资源和服务。
如果您在云基础架构上运行任何服务,那么管理这些基础架构的活动都属于 CloudOps 的范畴。但 CloudOps 不仅仅是云管理。它将 IT 运维和管理云环境的最佳实践相结合,旨在从云服务中获得最大的价值、效率和灵活性。
CloudOps 包括哪些内容?
CloudOps 涉及确保云环境按预期运行所需的所有管理任务,并且要让这些任务实现自动化。不同 CloudOps 团队的责任范围可能有所不同,但他们的工作主要围绕三个目标:编排、运维和治理。
编排
云编排是指将自动化的云管理任务协调起来,形成全面的工作流程。虽然团队会使用自动化工具来单独执行各种任务,但通过云编排,可以让多个任务协同工作,以服务于特定的功能或流程。
编排任务可能包括:
运维
部署完成之后,CloudOps 团队负责日常运维工作,以维持企业的 IT 系统按预期运行。
运维任务可能包括:
- 使用和自动化可观测性工具,以更好地了解正在运行的内容及其位置。
- 通过事件驱动型自动化来排查和解决问题。
- 部署基于云的应用,并自动化持续集成和持续交付(CI/CD)管道。
- 管理应用的生命周期。
- 修补和维护操作系统。
- 配置系统和组件,确保一切按预期运行。
治理
云治理指的是制定、实施和监控一个规则和政策框架,来指导 CloudOps 并规范用户在云环境中的工作方式。
治理任务可能包括:
- 根据备份和灾难恢复计划创建和管理关键数据的备份。
- 通过关闭未使用的资源、回收孤立的实例和适当调整云资源的规模来优化基础架构。
- 管理停机以维持业务连续性。
- 制定、监控和执行政策,以加强对政府法规和行业标准的遵守程度。
红帽资源
为什么 CloudOps 不可或缺?
云环境中有很多动态变化的部件,而云基础架构的维护任务日益增多,使得云环境变得越来越复杂。
许多企业组织一开始通常用的是临时应对的方式来进行 CloudOps ,往往是被动地采用新工具和服务。这会导致成本上升,工具之间以及团队之间的可见性不足,而且由于攻击面扩大,安全漏洞可能增加。
但真正的 CloudOps 方法更具战略性和前瞻性。它会综合考虑保持 IT 系统平稳运行所涉及的技术、团队和业务优先级,还会利用自动化来整合管理云环境所涉及的众多流程。
采用有效的 CloudOps 策略的企业组织可以实现以下目标:
进一步节约成本。在云基础架构上运行的企业组织无需承担维护本地基础设施所需的电力、冷却和其他设施费用,从而减少了一项主要的业务开支。云服务也更具成本效益,因为它们采用基于使用量的计费模式。许多主要云提供商,比如 Amazon Web Services(AWS)、Google Cloud 和 Microsoft Azure,都提供随使用量增加而扩展的承诺支出折扣,来奖励长期使用的客户。
提高安全性:云提供商负责底层基础架构层的安全,包括处理软件更新和安全补丁,以降低漏洞导致的风险,并进行持续监控,以快速识别和消除威胁。大多数主要云提供商还提供第一方和第三方工具和服务,帮助企业管理云安全、执行合规标准和保护关键数据。
可扩展性。云服务易于扩展,能够满足突发或预期的需求增长。您可以使用应用编程接口(API)、自动化工具或所选云平台提供的自助服务门户,轻松快速地置备服务器、虚拟机、存储和带宽。
减少停机时间。您可以用尽量少的停机时间为云基础架构和应用部署升级,这意味着无论是进行常规更新还是计划外的更新,都不会影响业务的正常运营。
提高敏捷性:战略性的 CloudOps 方法旨在自动化那些占用大量时间和公司资源的手动、繁琐任务。从云迁移到应用生命周期管理,通过自动化其中的所有环节,CloudOps 团队可以更快速、更高效地工作。
CloudOps 与DevOps:有何区别
DevOps 是软件开发和 IT 运维的结合,旨在加快应用从开发到部署的过程。它需要开发人员和 IT 运维团队之间协调一致,以快速构建、测试和发布应用,然后交付给客户。
CloudOps 则会将 DevOps 的最佳实践应用于基于云的基础架构。在团队之间建立透明度和一致性、打造敏捷的工作环境、自动化 CI/CD 的实施等,都是 CloudOps 团队从 DevOps 借鉴的做法。
如何为 CloudOps 选择自动化解决方案
使用临时拼凑的解决方案来管理和自动化 CloudOps 流程很常见,但这种做法不具备可扩展性。许多管理工具往往只专精于某个单一的用例,它们对特定的问题很管用,但企业组织通常需要等待供应商添加新功能,才能解决其他用例。这些工具可能无法同时执行多项自动化任务,或者缺乏按需扩展的灵活性。不过,像红帽® Ansible® 自动化平台这样的全面自动化解决方案,可以为企业组织提供企业级支持,并能从单一界面自动化所有常见的 CloudOps 任务。
除了选择正确的平台,考虑到今后的增长和发展,企业组织还需要在企业战略中全面整合云自动化工具,将统一的云自动化解决方案融入运维生命周期的每个阶段,确保每一环节都能通过自动化实现效率提升和业务扩展。而要制定有效的策略,关键一步是在各团队间培养持续学习、协作和可见性的文化。许多企业选择组建新的组织结构或团队(比如自动化卓越中心(CoE))来帮助员工更好地认识自动化以及其对云运维的助益。也有许多企业可能选择更自然的方式,通过推广自动化实践社区(CoP)来扩大自动化的采用和专业知识。
如果内部团队对自动化的支持度很高,企业就能从云投资中获得更多收益。而且还能发现通过自动化提高运维效率的新机会,从而释放人力和 IT 资源,专注于创新。
红帽能为您做些什么?
云环境比传统的基础架构更灵活、更高效,且具有成本效益。但云环境也会降低团队之间的可见性,增加复杂性,尤其是在使用多个互不联通的工具和自制解决方案时,管理难度可能会增加。
红帽 Ansible 自动化平台提供了一个统一的平台,适用于跨混合云和多云环境的 CloudOps 自动化和编排。与其他需要在多个特定领域工具之间进行切换的解决方案不同,Ansible 自动化平台为您提供了一个单一界面,用于管理、跟踪和优化常见的云任务,例如配置管理、置备和应用部署。
通过内置的事件驱动的 Ansible 功能,您可以自动化许多重复性 IT 任务,释放运维团队的重担,并创建可重用的自动化工作流程来部署、扩展、淘汰和迁移云实例。如果您是自动化开发的新手,还可以从 Ansible 自动化中心下载事件源插件和其他经过认证和验证的 Ansible 内容,帮助您快速入门。
订阅 Ansible 自动化平台,您可以获得一个可信的合作伙伴生态系统,以支持您自动化云环境中的所有操作。您还可以访问不断扩充的 Ansible 内容集库,其中包含由红帽和我们的技术合作伙伴开发和测试的插件、模块、playbook、角色和相关文档。
红帽官方博客
获取有关我们的客户、合作伙伴和社区生态系统的最新信息。