관측성에서 AIOps 자동화로 나아가는 여정

URL 복사

복잡한 IT 환경에서 관측성 툴을 사용해 현재 상황을 확인하고 파악할 수 있습니다. 유용한 인사이트입니다만, 여기서 더 나아갈 수 있다면 어떨까요?

IT 운영을 위한 인공지능(AIOps) 자동화를 활용하면 AI를 적용하여 인사이트를 실행으로 전환할 수 있습니다. 이러한 접근 방식은 업무 효율성을 높이는 동시에 안정적이고 확장 가능한 IT 시스템을 제공한다는 목표를 달성하도록 지원합니다.

관측성, AIOps, 자동화를 통합 전략의 일부로 함께 배포하면 각 요소의 강점을 극대화할 수 있습니다. 하지만 많은 조직이 이러한 영역에 상당한 투자를 하고도, 이를 하나로 통합하는 데 어려움을 겪습니다. 관측성 툴은 수많은 경고를 생성하여 팀이 경고 피로감과 높은 스트레스를 제공하며, 이는 AI를 적용해 알림의 우선순위를 지정하거나 알림에 가치를 적용한 후에도 마찬가지입니다. 컨텍스트가 부족하거나 자동화 플랫폼과 효과적으로 통합되지 않으면 방대한 데이터에 압도당할 뿐이며, 신뢰할 수 있는 자동화를 통해 이를 일관성 있게 대규모로 실행에 옮기기 어렵습니다.

이 문서에서는 Red Hat® Ansible® Automation Platform과 여기에 포함된 Event-Driven Ansible을 중심으로, 인텔리전스를 더한 관측성이 운영상의 장점을 어떻게 지원하는지 설명합니다. 또한 관측성, AIOps, 이벤트, 자동화의 핵심 개념을 바탕으로 이러한 요소가 어떻게 연결되는지 살펴봅니다. 이를 통해 AI 기반 의사결정을 거버넌스가 적용된 자동화로 빠르게 실행하는 방법을 보여줍니다. 

이 여정은 중요한 리소스인 데이터에서 시작됩니다.

분석 보고서 읽기: AIOps 격차 축소

데이터는 AI 기반 자동화를 가능하게 하는 원재료입니다. 데이터에서 가치를 얻기 위한 첫 단계는 관측성입니다. IT 환경이 더욱 복잡해지면서 오류 로그를 모니터링하고 이에 대응하는 것만으로는 충분하지 않습니다. 더 전체적인 그림을 파악해야 합니다.

관측성은 모니터링에서 한 단계 더 나아갑니다. 관측성은 IT 시스템과 애플리케이션을 선제적으로 트러블슈팅하고 최적화하는 데 도움이 되는 인사이트를 도출하는 것을 목표로 합니다. 관측성 툴은 로그, 메트릭, 추적과 같은 기존 데이터에 메타데이터, 사용자 행동, 네트워크 토폴로지, 코드 수준 상세 정보 등의 추가 소스를 결합할 수 있습니다. 

관측성 툴에는 다양한 선택지가 있습니다. Red Hat 플랫폼은 SplunkDynatraceIBM InstanaLogicMonitor와 같은 널리 사용되는 관측성 플랫폼은 물론 이벤트 버스, Kafka, 웹후크와 같은 업계 기술과도 통합됩니다. 여러 관측성 툴을 동시에 사용해 다양한 시스템과 동작을 더욱 효과적으로 관측하는 방식도 일반적입니다.

그러한 모든 정보를 하나로 모으면 더 많은 것을 파악할 수 있습니다. 관측성을 통해 문제가 발생했다는 사실뿐만 아니라 근본 원인과 필요한 대응 조치까지 알 수 있습니다.

여기까지는 좋습니다. 관측성 툴은 무엇이 잘못되었고 운영 관리 지원을 위해 필요한 작업이 무엇인지에 관한 정보를 드러내는 데 매우 효과적입니다. 하지만 운영 팀은 지나치게 많은 경고에 크게 부담을 느낄 수 있습니다. 그렇다면 어떻게 해야 할까요?

한 가지 접근 방식은 각 경고에 대응하는 방식을 사전 정의된 일련의 규칙으로 코딩하는 것입니다. 하지만 이 방식은 시간이 많이 소요될 뿐만 아니라, 시스템 작동 방식이 바뀔 때마다 감당해야 할 기술 부채를 생성합니다.
 

관측성만으로는 큰 효과를 기대하기 어렵습니다. 데이터와 인사이트를 지능적으로 활용해야 합니다. 바로 이 지점에서 AIOps가 등장합니다.

'관측성 및 Event-Driven Ansible' e-Book 보기

관측성이란?

관측성 경고가 빠르게 쏟아지고 있습니다. 해야 할 일을 어떻게 결정할 수 있을까요? AIOps가 그 해답을 제시합니다. 

AIOps를 제품 카테고리나 플랫폼 자체라기보다 하나의 개념으로 생각해 보세요. AIOps는 머신 러닝과 인공지능을 적용하여 IT 자동화의 복잡성을 관리하도록 지원하는 접근 방식입니다. 이상적으로 AIOps는 원하는 결과를 지원하는 자동화된 조치를 실행하는 데 필요한 인텔리전스를 제공합니다. AIOps 개념은 플랫폼 엔지니어링 및 사이트 신뢰성 엔지니어링 팀의 목표와 조화를 이룹니다.

AIOps를 구현하려면 관측성 소스에서 데이터를 수집하여 IT 환경을 통합적으로 파악할 수 있는 뷰를 구성해야 합니다. 그런 다음 머신 러닝을 사용하여 이상 징후를 포착하고, 패턴을 식별하고, 실시간으로 유용한 권장 사항을 도출할 수 있습니다. 또한 AI 기반 시스템은 시간이 지날수록 개선됩니다. 각 이벤트에 매번 같은 방식으로 단순 대응하는 대신, 상황을 관측하고 조정하면서 원하는 결과를 더욱 효과적으로 실현할 수 있습니다. 

AI를 운영에 통합하는 방법은 하나가 아닙니다. 이제 많은 관측성 툴에 AI 기능이 기본으로 내장됩니다. 또한 자체 AI 모델을 자동화 워크플로우에 적용할 수도 있습니다.

이제 관측성 데이터와 실시간 AIOps 인텔리전스를 결합했을 때 얻을 수 있는 가치를 충분히 이해하셨을 것입니다. 하지만 이 인텔리전스를 유용한 조치로 전환할 방법은 여전히 필요합니다. 바로 여기서 이벤트가 등장합니다.

이벤트란 IT 시스템에서 발생하는 감지 가능하고 의미 있는 모든 것을 말합니다. 애플리케이션, 하드웨어, 소프트웨어, 클라우드 인스턴스 또는 기타 기술 전반의 상태 변화가 모두 이벤트가 될 수 있습니다. 예를 들어 특정 서비스의 시작이나 종료, 네트워크 연결의 생성이나 해제, 또는 활동량이 특정 수준을 초과하는 상황 등이 모두 이벤트에 해당합니다. 

어떤 이벤트는 상황에 따라 완전히 다른 대응이 필요할 수 있습니다. 시스템 부하가 높아지면 일반 운영 환경에서는 알림만 트리거될 수 있지만, 민감한 워크로드가 실행 중인 경우에는 보안 위험을 방지하기 위해 즉시 종료해야 할 수도 있습니다. 관측성 툴은 이벤트를 감지할 수 있으며, AIOps는 해당 이벤트에 컨텍스트를 부여하여 적절한 자동화 대응을 트리거하도록 지원합니다. 

인텔리전스가 더해진 이벤트를 활용하면 다양한 상황에 가장 적합한 조치를 지정하고, 새로운 이벤트 유형이 등장하면 그것에 맞게 대응할 수 있습니다. 이제 이벤트 기반 자동화의 가치를 극대화하는 데 필요한 기반을 마련했습니다. 그럼 이 여정의 다음 단계로 넘어가 보겠습니다.

이벤트 기반 자동화는 관측성 데이터를 기반으로 자동화된 IT 운영 워크플로우를 실행하는 방식입니다. 이벤트 기반 자동화는 하이브리드 클라우드, AI, 엣지 환경을 비롯한 복잡한 시스템을 사람이 계속 파악할 수 있도록 지원합니다. 또한 일상적이고 반복적인 태스크를 줄여 IT 운영 팀이 더욱 중요한 업무에 집중할 수 있도록 합니다.

앞서 언급했듯이 관측성 데이터에 AI를 적용하면 더 나은 자동화 의사결정을 내릴 수 있습니다. 이를 통해 문제를 효율적으로 해결하고 이벤트 기반 자동화 워크플로우에서 더 많은 가치를 얻을 수 있습니다.

Red Hat Ansible Automation Platform 사용자는 여기에 포함된 Event-Driven Ansible 기능 세트를 통해 여러 IT 도메인에서 태스크를 자동화하기 위한 이벤트 처리 기능을 활용할 수 있습니다. 

Event-Driven Ansible은 다음 3가지 구성 요소를 기반으로 합니다.

  • 소스는 IT 환경의 상태에 관한 이벤트 데이터를 제공합니다. 이러한 이벤트는 플러그인 또는 웹후크를 통해 Event-Driven Ansible로 전송됩니다.
  • 룰북에는 조치를 트리거하는 룰과 조건 세트가 포함되어 있습니다. 룰은 이벤트에 대한 적절한 대응을 정의합니다.
  • 조치는 자동화의 결과입니다. 이벤트를 처리하거나 해결하기 위해 수행됩니다.

Ansible Rulebook은 Ansible Playbook과 마찬가지로 사람이 읽을 수 있는 YAML 형식으로 작성됩니다. 플레이북과 달리 룰북은 조건부 룰을 사용하여 이벤트가 조치를 트리거해야 하는 시점을 정의합니다. Event-Driven Ansible은 이벤트를 모니터링하고 이벤트 발생을 인식한 다음 적절한 조치를 자동으로 실행합니다.

Ansible Automation Platform은 Prometheus Alertmanager 또는 Apache Kafka와 같은 오픈소스 툴과 통합할 수 있습니다. 인증 및 검증된 에코시스템 컬렉션 중에서 선택하여 이러한 자동화 통합을 더욱 빠르게 배포할 수 있습니다.

이벤트 기반 자동화를 기존 툴과 결합하면 다양한 장점을 확인할 수 있습니다. 이에 대해서는 다음 섹션에서 자세히 살펴보겠습니다. 
Event-Driven Ansible에 대해 자세히 알아보기

이벤트 기반 자동화에 AIOps 접근 방식을 적용하면, 관측성 데이터와 AI 인사이트, 룰 기반 로직을 활용해 원래라면 감당하기 어려울 정도의 방대한 수작업을 자동화할 수 있습니다. 사후 대응식 수동 프로세스보다 선제적 조치를 우선할 수 있습니다. 

이 접근 방식의 장점은 다음과 같습니다.

  • 선제적 감지. AI 기반 이상 징후 감지는 사용자에게 영향을 미치기 전에 문제를 방지하도록 지원합니다.
  • 지능형 분석. 자동화된 근본 원인 식별과 권장 사항은 시간을 절약하고 필요한 순간에 정확한 답을 얻는 데 도움이 됩니다.
  • 더 빠른 대응. 팀은 거버넌스가 적용된 자동화를 통해 AI 기반 의사결정을 내리고 신속하게 움직일 수 있습니다.
  • 지속적인 학습. AI 기반 시스템은 고정된 룰 세트에 따라 운영되는 대신 시간이 지날수록 권장 사항을 개선할 수 있습니다.

그 결과 인프라의 안정성이 높아지고 비용이 절감되며 문제를 더 빠르게 해결할 수 있습니다. 다음으로는 이러한 장점이 효과를 발휘하는 몇 가지 구체적인 활용 사례를 살펴보겠습니다.

관측성, 자동화, AIOps는 다양한 실제 비즈니스 활용 사례를 해결하는 데 도움이 될 수 있습니다.

인프라 안정성

AIOps 접근 방식을 사용하면 일반적인 경고에 자동으로 대응할 수 있습니다. 이 전략을 통해 관측성 플랫폼은 AI로 강화된 분석과 권장 사항을 기반으로 자동화된 조치를 트리거합니다. 

특정 시스템에 장애가 발생하기 시작하면 자동화가 작동하여 서비스를 재시작하고, 로그를 정리하며, 리소스를 재할당하거나 인프라를 확장합니다. 이러한 접근 방식은 문제가 확대되기 전에 해결하고, 평균 문제 해결 시간(MTTR)을 단축하며, 시스템 안정성을 높이는 데 도움이 됩니다.

개선된 서비스 티켓

인프라 팀은 상황을 명확하게 파악할 수 있을 때 IT 서비스 관리(ITSM) 티켓에 더욱 효과적으로 대응할 수 있습니다. 이벤트에 AI 분석을 더하는 분석 툴을 사용하면 ITSM 티켓팅 및 트랙킹 프로세스에 유용한 정보를 추가할 수 있습니다. 티켓이 대기열에 들어가기 전에 사전 분석과 우선순위 점수를 제공하고, MTTR을 단축하며, 수작업을 줄일 수 있습니다.

팀은 이렇게 추가된 컨텍스트를 활용해 이벤트를 더 정확히 이해하고 문제를 빠르게 해결하여 다운타임을 줄일 수 있습니다.

Ansible Automation Platform으로 ServiceNow ITSM 티켓을 더 빠르게 해결하는 3가지 자동화 단계 영상 재생 시간: 10:54.

최적화된 AI 인프라

AI 워크로드의 요구 사항을 충족하는 일은 IT 인프라스트럭쳐 팀에 어려운 과제입니다. 관측성과 자동화를 적용하면 수작업 부담을 줄이면서 이러한 복잡한 시스템을 안정적으로 운영할 수 있습니다. 인프라 크기 조정과 리소스 분산 축소를 비롯한 반복적인 AI 튜닝 태스크를 자동화할 수 있습니다. 또한 최적화 패턴과 설정을 자동화하여 시스템 안정성을 더욱 높일 수 있습니다. 이러한 접근 방식은 성능 문제가 사용자에게 영향을 미치기 전에 이를 방지합니다.

그 결과 팀은 AI 개발 주기를 가속화하고, 테스트를 거친 안정적인 경로를 따라 AI 모델을 개발에서 프로덕션으로 이동할 수 있습니다. 조직은 더 빠르게 혁신하고 경쟁력을 유지할 수 있습니다. 

자동화된 구성 드리프트 감지 및 수정

구성 드리프트는 IT 시스템이 정상적인 상태에서 벗어나는 상황으로, 보안 취약점과 불안정성을 유발하는 일반적인 원인입니다. 기존 모니터링으로 구성 드리프트를 관리할 수도 있지만, AIOps 접근 방식은 위험과 영향에 관한 컨텍스트를 제공하고 무엇을 먼저 수정해야 하는지 우선순위를 지정함으로써 더 많은 역할을 할 수 있습니다. 

모니터링 또는 관측성 툴이 구성 드리프트를 식별하면 AI로 강화된 자동화를 사용하여 위험과 비즈니스 영향을 기준으로 수정 작업의 우선순위를 지정할 수 있습니다. 또한 수정 사항을 적용하기 전에 연쇄적인 영향을 예측하고, 운영에 미치는 영향이 가장 적은 시점에 수정 사항을 적용할 수 있습니다. 이를 통해 추가적인 디스럽션을 일으키지 않으면서 구성 드리프트로 인한 보안 및 안정성 문제를 줄일 수 있습니다.

정책 실행과 컴플라이언스

IT 팀은 시스템이 규정과 조직 표준을 준수하도록 확립된 정책에 의존합니다. 이벤트 기반 자동화 시스템을 이러한 정책에 맞춰 조정하면 컴플라이언스를 유지할 수 있습니다.

AIOps 접근 방식의 일부로 이러한 정책을 자동화된 의사결정에 통합할 수 있습니다. AI 시스템이 추론을 수행하고 자동화를 시작하면, 시스템은 해당 조치를 검증하여 정책을 준수하는지 확인할 수 있습니다.

이러한 활용 사례를 염두에 두고, 다음 단계에서는 이러한 통합을 실제로 구현하는 구체적인 방법을 살펴보겠습니다. 

Ansible Automation Platform의 5가지 AIOps 활용 사례

데이터 기반 지능형 자동화의 장점을 활용하려면 관측성 툴을 자동화 플랫폼과 통합해야 합니다. Red Hat Ansible Automation Platform 사용자는 다음과 같은 여러 옵션을 선택할 수 있습니다.

  • Event-Driven Ansible. Event-Driven Ansible은 대량 이벤트 처리에 적합합니다. 관측성 경고가 대량으로 급증하거나 비동기 이벤트 스트림을 처리할 때 권장되는 옵션입니다.
  • 모델 컨텍스트 프로토콜(MCP). AI 에이전트를 위해 설계된 MCP는 AI 애플리케이션과 외부 서비스 간 통신을 위한 오픈소스 표준입니다. 에이전틱 워크플로우와 AI 지원 운영에 적합합니다. AI 모델을 Ansible Automation Platform과 통합하려는 경우 MCP가 적합한 선택입니다.
  • 웹후크. 웹후크는 HTTP를 통해 애플리케이션 간에 가벼운 이벤트 기반 통신을 전송하는 방식입니다. 웹후크는 수행할 수 있는 작업에 제한이 있으며, ITSM 티켓 트리거와 같은 단순한 푸시 기반 조치에 적합합니다.
  • REST 애플리케이션 프로그래밍 인터페이스(API). Ansible Automation Platform은 애플리케이션 간 정보 공유를 위한 확립된 표준에 따라 REST API를 사용하여 다른 애플리케이션과 상호 작용할 수 있습니다. 이를 통해 지속적 통합 및 지속적 제공(CI/CD) 파이프라인과 REST API 표준을 기반으로 구축된 기존 시스템을 지원할 수 있습니다. 신규 설치의 경우, 위의 방법 중 하나가 기존 REST API 표준보다 더 많은 장점을 제공할 가능성이 높습니다.

이러한 통합 접근 방식을 염두에 두고, 이제 Red Hat 솔루션이 팀의 관측성, AIOps, 자동화 구현을 어떻게 지원하는지 살펴보겠습니다. 

Ansible Automation Platform용 MCP 서버에 대해 알아보기

Red Hat의 통합 솔루션은 다양한 환경 전반에서 자동화를 구현하고 검증 및 최적화된 AI 모델을 배포할 수 있도록 지원하여 AIOps 전략을 뒷받침합니다.

Red Hat Ansible Automation Platform

Red Hat Ansible Automation Platform은 생산성을 높이고 팀 간 장벽을 허무는 데 도움이 되는 포괄적인 엔터프라이즈 IT 자동화 솔루션입니다. Ansible Automation Platform은 기존 AI 및 관측성 툴과의 통합을 통해 인텔리전스를 IT 환경 전반에서 반복 가능하고 거버넌스가 적용된 자동화로 전환하도록 지원합니다.

Ansible Automation Platform 서브스크립션에 포함된 Event-Driven Ansible은 개별적이고 유용한 인텔리전스를 포함한 이벤트를 처리할 수 있는 확장 가능하고 반응성이 뛰어난 자동화 솔루션입니다. 이를 통해 IT 팀은 이벤트에 대한 적절한 대응을 결정한 다음 자동화된 조치를 실행하여 이벤트를 해결하거나 완화합니다. 

'Event-Driven Ansible 소개' e-book 읽기

Red Hat AI

Red Hat AI는 AI 여정에 오른 기업이라면 모두 도울 수 있는 제품 및 서비스 플랫폼입니다. AIOps 지원을 위해 배포되는 모델을 포함하여 생성형 및 예측 AI 모델을 제공하는 데 도움이 됩니다.

Red Hat AI를 통해 Red Hat AI Inference Server를 사용하여 모델 추론을 최적화함으로써 더 신속하고 비용 효율적으로 배포할 수 있습니다. Red Hat AI Inference Server에는 모델 유연성을 허용하고 팀 간 일관성을 우선시하는, 서드 파티를 통해 검증되고 최적화된 모델 컬렉션인 Red Hat AI 리포지토리가 포함되어 있습니다.

이러한 솔루션을 함께 활용하면 AI 기반 인텔리전스를 자동화된 조치로 전환하여 팀이 대규모로 더 빠르게 의사결정을 내리는 방식을 개선할 수 있습니다.

리소스

자동화를 통한 AIOps 잠재력의 최대한 활용

AI를 성공적으로 운영화하려면 IT 자동화를 처음부터 통합해야 합니다. 다운로드하여 자세히 알아보세요.

Red Hat Ansible Automation Platform을 통한 AIOps 자동화

Red Hat® Ansible® Automation Platform은 광범위한 IT 운영에 대해 AI 기능과 툴을 지원하는 엔드 투 엔드 자동화 솔루션입니다.

추가 자료

Why choose Red Hat for automation?

IT 자동화 툴과 전략을 어떤 방법으로 선택할까요? Red Hat 자동화 솔루션으로 IT 운영의 효율화, 기술 도입 지원, 기업의 전반적인 비즈니스 자동화 확장을 향상하세요.

What is IT service management (ITSM)?

IT 서비스 관리(ITSM)의 정의, 주요 프로세스, 프레임워크, 도입 효과와 기업이 IT 운영 효율성과 서비스 품질을 높이기 위해 왜 ITSM이 필요한지 설명합니다.

Learning Ansible basics

Ansible은 복잡한 IT 인프라를 효율적으로 관리하고 자동화하는 데 사용되는 툴입니다. Ansible의 작동 원리, 핵심 개념, 실제 환경에서 어떻게 활용되는지 알아보세요

자동화와 관리 리소스

주요 제품

관련 기사