AIOps(Artificial Intelligence for IT Operations)란?

URL 복사

AIOps는 IT 운영을 위한 인공지능입니다. 또한 IT 운영 접근 방식이자 통합 소프트웨어 시스템으로, 데이터 사이언스를 활용해 수동 문제 해결과 시스템 해결을 돕습니다. AIOps는 빅데이터와 인공지능 또는 머신 러닝을 결합하여 광범위한 IT 운영 프로세스와 작업을 개선하거나 부분적으로 교체합니다.

엔터프라이즈를 위한 AI 시작하기: 입문자용 가이드

Red Hat AI 살펴보기

AIOps의 인공지능 부분이 작동하려면 우선적으로 필요한 요소가 있습니다. 바로 운영 데이터입니다. 구체적으로는 과거 데이터뿐만 아니라 가동 시간, 다운타임, 프로세싱 사용, 네트워크 트래픽, 애플리케이션 로그, 오류, 인증 시도, 방화벽 경고와 같은 데이터를 말합니다. 이와 같은 데이터 수집, 구성 및 정리는 알고리즘을 통합하고 모델을 학습하는 것보다 더 어렵습니다.

이러한 데이터가 구축되었다면 이제는 서비스 수준 목표와 지표를 결정할 차례입니다. 추적 가능한 메트릭을 사용하여 정의한 운영 상태가 바로 AIOps 시스템의 기준이 됩니다. 많은 엔터프라이즈 플랫폼이 운영 관측 구성 요소를 제공하거나 또는 이와 연결되어 있습니다. Red Hat® OpenShift®에는 Red Hat OpenShift Observability가 포함되어 있으며, Red Hat Enterprise Linux®Red Hat Satellite를 사용하고, Red Hat Ansible® Automation Platform은 Prometheus와 Grafana를 사용합니다.

운영 상태를 정의했다면, AI를 적용할 수 있습니다. AI를 프로젝트에 통합하는 과정은 훨씬 간단합니다. 

이러한 많은 기회들로 인해 자연어 처리(NLP), AI 추론, 머신 러닝(ML), 딥 러닝(DL) 등이 우리 문화 어휘의 일부가 된 것은 이제 놀라운 일이 아닙니다. 

Red Hat 리소스

장점

  • 해결 속도: AIOps는 당면한 문제를 감지하고 이에 대응하여 다운타임을 줄이고 MTTR(평균 문제 해결 시간)을 단축합니다.
  • 자가 치유(Self-healing) 시스템: 자가 치유 인프라는 성능과 가동 시간을 크게 향상할 수 있습니다.
  • 빅데이터: AIOps는 빅데이터를 활용하여 이를 기반으로 정리, 분석, 대응할 수 있습니다.
  • 효율성 및 규모 확장: 인공지능 모델로부터 확보한 인사이트를 활용하여 작업을 식별하고 감지 규모를 확장함으로써 직원 효율성을 높일 수 있습니다.
  • 혁신: 반복되는 작업을 없애 IT 팀이 더욱 전략적인 고부가가치 프로젝트를 개발하고 제공할 수 있도록 합니다.
  • 간소화: AIOps는 반복되는 다수의 IT 서비스 관리 작업을 간소화할 수 있습니다.
  • 실시간 데이터 상호 연계 및 의사 결정: AIOps에 자동화 엔진이 포함되면 데이터를 기반으로 자동으로 대응하여 사람의 개입과 오류를 줄이는 동시에 노이즈를 최소화할 수 있습니다.
  • 데이터 상호 연계 및 예측 확장: AIOps는 사람이 수동으로 할 수 있는 수준을 훨씬 뛰어넘는 수준까지 가능한 모든 순열을 자동으로 분석할 수 있습니다.

과제

  • 전문성: 폭넓은 데이터 사이언스 전문성이 요구되기 때문에 시작부터 진입 장벽이 높다고 느껴질 수 있습니다.
  • 인프라: 표준화된 플랫폼과 기능(예: Red Hat OpenShift와 Ansible Automation Platform이 제공하는 기능) 없이 특정 인프라에 대해 AIOps를 훈련하기가 어려울 수 있습니다.
  • 가치 창출 시간: AIOps 시스템은 설계, 구현, 배포 및 관리가 어려워 ROI(투자수익률)를 내기까지 시간이 걸릴 수 있습니다.
  • 데이터: 현대적인 IT 운영으로 쏟아져 나오는 데이터의 볼륨, 품질, 일관성은 상당한 부담이 될 수 있기 때문에 AIOps의 성과는 데이터 소스의 품질 수준에 그치게 될 수 있습니다.
  • 공동의 합의: 시스템 상태를 기준으로 표준 운영 목표를 설정하는 것은 여러 당사자의 전폭적인 지지가 필요하지만, 그러한 합의에 도달하기가 어려울 수 있습니다.
  • 범위: 시작하기에 앞서 고려할 사항이 매우 많아 감당하기 어렵다고 느껴질 수 있습니다. 아니면 기준이 되는 환경이 너무나 다이나믹할 수 있습니다.

IT 자동화로 AI를 위한 강력한 기반 구축

이제 여러 분야의 전문가들이 왜 AIOps를 사용하고 있는지 그 이유를 자세히 살펴보겠습니다.

  • 애플리케이션 SRE(사이트 신뢰성 엔지니어)는 AI가 주목하는 대기 시간, 오류 발생률, 트래픽, 포화 수준이라는 4가지 주요 측정 항목을 정의할 수 있습니다.
  • 개발자는 AIOps 분석을 활용하여 RCA(근본 원인 분석)를 수행하거나 AIOps 엔진이 사람의 개입 없이 RCA를 수행하도록 할 수 있습니다.
  • 실무자는 AIOps를 통해 SRE가 사용하는 것과 동일한 주요 측정 항목을 모니터링하여 최종 사용자의 관점에서 애플리케이션의 성능을 파악할 수 있습니다.
  • 인프라 오퍼레이터는 AIOps를 활용하여 여러 VM(가상 머신)에서 수천 개의 클러스터에 이르는 하이브리드 클라우드, 멀티클라우드, 마이크로서비스 기반 IT 환경을 모니터링하고 Day 2 오퍼레이션을 간소화할 수 있습니다.

이와 같은 각각의 활용 사례를 통해, AIOps가 팀이 잠재적인 문제를 감지하고 이에 대응할 수 있도록 지원하지만 아직 AIOps 시스템이 숙련된 IT 시스템 관리자와 기타 운영 팀원을 대체할 수 있는 수준에는 도달하지 못했음을 알 수 있습니다. 대다수의 IT 혁신과 마찬가지로 AIOps도 머신이 작업을 대신하고 사람은 이를 감독하도록 업무를 재설계합니다.

기업을 위한 AI 살펴보기

따라서 머신이 사람을 대체하는 것이 아닙니다. 하지만 데이터 사이언티스트와 DevOps 엔지니어 모두 기술을 확장하려면 새로운 IT 혁신을 활용해야 합니다.

  • 기업이 성능 중심의 기술 후보군을 발굴하고 있는 만큼 APM(애플리케이션 성능 모니터링)은 더욱 중요해질 것입니다.
  • 기반이 되는 인공지능 스크립트를 이해하거나 통합하거나 작성하기 위해, 그리고 이벤트 상관 관계와 경고 엔진을 실행 엔진으로 바꾸기 위해 자동화 기술은 더욱 중요해질 것입니다.
  • 이미 AI에 대해 잘 알고 있다면, 네트워크 AI(예: SD-WAN, Wi-Fi 등)를 (안전하게) 시도해보는 것도 좋습니다.

DevOps는 애플리케이션 라이프사이클 전체를 계속해서 조금씩 점진적으로 개선하는 것이 핵심입니다. 따라서 DevOps의 최대 과제는 다운타임이며, 바로 여기서 AIOps를 활용해 볼 수 있습니다. AIOps는 개발과 운영 프로세스에 데이터 사이언스를 추가하여 DevOps 문화를 증진합니다. 

AIOps는 DevOps를 대체하는 것이 아닌, DevOps의 발전된 형태입니다. AIOps는 동일한 디지털 트랜스포메이션 라이프사이클에서 또 하나의 지점과도 같습니다. AIOps와 DevOps는 같은 일을 합니다. AIOps는 기계화된 두뇌로 인간의 지능을 강화할 뿐입니다. 

DevOps와 AIOps의 실제 경계는 매우 불분명하지만, AIOps는 DevOps 프로세스의 양 끝과 관련이 있습니다.

  • 프로세스의 맨 앞에서 AIOps는 방대한 양의 인프라 데이터를 사용하여 기반이 되는 IDE(통합 개발 환경) 문제에 대해 DevOps 엔지니어에게 경고하거나 이러한 문제를 바로 수정합니다.
  • 프로세스의 맨 끝에서 AIOps는 프로덕션 단계에서 중복되는 IT 문제를 자동으로 해결하고 동시에 각각의 점진적인 릴리스에 수반되는 새로운 버그 문제를 해결하도록 학습할 수 있습니다. 

DevOps와 마찬가지로 AIOps에도 단일 도구, 단일 플랫폼, 단일 제품은 존재하지 않습니다. DevOps와 AIOps 기능을 구축하기 위해 사용하는 도구는 IT 스택(하드웨어 및 소프트웨어)만큼이나 다양하고 고유합니다. 그렇기 때문에 사용자가 구축하는 AIOps 솔루션은 고유한 개발 및 프로덕션 환경을 구현하는 모든 요소를 통합, 분석하고 이를 기반으로 작동해야 합니다.

DevOps에 대해 자세히 알아보기

AIOps는 오픈소스와 깊은 관계를 맺고 있습니다. 둘다 업스트림 프로젝트로, 수많은 커뮤니티에서 이에 참여하고 있기 때문입니다. AIOps 솔루션 전체를 구성하는 단일 제품은 없지만, 수많은 오픈소스 개발, 운영, AI, 자동화 프로젝트가 고유한 AIOps 솔루션의 일부로 사용될 수 있습니다. 그리고 특정 AIOps 문제에 대한 AIOps 솔루션을 제공하기 위해 개발 중인 오픈소스 프로젝트도 매우 많습니다.

기업에서는 다운스트림 인공지능 제품 코드를 업스트림 프로젝트로 릴리스하고 있습니다.

  • 전 세계 최대 규모를 자랑하는 소셜 미디어 기업인 Meta는 대규모 언어 모델인 Llama 2를 오픈소스 프로젝트로 릴리스했습니다.
  • Red Hat은 Project Thoth 오픈소스 프로젝트가 Project Wisdom 이 IBM watsonx Code Assistant 구성 요소가 포함된 Ansible Automation Plaform의 Ansible Lightspeed로 이어진 것과 같은 방식으로 엔터프라이즈급 강화 제품으로 이어지기를 바랍니다. .

Red Hat의 자동화 플랫폼과 파트너의 AI 기능을 결합하면 기업은 AI의 관측성 기능과 Ansible Automation Platform의 이벤트 기반 자동화 기능을 결합하여 전략적 AIOps 솔루션을 코딩할 수 있습니다. 

Event-Driven Ansible을 사용하여 AI가 찾아낸 항목에 대해 작업을 수행하세요. Red Hat의 자동화 플랫폼과 파트너사의 인과적 AI 엔진(예: Dynatrace와 기타 현대적인 관측성 도구가 제공하는 엔진)을 페어링하세요. 그리고 Ansible Lightspeed와 IBM watsonx Code Assistant 를 함께 사용하면 모든 기술 수준의 개발자와 운영 팀이 AI 생성 권장 사항을 통해 구문론적으로 올바른 코드를 작성할 수 있습니다.

Ansible Automation Platform에 대해 자세히 알아보기

허브

레드햇 공식 블로그

레드햇 공식 블로그에서 고객, 파트너, 커뮤니티 에코시스템 등 현재 화제가 되는 최신 정보를 살펴 보세요.

모든 Red Hat 제품 체험판

무료 제품 체험판을 통해 핸즈온 경험을 얻고, 자격증 시험에 대비하거나 해당 제품이 조직에 적합한지 평가할 수 있습니다.

추가 자료

머신 러닝(Machine Learning): 패턴 인식과 예측 기술

머신 러닝 학습은 명시적인 프로그래밍 없이 데이터에서 패턴을 학습하고 예측하는 AI 기술입니다. 머신 러닝의 원리, 핵심 기능, 그리고 다양한 활용 사례를 알아보세요.

딥러닝(Deep Learning): AI 혁신을 이끄는 심층 신경망 기술

딥러닝은 인공지능(AI) 분야에서 심층 신경망 알고리즘을 통해 데이터를 처리하고 학습하는 혁신적인 기술입니다. 딥러닝의 원리, 핵심 기술, 활용 사례를 확인해보세요.

생성형 AI(Generative AI): 개념, 원리, 활용 사례

생성형 AI는 딥러닝 모델을 통해 대규모 데이터 세트에서 학습하고 새로운 콘텐츠를 생성하는 인공지능 기술입니다. 생성 AI의 개념과 활용 사례를 알아보세요.

AI/ML 리소스

관련 기사