AgentOps란?

공개 2026년 4월 24일•7분 읽기

AgentOps(에이전트 운영)는 AI가 실시간으로 의사 결정을 내릴 때 AI의 '두뇌'를 모니터링하는 툴 프레임워크입니다. 자율형 AI '직원'을 관리하고 매개변수를 설정하는 방식이라고 생각하면 됩니다. 에이전트에 태스크가 주어졌을 때 정해진 예산을 초과하지 않으면서 효율적이고 안전하게 태스크를 완료하도록 지원합니다.

Red Hat AI 살펴보기

에이전트의 작업은 비결정적입니다. 즉, 일련의 무작위 확률 분포에 따라 결정됩니다. 이는 에이전트의 작업을 정확하게 예측할 수 없음을 의미합니다. 이러한 예측 불가능성은 에이전트가 문제를 해결할 창의적인 경로를 찾는 데 도움이 됩니다. 하지만 프로덕션 환경에서는 설명 가능성(explainability)이 없는 자율성이 책임 문제로 이어질 수 있습니다. AgentOps는 이러한 리스크를 완화하는 데 도움이 됩니다.

에이전틱 AI는 인간 개입을 최소화하는 방식으로 데이터 및 툴과 상호작용하도록 설계된 소프트웨어 시스템입니다. 목표 지향적 행동에 중점을 둔 에이전틱 AI는 단계 목록을 생성하고 이러한 단계를 자율적으로 수행하여 태스크를 완수할 수 있습니다.

에이전틱 AI는 자동화를 대규모 언어 모델(LLM)의 창의적인 기능과 결합한 것입니다. 에이전틱 AI를 실행하려면 LLM에 외부 툴에 대한 액세스 권한과 AI 에이전트가 그러한 툴을 사용하는 방법에 대한 지침을 제공하는 알고리즘을 공급해야 합니다.

AI 에이전트와 에이전틱 AI 비교

AI 에이전트와 에이전틱 AI의 차이는 무엇일까요? AI 에이전트는 명사이며("에이전트 3개를 구축하고 있습니다") 에이전틱 AI는 서술적 표현("소프트웨어를 더욱 에이전틱하게 만들어야 합니다")입니다.

AI 에이전트는 에이전틱 시스템 내에서 작업하고 역할을 수행하도록 구축된 소프트웨어 엔터티입니다. 에이전틱 AI는 사람이 준 제한적인 지침만으로 목표를 향해 계획하고 의사 결정을 내리며 조치를 취할 수 있는 시스템을 뜻합니다. 에이전틱 AI는 시스템의 행동 특성을 가리킵니다.

AgentOps는 AI 에이전트와 에이전틱 AI를 각각 다른 방식으로 지원합니다.

AI 에이전트의 경우 AgentOps는 다음을 지원합니다.

Identity 및 버전 관리: 에이전트의 페르소나와 역량 차이를 트래킹합니다.
툴 관리: 어떤 에이전트가 어떤 애플리케이션 프로그래밍 인터페이스(API)와 데이터베이스에 액세스할 수 있는지 모니터링합니다.
비용 및 리소스 트래킹: 에이전트 A와 에이전트 B가 각각 얼마나 많은 비용을 사용하는지 트래킹합니다.

에이전틱 AI의 경우 AgentOps는 다음을 지원합니다.

트래킹 가능성: AI가 왜 그러한 결정을 내렸는지 사람이 확인할 수 있도록 '사고 트리' 또는 추론 과정을 도식화합니다(예: AI가 2단계보다 3단계를 먼저 수행한 이유).
성공률: 생성한 전체 에이전틱 시스템의 성공 여부를 측정합니다.
환각 감지: 에이전트가 잘못된 작업에 너무 많은 리소스를 사용하기 전에 실시간으로 오류를 포착합니다.

AI 에이전트와 에이전틱 워크플로우는 프로그래밍 방식에 따라 자율성 수준이 달라질 수 있습니다. 워크플로우가 에이전틱 스펙트럼의 어느 지점에 있든 신뢰성과 감독을 위해 AgentOps는 필수적입니다.

자율성 수준	로직 스타일	AgentOps가 필요한 이유
제한적 자율	A를 수행한 다음 B를 수행하고 C를 수행합니다.	LLM 환각과 API 실패를 포착합니다.
반자율	A를 수행한 다음 B와 C 중에서 결정합니다.	AI가 왜 C가 아닌 B를 선택했는지 파악합니다.
완전 자율	이것이 목표입니다. 목표에 도달하는 방법을 파악합니다.	추론, 평가, 최적화를 이해합니다.

에이전틱 워크플로우는 문제를 창의적으로 해결하는 데 도움이 되지만, 시스템이 통제를 벗어나지 않도록 이러한 창의성을 관리해야 합니다. AgentOps는 에이전틱 시스템을 관측하고 평가하며 거버넌스를 적용하고 최적화함으로써 에이전틱 AI의 리스크를 완화하는 데 도움이 됩니다.

관측성

에이전트는 사고-행동-관측 루프에서 일종의 '추론' 감각을 만들어냅니다. 이 과정에서 오류가 발생하면 전체 태스크가 틀어질 수 있습니다. 에이전트가 예상치 못한 작업을 수행하면 해당 로직을 조사하여 오류를 찾아야 합니다. AgentOps는 트래킹 가능한 추론 흐름을 제공하여 사람이 잘못된 의사 결정의 근본 원인을 파악할 수 있도록 지원합니다.

실시간 평가

주요 에이전트가 작업하는 동안 (AgentOps 프로세스를 통해) 이를 감독할 보조 에이전트를 설정할 수 있습니다. 감독 에이전트가 주요 에이전트의 환각을 감지하거나 목표에서 벗어나고 있음을 인지하면 시스템을 일시 중지하거나 사람이 개입하도록 플래그를 지정할 수 있습니다.

거버넌스

에이전트에 태스크를 위임할 때는 가드레일을 설정해야 합니다. 가드레일은 AI 시스템이 정의된 경계 안에서 작동하도록 유지하는 장벽입니다. AgentOps를 사용하면 휴먼 인 더 루프(HITL) 체크포인트를 구현하고, 사람이 먼저 승인하지 않는 한 에이전트가 파일 삭제나 비용 지출 같은 중대한 작업을 수행하지 못하도록 할 수 있습니다.

비용 최적화

AgentOps는 에이전트가 비효율적으로 작동하는지 확인할 수 있는 근거를 제공합니다. 예를 들어 에이전트가 지나치게 비싼 모델을 사용하려 하거나, 너무 복잡한 방식으로 문제를 해결하여 과도한 리소스를 사용할 수 있습니다.

AgentOps를 사용하면 다음과 같은 지침으로 시스템을 설정할 수 있습니다.

"비용이 5달러를 초과하면 태스크를 중단합니다."
"태스크를 완료하는 데 20단계를 초과하면 태스크를 중단합니다."
"‘delete' 커맨드를 차단합니다."

AgentOps는 소버린 AI 관행을 구현하려는 조직에 중요한 요소입니다. 소버린 AI는 기술을 소유하고, 데이터를 로컬에 유지하고, AI 시스템이 조직의 가치와 법적 요구 사항을 반영하도록 하는 것을 의미합니다.

AgentOps는 시스템에 대한 투명성을 제공하며, 이는 법적 관점에서 매우 중요합니다. "AI가 결정한 것이다"라는 변론은 법정에서 받아들여지기 어렵습니다.

이제 AI는 질문에 답하는 툴을 넘어, 컨텍스트를 이해하는 시스템으로 활용되고 있습니다. 따라서 조직은 AI 에이전트가 엔터프라이즈 데이터 전체를 안전하게 탐색할 수 있도록 의미 계층과 모델 컨텍스트 프로토콜(MCP) 게이트웨이를 만들어야 합니다. AgentOps는 다음을 통해 이를 지원할 수 있습니다.

하드웨어 리소스 사용량을 트래킹합니다.
환각 발생률을 모니터링합니다.
데이터가 암호화된 상태로 유지되도록 보장합니다.
에이전트가 수행한 작업에 대해 감사 가능한 로그를 제공합니다.
정책 위반이 발생하면 프로세스를 종료합니다.

소버린 AI 시스템에서 AgentOps는 의사 결정, 데이터 흐름, 툴 상호작용에 대한 검증 가능한 기록을 제공하여 시스템 작동 방식을 더 잘 이해할 수 있도록 지원합니다.

완전 자율 에이전트는 스스로 의사 결정을 내리고 필요한 툴을 선택하며 자신의 오류를 수정합니다. 이 과정에는 복잡한 의사 결정이 많이 수반되며 결과적으로 '블랙박스' 문제로 이어집니다.

블랙박스란 너무 복잡해서 이해하기 어렵거나, 작업 과정을 보여주지 않거나 또는 두 가지 모두에 해당하는 AI 모델을 의미합니다. 그러면 알고리즘을 만든 데이터 사이언티스트와 엔지니어를 포함한 어느 누구도 모델이 특정 출력에 도달한 과정을 정확하게 설명할 수 없습니다. 블랙박스 문제를 해결하려면 설명 가능한 AI가 필요합니다.

설명 가능한 AI는 AI의 동작을 사람이 이해할 수 있도록 하는 것을 목표로 하는 철학이자 일련의 관행입니다. AgentOps는 이를 지원하는 툴킷입니다.

AgentOps는 AI 에이전트가 수행한 모든 추론 루프, 툴 호출, 관측을 시간순으로 보여주는 맵을 제공할 수 있습니다. 이를 통해 에이전트가 여러 툴 중 특정 툴을 선택한 이유를 이해할 수 있습니다. 또한 에이전트가 실수했을 때 사람이 강화 학습을 통해 피드백을 제공하고 이를 수정할 수 있는 방법을 제공합니다.

예를 들어 AgentOps는 에이전트가 태스크를 수행한 이유를 사람이 확인할 수 있는 인터페이스를 제공할 수 있습니다. 그러면 사람은 에이전트에게 "3단계는 잘못된 결정이었습니다. 비용이 너무 높은 모델을 사용했습니다"라고 알려줄 수 있습니다.

AgentOps는 DevOps, AIOps, MLOps, LLMOps처럼 'Ops'(운영) 계열에 새롭게 추가된 개념입니다. 다양한 Ops 유형을 정의하고 이들이 서로 어떻게 연계되는지 살펴보겠습니다.

DevOps는 다른 모든 Ops가 발전해 나온 기반입니다. DevOps는 모든 소프트웨어를 안정적으로 구축, 테스트, 배포하도록 보장하는 것을 목표로 하는 일련의 관행입니다. DevOps의 목표는 소프트웨어 제공 속도를 높이는 것입니다.
AIOps(IT 운영을 위한 AI)는 DevOps에 AI를 적용하는 것입니다. AIOps의 목표는 AI를 사용하여 IT 운영을 자동화하고 버그가 발생하기 전에 방지하는 것입니다. AIOps는 서버를 모니터링하고 충돌을 방지하는 데 도움이 됩니다.
MLOps(머신 러닝 운영)는 머신 러닝 모델의 라이프사이클을 관리하는 것입니다. MLOps의 목표는 새로운 데이터가 들어와도 모델의 정확도가 '드리프트'되지 않도록 보장하는 것입니다.
LLMOps(대규모 언어 모델 운영)는 LLM 관리를 위한 MLOps의 하위 집합입니다. LLMOps의 목표는 프롬프트를 관리하고, 환각을 줄이고, API 호출 비용을 낮추는 것입니다.

Red Hat의 AIOps에 대해 알아보기

AgentOps와의 연관성

AgentOps로 신뢰할 수 있는 비즈니스 제품을 운영하려면 LLMOps와 DevOps가 이미 갖춰져 있어야 합니다. AIOps와 MLOps도 도움이 될 수 있습니다. 이 모든 요소가 서로 어떻게 연계되는지 살펴보겠습니다.

DevOps: 에이전트를 생성하려면 코드가 필요합니다. 이 코드는 서버를 통해 신뢰할 수 있고 확장 가능한 방식으로 처리되고 전송되어야 합니다. DevOps는 이 과정이 제대로 이루어지도록 보장합니다.
LLMOps: LLMOps는 사용자의 프롬프트 로직을 처리하고 에이전트가 이를 실행 계획으로 변환하도록 지원합니다.
MLOps: MLOps는 에이전트가 액세스하는 머신 러닝 모델의 정확성을 보장합니다. 여기에는 최신 데이터로 모델을 자동 업데이트하고, 에이전트가 이전 버전이 아닌 새로 업데이트된 모델을 호출하도록 하는 작업이 포함될 수 있습니다.
AIOps: 서버가 충돌하면 1,000개의 경고가 발생할 수 있습니다. AIOps는 이러한 경고가 모두 동일한 이벤트에서 발생했음을 인식하고 사람에게 단 하나의 '주요 인시던트' 경고만 표시할 수 있습니다. 이는 더 효율적이며 혼란을 줄여줍니다.

운영 기반부터 안전 조치와 고급 스케일링에 이르기까지 에이전틱 워크플로우의 모든 단계에 AgentOps를 적용해야 합니다.

먼저 운영 기반을 구축해야 합니다. 이는 다음 시스템이 갖춰져 있는지 확인하는 것을 의미합니다.

표준화된 프로토콜

에이전트가 디지털 에코시스템 안에서 상호작용하려면 사용하는 툴과 공통 언어를 공유해야 합니다. MCP는 AI 애플리케이션과 외부 서비스 간 양방향 연결과 표준화된 커뮤니케이션 형식을 지원합니다. MCP와 같은 표준화된 프로토콜이 없으면 에이전틱 AI는 사고하고 계획할 수는 있지만 외부 시스템과 상호작용할 수 없습니다.

오류 처리 메커니즘

에이전틱 워크플로우를 사용할 때는 시스템이 불안정해지거나 작업을 수행하지 못할 가능성을 고려해야 합니다. 이는 오류가 발생했을 때 이를 처리할 수 있는 대비책을 시스템 안에 마련하는 것을 의미합니다. 자동차 사고에 대비해 에어백을 준비해 두는 것과 같습니다. 이를 '자가 치유(Self-healing)' 기능이라고 부르기도 합니다.

재시도 로직: 에이전트가 사용하는 시스템의 요소가 일시적으로 실패하여 불안정성이 발생하는 경우가 있습니다. 전체 워크플로우를 종료하기보다 재시도 로직을 구축하는 것이 좋은 방어선이 됩니다. 이는 무한 추론 루프와 높은 비용을 방지할 수 있도록 작업을 계속 진행하고 스스로 수정하는 방법에 대한 지침을 만드는 것을 의미합니다.
대체 모델: 기본 모델이 작업을 수행하지 못하거나 비용이 지나치게 높아질 경우 이 보조 모델이 대신 처리할 수 있습니다. 예를 들어 에이전트가 OpenAI를 사용하고 있는데 서비스가 중단되면 Llama 3 같은 로컬 모델로 전환할 수 있습니다.

툴 가드레일

오류 처리 메커니즘이 충돌 발생 시 작동하는 에어백이라면, 가드레일은 애초에 충돌을 방지하는 것을 목표로 하는 브레이크입니다. 예를 들어 사람이 승인한 경우에만 파일을 삭제하도록 에이전트가 따라야 할 룰을 설정할 수 있습니다.

거버넌스 및 컴플라이언스

거버넌스와 컴플라이언스를 통해 에이전트의 모든 작업을 기록하고 설명 가능한 상태로 관리합니다. 이는 개인정보 보호법(GDPR)이나 의료 정보 보호법(HIPAA)처럼 개인정보 보호법을 엄격하게 준수해야 하는 분야에서 특히 중요합니다.

메모리 최적화

에이전트는 대화 기록이 너무 길어지면 '혼란'을 겪을 수 있습니다. 대화 기록이 컨텍스트 윈도우에 과부하를 주고 어텐션 드리프트를 유발하여 환각이 발생하거나 목표 달성 능력이 저하될 수 있습니다. vLLM은 PagedAttention을 메모리 관리 기술로 사용하여 에이전틱 시스템이 긴 컨텍스트 기록을 효율적이고 대규모로 처리하도록 지원하므로, vLLM으로 메모리를 최적화할 수 있습니다. vLLM은 복잡성이 증가해도 높은 성능을 지원하므로 에이전틱 워크플로우에 특히 유용합니다.

vLLM에 대해 자세히 알아보기

멀티에이전트 협업 프레임워크

멀티에이전트 협업은 여러 독립적인 LLM에 서로 다른 역할, 메모리, 툴을 할당하는 방식입니다. 예를 들어 '리서처' 역할을 수행하는 에이전트와 '빌더' 역할을 수행하는 에이전트가 서로 메시지를 주고받으며 최종 결과물을 만들어낼 수 있습니다. 멀티에이전트 협업의 목표는 에이전트가 서로 협력하고 비판하도록 하여 단일 모델의 한계를 극복하는 것입니다.

자율성 딜레마

독립성은 놀라운 결과로 이어질 수도 있고 혼란을 초래할 수도 있습니다. 에이전트에 적절한 수준의 자율성을 부여하기는 쉽지 않으며, 가드레일을 설정해 적절한 균형을 잡는 데 많은 시간이 소요됩니다. 이를 관리하려면 개발자는 휴먼 인 더 루프 체크포인트를 구현하여 에이전트가 승인된 경계 안에서만 작동하도록 해야 합니다.

윤리 및 컴플라이언스 문제

에이전트는 목표 지향적이기 때문에 거래 성사를 위해 고객에게 승인되지 않은 할인을 제안하는 등 '창의적으로' 지름길을 선택할 수 있습니다. 이는 공정 대출법이나 내부 정책을 위반할 수 있습니다. 이를 해결하려면 에이전틱 작업이 법적 기준과 기업 표준을 준수하도록 보장하는 정책 집행 계층과 감사가 필요합니다.

개인정보 보호에 대한 우려

에이전트는 여러 데이터 소스에 액세스할 수 있으므로, 액세스 권한이 없는 사람에게 민감정보나 개인정보를 의도치 않게 공유할 리스크가 있습니다. 금지된 작업 목록을 통해 이러한 리스크를 방지할 수 있습니다.

예상치 못한 비용

에이전트는 사고-행동-관측 루프에서 작동하며, 이 과정은 빠르게 통제 범위를 벗어나 큰 비용을 초래할 수 있습니다. 과도한 리소스 사용을 방지하려면 미리 대비하여 예산 한도와 안전망을 구현해야 합니다.

확장성

노트북 1대에서 에이전트 1개를 실행하는 것과 1,000개의 에이전트가 1,000개의 워크플로우를 동시에 수행하도록 실행하는 것은 매우 다릅니다. 분산 추론, llm-d, vLLM과 같은 툴을 사용하면 에이전트 집합을 실행하는 데 필요한 방대한 메모리 및 컴퓨팅 요구 사항을 관리하는 데 도움이 됩니다.

기업이 워크플로우를 관리하기 위해 AgentOps를 활용하는 몇 가지 사례는 다음과 같습니다.

재무 감시자

에이전트 팀이 매일 수천 건의 거래를 모니터링하고 사기 또는 정책 위반에 플래그를 지정합니다. 이들은 데이터를 수집하고 내부 정책과 대조한 뒤, 사람이 검토할 수 있도록 의심스러운 활동에 플래그를 지정하는 방식으로 작동합니다.

자율형 헬프데스크 도우미

에이전트에 샌드박스 환경에서 코드를 테스트하고 수정할 수 있는 기능을 부여합니다. 작업 티켓이 제출되면 에이전트는 샌드박스에서 버그를 재현하고 잠재적인 해결 코드를 작성한 다음 테스트를 실행합니다. 문제를 해결할 방법을 어느 정도 파악하면 사람에게 알림을 보내 에이전트의 작업을 검토하고 승인하도록 요청합니다.

공급망 감독자

에이전틱 시스템이 전 세계 기상 상태, 해운 파업, 항구 혼잡도를 모니터링합니다. 기상 악화가 발생하면 팀에 경고를 보내고 경로 변경에 따른 비용을 계산하여 대안을 제시합니다.

Red Hat® AI는 전용 AgentOps 컨트롤 플레인을 통해 에이전트의 전체 라이프사이클을 운용합니다. 이를 통해 하이브리드 클라우드 환경 전반에서 모든 배포가 안전하고 관측 가능하며 효율적으로 이루어지도록 보장합니다.

이 플랫폼은 통합된 안전 가드레일을 통해 엔터프라이즈급 거버넌스를 제공합니다. 기반 인프라는 고성능 분산 추론을 위해 vLLM과 llm-d를 사용하므로, 온프레미스부터 엣지 환경에 이르기까지 리소스 집약적인 워크플로우를 확장할 수 있습니다.

Red Hat AI는 vLLM 기반 서버를 통해 빠르고 유연하며 효율적인 추론을 제공합니다. 모델과 데이터를 안정적으로 연결하여 하나의 플랫폼에서 전문 에이전트의 사용자 지정 및 개발을 통합합니다. 오픈소스 기반의 당사 AI 제품으로 규모와 상관없이 AI 워크플로우의 모든 과정을 완전히 제어할 수 있습니다.

추가 자료

Mixture of Experts(MoE)란?

Mixture of Experts(MoE)는 모델 내에서 처리 능력이 가장 높은 부분에 태스크를 라우팅하여 AI 추론을 가속화하는 모델 아키텍처 기술입니다.

소버린 AI란?

소버린 AI의 핵심은 AI 기술을 보유하고, 데이터를 로컬에 유지하고, 시스템이 기업의 고유한 가치와 법적 요구 사항을 반영하도록 하는 것입니다.

llm-d란?

llm-d는 규모에 맞는 분산형 LLM 추론을 가속화하는 쿠버네티스 네이티브 오픈소스 프레임워크입니다.

AI/ML 리소스

주요 제품

Red Hat AI

하이브리드 클라우드 인프라에서 AI 솔루션의 개발과 배포를 가속화하는 유연한 솔루션.