AI 추론이란?
AI 추론은 AI 모델이 데이터를 기반으로 답변을 제공하는 것을 말합니다. 일반적으로 우리가 'AI'라고 하는 것은 실제로는 머신 러닝 기술의 길고 복잡한 프로세스 중 마지막 단계인 AI 추론의 성공을 의미합니다.
충분한 양의 데이터를 사용하여 인공지능(AI) 모델을 학습시키면 AI 추론의 정확성과 속도를 개선할 될 수 있습니다.
예를 들어 AI 모델이 동물에 관한 데이터, 즉 각 동물의 차이점과 유사성부터 일반적인 건강과 행동에 이르기까지 다양한 데이터를 기반으로 학습하는 경우 연관을 짓고 패턴을 식별하려면 대량의 데이터 세트가 필요합니다.
제대로 학습된 모델은 강아지 품종을 식별하거나, 고양이의 울음소리를 인식하거나, 심지어 말이 겁먹었다고 경고하는 등 다양한 추론을 할 수 있습니다. 모델은 추상적인 데이터 세트에서 말고는 이러한 동물을 한 번도 본 적이 없지만, 학습에 사용된 방대한 데이터를 통해 새로운 환경에서 실시간으로 추론하는 것입니다.
사람의 뇌도 이처럼 연관 짓기를 수행합니다. 우리는 책, 영화, 온라인 리소스에서 다양한 동물에 대해 알 수 있습니다. 사진과 동영상을 보고 이러한 동물들의 울음소리를 듣기도 합니다. 그래서 동물원에서 실제 동물을 봤을 때 "저게 물소구나"하고 추론할 수 있는 것입니다. 그 동물을 실제로 보는 것이 처음이더라도 그때까지 해온 조사를 통해 동물을 알아볼 수 있습니다. AI 모델의 AI 추론 또한 동일한 작업입니다.
AI 추론이 중요한 이유는?
AI 추론은 AI의 작업 단계입니다. 이 단계에서 모델은 학습한 내용을 실제 상황에 적용할 수 있습니다. AI는 패턴을 식별하고 결론에 도달하는 능력을 갖고 있다는 점에서 다른 기술과 차별화됩니다. AI의 추론 능력은 실제 환경의 일상적인 태스크 또는 극도로 복잡한 컴퓨터 프로그래밍에 도움이 될 수 있습니다.
Red Hat의 AI 솔루션: 오픈소스로 AI 모델 개발, 배포, 운영하기
AI 추론 활용 사례
오늘날 기업은 다양한 일상적 활용 사례에서 AI 추론을 사용합니다. 다음은 몇 가지 예시입니다.
의료: AI 추론은 의료 전문가가 환자 이력을 현재 데이터와 비교하는 것을 돕고 패턴과 이상 현상을 사람보다 더 빨리 추적할 수 있습니다. 예를 들면 뇌 스캔에서 발견된 이상한 점이나 심장 박동의 불규칙성 같은 것이죠. 이를 통해 환자 건강의 위험 징후를 훨씬 더 빨리 조기에 발견할 수 있습니다.
재무: 은행 거래 및 신용 정보로 이루어진 대량의 데이터 세트를 기반으로 학습한 모델은 AI 추론을 통해 오류 또는 비정상적인 데이터를 실시간으로 식별하여 사기 행위를 조기에 빠르게 확인할 수 있습니다. 이를 통해 고객 서비스 리소스를 최적화하고, 고객의 개인 정보를 보호하고, 브랜드 평판을 높일 수 있습니다.
자동차: 자동차 산업에서 AI를 도입함에 따라 자동차는 기존의 운전 관행에 변화를 가져오고 있습니다. 자동차는 AI 추론을 통해 가장 효율적인 이동 경로를 탐색하거나 정지 신호가 보이면 브레이크를 작동할 수 있습니다. 이를 통해 운전자와 탑승자의 편의성과 안전을 향상합니다.
그 외에도 다양한 산업에서 AI 추론을 창의적인 방식으로 적용하고 있습니다. 패스트푸드 드라이브스루 매장, 동물병원 또는 호텔 컨시어지에도 적용할 수 있습니다. 기업은 이 기술을 유용하게 활용하여 정확성을 높이고, 시간과 비용을 절약하고, 경쟁 우위를 유지하기 위한 방법을 모색하고 있습니다.
AI 학습이란?
AI 학습은 데이터를 사용하여 모델이 연관을 짓고 패턴을 식별할 수 있도록 가르치는 과정입니다. 학습은 AI 모델을 가르치는 단계이고 추론은 AI 모델이 실제로 작동하는 단계입니다.
대부분의 AI 학습은 모델 구축의 초기 단계에 수행됩니다. 학습을 마친 모델은 이전에 접하지 않은 데이터도 연관 지을 수 있습니다. AI 모델 학습에 사용하는 데이터 세트 규모가 방대할수록 더 많은 연관성을 학습하고 더욱 정확하게 추론할 수 있습니다. 학습 후에 모델이 정확하게 추론하는 데 문제가 있는 경우, 미세 조정(fine-tuning)을 통해 지식을 추가하고 정확성을 개선할 수 있습니다.
학습과 AI 추론을 통해 AI는 근거와 추리로 결론을 내리는 것과 같은 사람의 능력을 모방합니다.
AI 추론의 여러 유형
다양한 유형의 AI 추론을 사용하여 다양한 활용 사례를 지원할 수 있습니다.
- 배치 추론: 배치 추론이라는 이름은 데이터를 큰 그룹으로 수신하고 처리하는 방식에서 따왔습니다. 이 방법은 추론을 실시간으로 처리하는 대신 정기적으로 데이터를 처리하며, 데이터의 양과 AI 모델의 효율성에 따라 그 간격은 매시간 또는 매일일 수도 있습니다. 이러한 추론을 '오프라인 추론' 또는 '정적 추론'이라고도 합니다.
온라인 추론: 온라인 추론 또는 '동적' 추론은 실시간으로 답변을 제공할 수 있습니다. 이러한 추론은 대기 시간 장벽을 낮추고 고속 예측을 지원할 수 있는 하드웨어와 소프트웨어를 필요로 합니다. 온라인 추론은 엣지에서 유용할 수 있습니다. 즉 데이터가 있는 위치에서 AI가 작업을 수행하는 것을 의미합니다. 그러한 위치는 휴대폰, 자동차 또는 연결이 제한된 원격 사무실 등일 수 있습니다.
OpenAI의 ChatGPT는 온라인 추론의 좋은 예입니다. ChatGPT는 빠르고 정확한 답변을 제공하기 위해 사전에 대규모의 운영 지원을 필요로 합니다.
- 스트리밍 추론: 스트리밍 추론은 사람과의 의사소통에 반드시 사용되지는 않는 AI를 가리킵니다. 이 모델은 프롬프트와 요청을 사용하는 대신 상시 데이터 흐름을 수신하여 예측을 수행하고 내부 데이터베이스를 업데이트합니다. 스트리밍 추론은 변화를 모니터링하거나 규칙성을 유지하거나 문제를 사전에 예측하는 데 활용할 수 있습니다.
AI 추론 서버란?
AI 추론 서버는 AI 모델이 학습 단계에서 운영 단계로 넘어갈 수 있게 도와주는 소프트웨어입니다. 머신 러닝을 통해 모델이 학습한 내용을 실제에 적용하여 추론을 생성하도록 돕습니다.
효율적인 결과를 얻기 위해서는 AI 추론 서버와 AI 모델이 호환되어야 합니다. 다음은 추론 서버와 각 추론 서버에 가장 적합한 모델의 예시입니다.
- 멀티모달 추론 서버: 이 유형의 추론 서버는 동시에 여러 모델을 지원할 수 있습니다. 데이터를 코드, 이미지 또는 텍스트 형식으로 수신한 다음 단일 서버에서 모든 추론을 처리합니다. 멀티모달 추론 서버는 여러 개의 모델을 지원하기 위해 GPU 및 CPU 메모리를 더욱 효율적으로 사용합니다. 이를 통해 하드웨어를 간소화하여 확장을 용이하게 하고 비용 최적화를 지원합니다.
- 단일 모델 추론 서버: 이 추론 서버는 여러 개가 아닌 하나의 모델만 지원합니다. AI 추론 프로세스도 특정 활용 사례를 기반으로 학습한 모델과 커뮤니케이션하도록 특화되어 있습니다. 이 유형의 서버는 텍스트 또는 코드 형식의 데이터만 처리할 수 있습니다. 특정 분야에 집중되어 있어 효율성이 매우 높기 때문에 실시간으로 의사결정을 내리거나 리소스가 제한적인 경우에 유용합니다.
AI 추론의 과제
AI 추론 실행에 있어 최대 과제는 확장과 리소스, 비용입니다.
- 복잡성: 그림을 생성하거나 고객에게 반품 정책을 안내하는 것과 같이 단순한 태스크를 실행하도록 모델을 학습시키는 것은 상대적으로 쉽습니다. 하지만 모델이 금융 사기를 포착하거나 의료적인 이상 징후를 식별하는 등 더욱 복잡한 데이터를 학습하게 되면서, 모델 학습에 더 많은 데이터가 필요해졌고 이러한 데이터를 지원하기 위한 리소스도 더 많이 요구하게 되었습니다.
- 리소스: 복잡한 모델은 추론을 생성할 때 수행되는 대량의 데이터 처리를 지원하기 위해 전문적인 하드웨어와 소프트웨어를 필요로 하게 됩니다. 이러한 리소스의 핵심 요소는 중앙 처리 장치(Central Processing Unit, CPU) 메모리입니다. CPU는 종종 컴퓨터의 허브 또는 컨트롤 센터라고도 불립니다. 모델은 학습한 내용(학습 데이터)을 활용하여 답변을 생성하려고 준비하는 단계에서 CPU 메모리 공간에 저장된 데이터를 재참조해야 합니다.
- 비용: AI 추론을 가능하게 하는 모든 부품의 비용은 저렴하지 않습니다. 목표가 규모 확장이든 최신 AI 지원 하드웨어로 이전하는 것이든, 큰 그림을 그리려면 방대한 리소스가 필요합니다. 모델의 복잡성이 커지고 하드웨어가 진화를 거듭하면서 비용이 급격하게 증가할 수 있으며, 기업이 AI 혁신 속도를 따라잡기가 어려워집니다.
생성형 AI 애플리케이션의 출력을 가속화하는 추론 서버인 vLLM은 이러한 과제를 해결하기 위한 솔루션입니다.
Red Hat의 지원 방식
Red Hat AI는 AI 여정의 초기 단계에 있는 기업이든, 하이브리드 클라우드 전반으로 확장할 준비까지 마친 기업이든 상관없이 AI 여정에 오른 기업이라면 모두 도움을 줄 수 있는 제품 및 서비스의 포트폴리오입니다. 고유한 엔터프라이즈 활용 사례에 대한 생성형 AI와 예측 AI를 둘 다 지원할 수 있습니다.
Red Hat AI는 시장 출시 시간을 단축하고 AI 플랫폼 활용을 가로막는 리소스 및 재무 관련 부담을 줄입니다. Red Hat AI는 데이터가 있는 모든 위치에 배포할 수 있는 유연성을 바탕으로 목적에 맞는 소규모 모델을 효율적으로 조정합니다.
Red Hat AI는 오픈소스 기술과 다양한 인프라 전반에서 성능, 안정성, GPU 지원에 초점을 맞춘 파트너 에코시스템을 기반으로 합니다.