AI를 위한 파운데이션 모델이란?

공개 2023년 9월 14일•4분 읽기

파운데이션 모델은 다양한 태스크를 수행하기 위해 사전 학습된 머신 러닝(Machine Learning, ML) 모델 유형을 말합니다.

최근까지 인공지능(Artificial Intelligence, AI) 시스템은 특정 애플리케이션이나 단일 활용 사례를 위해 ML 모델을 학습시켜야 하는 특화된 도구였습니다. 베이스 모델(base model)이라고도 알려진 파운데이션 모델이라는 용어는 전문가들이 머신 러닝 분야 내의 다음 두 가지 동향에 주목하면서 널리 사용되기 시작했습니다.

소수의 딥러닝 아키텍처가 다양한 작업에 대한 결과를 얻는 데 사용되고 있었습니다.
학습 시 의도하지 않았던 새로운 개념이 AI 모델에서 발생할 수 있습니다.

파운데이션 모델(예: IBM의 Granite 모델)은 패턴, 구조, 표현에 대한 일반적인 맥락적 이해를 바탕으로 기능하도록 프로그래밍되어 왔습니다. 패턴을 전달하고 식별하는 방법에 대한 이와 같은 근본적인 이해는 향후 수정 또는 미세 조정을 거쳐 거의 모든 업계에서 영역별 작업을 수행할 수 있는 지식의 기준을 생성합니다.

Red Hat AI 살펴보기

파운데이션 모델이 기능을 수행하도록 지원하는 두 가지 뚜렷한 특징은 전이 학습과 스케일링입니다. 전이 학습은 하나의 상황에 관한 정보를 다른 상황에 적용하여 내부 "지식"을 기반으로 구축하는 모델의 능력을 의미합니다.

스케일링은 모델이 병렬 처리라고 알려진 여러 계산을 동시에 수행하도록 하는 하드웨어, 특히 GPU(그래픽 처리 장치)를 의미합니다. GPU는 데이터를 빠르게 처리하고 복잡한 통계적 계산을 수행하는 능력을 제공하기 때문에 파운데이션 모델을 비롯하여 딥러닝 모델을 학습시키고 배포하는 데 중요한 역할을 합니다.

딥러닝과 파운데이션 모델
많은 파운데이션 모델, 특히 NLP(Natural Language Processing, 자연어 처리), 컴퓨터 비전, 오디오 처리에 사용되는 파운데이션 모델은 딥러닝 기술을 사용하여 사전에 학습됩니다. 딥러닝은 전체는 아니지만 다수의 파운데이션 모델을 뒷받침하는 기술로, 관련 분야에서 상당한 기술 발전을 이끌어 온 원동력이기도 합니다. 딥 뉴럴 러닝 또는 딥 뉴럴 네트워킹이라고도 하는 딥러닝은 컴퓨터가 인간이 지식을 얻는 방식을 모방하여 관찰을 통해 학습하도록 가르칩니다.

트랜스포머와 파운데이션 모델
모든 파운데이션 모델이 트랜스포머를 사용하는 것은 아니지만, 트랜스포머 아키텍처는 ChatGPT, BERT, DALL-E 2 등 텍스트를 포함하는 파운데이션 모델을 구축하는 데 널리 사용된다는 사실이 입증되었습니다. 트랜스포머는 데이터 시퀀스에서 요소 간의 컨텍스트 관계와 종속성을 포착할 수 있도록 하여 ML 모델의 기능을 향상합니다. 트랜스포머는 일종의 ANN(Artificial Neural Network, 인공 신경망)이며 NLP 모델에 사용되지만, 특이하게도 컴퓨터 비전이나 음성 처리 모델을 사용하는 ML 모델에는 보통 사용되지 않습니다.

파운데이션 모델을 학습시킨 이후에는 방대한 데이터 풀에서 얻은 지식을 문제 해결에 활용할 수 있으며, 이러한 기술은 다방면으로 조직에 귀중한 인사이트와 기여를 제공할 수 있습니다. 파운데이션 모델이 수행할 수 있는 일반적인 작업은 다음과 같습니다.

자연어 처리(NLP)
NLP를 학습하여 맥락, 문법, 언어적 구조를 인식하는 파운데이션 모델은 학습한 데이터로부터 정보를 생성하고 추출할 수 있습니다. 텍스트와 정서(긍정적, 부정적, 중립)를 연계하도록 학습시켜 NLP 모델을 더욱 미세하게 조정하면 고객 피드백, 온라인 리뷰 또는 소셜 미디어 게시물과 같은 글로 작성된 메시지를 분석하는 기업이 유용하게 활용할 수 있습니다. NLP는 대규모 언어 모델(Large Language Model, LLM)의 개발과 애플리케이션을 포괄하는 더욱 광범위한 분야입니다.

컴퓨터 비전
모델이 기본적인 모양과 특징을 인식할 수 있게 되면 패턴을 식별하기 시작합니다. 컴퓨터 비전 모델을 더욱 미세하게 조정하면 콘텐츠 조정, 얼굴 인식, 이미지 분류를 자동화할 수 있습니다. 또한 학습한 패턴을 바탕으로 새로운 이미지를 생성할 수도 있습니다.

오디오/음성 처리
모델이 음성 요소를 인식할 수 있게 되면 사람의 목소리에서 의미를 끌어낼 수 있어 더 효율적이고 폭넓은 커뮤니케이션이 가능해집니다. 가상 비서, 다국어 지원, 음성 명령, 전사와 같은 기능은 접근성과 생산성을 높입니다.

추가 미세 조정을 통해 금융 기관을 위한 사기 감지, 의료 분야의 DNA 염기 서열화, 고객 서비스용 챗봇 등 산업별 요구 사항을 해결하는 더욱 특화된 머신 러닝 시스템을 설계할 수 있습니다.

파운데이션 모델은 자체적으로 AI 기술을 획득해 활용할 수 있는 리소스를 보유하지 못한 많은 조직을 위해 AI 분야 접근성과 정교한 기술을 제공합니다. 기업은 파운데이션 모델을 채택하고 이를 확장함으로써 다음과 같은 일반적인 문제를 극복할 수 있습니다.

고품질 데이터에 대한 액세스 제한: 파운데이션 모델은 대부분의 조직이 액세스할 수 없는 데이터를 기반으로 한 모델을 제공합니다.

모델 성능/정확성: 파운데이션 모델은 조직이 수개월 또는 수년간의 노력을 통해 구축할 수 있는 높은 수준의 정확성을 기본으로 제공합니다.

가치 창출 시간: 머신 러닝 모델을 학습시키는 데 오랜 시간이 걸릴 수 있으며, 많은 리소스가 필요합니다. 파운데이션 모델은 기본적으로 사전에 학습되므로 조직은 미세 조정을 통해 맞춤형 결과를 얻을 수 있습니다.

제한된 인재: 파운데이션 모델은 조직이 데이터 사이언스 리소스에 막대한 투자를 하지 않아도 AI/ML을 활용할 수 있는 방법을 제공합니다.

비용 관리: 파운데이션 모델을 사용하면 초기 학습에 필요한 값비싼 하드웨어를 사용할 필요가 줄어듭니다. 물론 최종 모델을 제공하고 미세 조정하는 데 비용이 들긴 하지만, 이러한 비용은 파운데이션 모델 자체를 학습시키는 데 필요한 비용에 비하면 일부분에 불과합니다.

기업에서 AI를 활용할 수 있는 방식 알아보기

파운데이션 모델과 관련한 흥미로운 적용 사례도 매우 많지만, 염두에 두어야 할 잠재적인 과제도 상당합니다.

비용
파운데이션 모델은 개발, 학습, 배포하기 위해 많은 리소스를 필요로 합니다. 초기에 파운데이션 모델을 학습시키는 단계에서는 방대한 양의 일반 데이터가 필요하며, 방대한 수의 GPU를 사용하고, 머신 러닝 엔지니어와 데이터 사이언티스트 그룹이 필요하기도 합니다.

Models-as-a-Service(MaaS)를 사용하면 조직은 모델을 처음부터 학습시키는 수고를 덜 수 있습니다. 모델을 라이브 애플리케이션에 사용하기 위해서는 vLLM과 같은 추론 서버를 활용할 수 있습니다. vLLM은 효율적인 대규모 추론 기능을 제공하여, 개발자들이 하드웨어에서 최대한의 성능 잠재력을 끌어낼 수 있도록 합니다.

수십억 개의 매개변수를 가진 초대형 파운데이션 모델의 경우, 분산 추론과 llm-d와 같은 기술로 효율성을 크게 높이고 리소스를 절약할 수 있습니다.

해석 가능성(interpretability)
'블랙박스'는 인공지능(AI) 프로그램이 신경망 내에서 태스크를 수행하지만 작업을 표시하지는 않는 경우를 말합니다. 그러면 알고리즘을 만든 데이터 사이언티스트와 엔지니어를 포함한 어느 누구도 모델이 특정 출력에 도달한 방법을 정확하게 설명할 수 없습니다. 블랙박스 모델을 해석할 능력이 부족하기 때문에 이 기능이 특히 의료, 사법 제도, 금융 등의 분야에서 고위험 의사 결정에 사용되는 경우 폐해를 초래할 수 있습니다. 이와 같은 블랙박스 효과는 파운데이션 모델뿐 아니라 어떠한 신경망 파운데이션 모델에서든 발생할 수 있습니다.

프라이버시와 보안
파운데이션 모델에는 많은 정보에 대한 액세스가 필요하며, 때로는 그러한 정보에 고객 정보나 상용 비즈니스 데이터가 포함되기도 합니다. 이는 제3사 공급업체가 모델을 배포하거나 모델에 액세스하는 경우에 특히 주의해야 하는 부분입니다.

AI 보안에 대해 자세히 알아보기

정확성과 편향
딥러닝 모델이 통계적으로 편향된 데이터로 학습하거나 모집단의 정확한 표현을 제공하지 않는 경우 출력에 결함이 있을 수 있습니다. 안타깝게도 사람의 편견이 인공지능에 전달되어 차별적인 알고리즘과 편향 출력에 대한 위험을 초래할 때가 많습니다. 조직이 생산성과 성과 향상을 위해 AI를 지속적으로 활용하는 만큼, 편향을 최소화하기 위한 전략 마련이 중요해졌습니다. 이를 위해서는 우선 포용적인 설계 프로세스를 갖추고 수집된 데이터 내 다양한 대표성을 고려해야 합니다.

모델 컨텍스트 프로토콜 (MCP)을 통해 모델이 외부 데이터에 액세스하고 사용하는 방식을 표준화함으로써 모델 출력의 정확성을 향상할 수 있습니다. 모델과 외부 문서(예: 내부 회사 문서 또는 실시간 API) 사이에 구조화된 통신 흐름을 생성함으로써, 출력은 추적되고, 검증되며, 편향 여부를 스크리닝할 수 있습니다. 또한, MCP를 통해 공식적인 연결을 구축하면 새로운 데이터 소스가 도입될 때 검색 증강 생성(RAG) 시스템을 확장하고 유지보수하기가 더 쉬워집니다.

Red Hat AI로 AI 운영화

Red Hat^® AI는 고객이 이미 신뢰하는 솔루션을 토대로 구축된 Red Hat의 AI 제품 포트폴리오입니다.

Red Hat AI가 조직에 제공하는 이점은 다음과 같습니다.

AI를 신속하게 도입하고 활용하여 빠르게 혁신
AI 솔루션 제공의 복잡성 해소
어디서나 배포

Red Hat AI 살펴보기

IBM의 Granite 제품군 모델에 대한 손쉬운 액세스

파운데이션 모델을 실험할 준비는 되었지만 귀사의 비즈니스 활용 사례가 무엇인지 확실치 않다면 Red Hat^®Enterprise Linux^® AI로 시작하세요. Red Hat Enterprise Linux는 개별 서버 환경에서 LLM을 실행하기 위한 플랫폼입니다. 이 솔루션에는 처리량을 극대화하고 대기 시간을 최소화하여 하이브리드 클라우드 전반에서 빠르고 비용 효율적인 추론을 제공하는 Red Hat AI Inference Server가 포함됩니다.

개발자는 LLM과 AI 툴링을 갖춘 단일 서버 환경에 빠르게 액세스할 수 있습니다. 또한 모델을 조정하고 생성형 AI 애플리케이션을 빌드하는 데 필요한 모든 것을 제공합니다.

Red Hat Enterprise Linux AI 살펴보기

추가 자료

분산 추론(distributed inference)이란?

분산 추론은 추론 작업을 상호 연결된 일련의 기기에 분배하여 AI 모델이 더 효율적으로 워크로드를 처리할 수 있도록 하는 것을 말합니다.

MCP(Model Context Protocol)란?

MCP(Model Context Protocol)가 AI 애플리케이션을 외부 데이터 소스에 연결함으로써 더욱 스마트한 워크플로우를 구축하는 데 어떻게 도움이 되는지 알아보세요.

AIOps 설명

AIOps(IT 운영을 위한 AI)는 머신 러닝과 기타 고급 AI 기술로 IT 운영을 자동화하는 방식입니다.

AI를 위한 파운데이션 모델이란?

Red Hat 리소스

IBM의 Granite 제품군 모델에 대한 손쉬운 액세스

엔터프라이즈를 위한 AI 시작하기: 입문자용 가이드

모든 Red Hat 제품 체험판

추가 자료

분산 추론(distributed inference)이란?

MCP(Model Context Protocol)란?

AIOps 설명

AI/ML 리소스

플랫폼

툴

체험, 구매 & 영업

커뮤니케이션

Red Hat 소개

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links