AI를 위한 기반 모델이란?

URL 복사

기반 모델이란 다양한 작업을 수행할 수 있도록 사전에 훈련된 ML(머신 러닝) 모델의 한 유형을 말합니다. 

최근까지 AI(인공지능) 시스템은 특정 애플리케이션이나 단일 활용 사례를 위해 ML 모델을 훈련해야 하는 특화된 도구였습니다. 베이스 모델(base model)이라고도 알려진 기반 모델이라는 용어는 전문가들이 머신 러닝 분야 내의 다음 두 가지 동향에 주목하면서 널리 사용되기 시작했습니다.

  1. 소수의 딥러닝 아키텍처가 다양한 작업에 대한 결과를 얻는 데 사용되고 있었습니다.
  2. 훈련에서 의도하지 않았던 새로운 개념이 AI(인공지능) 모델에서 발생할 수 있습니다. 

기반 모델은 패턴, 구조, 표현을 일반적인 맥락에서 이해하도록 프로그래밍 되어 왔습니다. 패턴을 전달하고 식별하는 방법에 대한 이와 같은 근본적인 이해는 향후 수정 또는 미세 조정을 거쳐 거의 모든 업계에서 영역별 작업을 수행할 수 있는 지식의 기준을 생성합니다.

 

기반 모델이 기능을 수행하도록 지원하는 두 가지 뚜렷한 특징은 전이 학습과 스케일링입니다. 전이 학습은 하나의 상황에 관한 정보를 다른 상황에 적용하여 내부 "지식"을 기반으로 구축하는 모델의 능력을 의미합니다.

 스케일링은 모델이 병렬 처리라고 알려진 여러 계산을 동시에 수행하도록 하는 하드웨어, 특히 GPU(그래픽 처리 장치)를 의미합니다. GPU는 데이터를 빠르게 처리하고 복잡한 통계적 계산을 수행하는 능력을 제공하기 때문에 기반 모델을 비롯하여 딥러닝 모델을 훈련하고 배포하는 데 중요한 역할을 합니다.

딥러닝과 기반 모델
많은 기반 모델, 특히 NLP(자연어 처리), 컴퓨터 비전, 오디오 처리에 사용되는 기반 모델은 딥러닝 기술을 사용하여 사전에 훈련됩니다. 딥러닝은 전체는 아니지만 다수의 기반 모델을 뒷받침하는 기술로, 관련 분야에서 상당한 기술 발전을 이끌어 온 원동력이기도 합니다. 딥 뉴럴 러닝 또는 딥 뉴럴 네트워킹이라고도 하는 딥러닝은 컴퓨터가 인간이 지식을 얻는 방식을 모방하여 관찰을 통해 학습하도록 가르칩니다. 

트랜스포머와 기반 모델
모든 기반 모델이 트랜스포머를 사용하는 것은 아니지만, 트랜스포머 아키텍처는 ChatGPT, BERT, DALL-E 2와 같은 텍스트 관련 기반 모델을 구축하는 데 널리 사용되는 방식으로 입증되었습니다. 트랜스포머는 ML 모델이 데이터 시퀀스 내의 요소 간 맥락적 관계와 종속성을 파악하도록 하여 ML 모델의 기능을 향상합니다. 트랜스포머는 일종의 인공 신경망(ANN)이며 NLP 모델에 사용되지만, 특이하게도 컴퓨터 비전이나 음성 처리 모델을 사용하는 ML 모델에는 보통 사용되지 않습니다.

기반 모델을 훈련한 이후에는 방대한 데이터 풀에서 얻은 지식을 문제 해결에 활용할 수 있으며, 이러한 기술은 다방면으로 조직에 귀중한 인사이트와 기여를 제공할 수 있습니다. 기반 모델이 수행할 수 있는 일반적인 작업은 다음과 같습니다.

NLP(자연어 처리)
NLP 훈련을 받아 맥락, 문법, 언어적 구조를 인식하는 기반 모델은 훈련받은 데이터로부터 정보를 생성하고 추출할 수 있습니다. 텍스트와 정서(긍정적, 부정적, 중립)를 연계하도록 훈련하여 NLP 모델을 더욱 미세하게 조정하면 고객 피드백, 온라인 리뷰 또는 소셜 미디어 게시물과 같은 글로 작성된 메시지를 분석하는 기업이 유용하게 활용할 수 있습니다. NLP는 대규모 언어 모델(LLM)의 개발과 응용 분야를 포괄하는 더욱 광범위한 분야입니다.

컴퓨터 비전
모델이 기본적인 모양과 특징을 인식할 수 있게 되면 패턴을 식별하기 시작합니다. 컴퓨터 비전 모델을 더욱 미세하게 조정하면 콘텐츠 조정, 얼굴 인식, 이미지 분류를 자동화할 수 있습니다. 또한 학습한 패턴을 바탕으로 새로운 이미지를 생성할 수도 있습니다. 

오디오/음성 처리
모델이 음성 요소를 인식할 수 있게 되면 사람의 목소리에서 의미를 끌어낼 수 있어 더 효율적이고 폭넓은 커뮤니케이션이 가능해집니다. 가상 비서, 다국어 지원, 음성 명령, 전사와 같은 기능은 접근성과 생산성을 높입니다. 

추가 미세 조정으로 금융 기관을 위한 사기 감지, 의료 분야의 DNA 염기 서열화, 고객 서비스용 챗봇 등 업계별 요구사항을 해결하는 더욱 특화된 머신 러닝 시스템을 설계할 수 있습니다.

AI/ML 평가하기 

기반 모델은 자체적으로 AI 기술을 획득해 활용할 수 있는 리소스를 보유하지 못한 많은 조직을 위해 AI 분야 접근성과 정교한 기술을 제공합니다. 기업은 기반 모델을 채택하고 이를 확장함으로써 다음과 같은 일반적인 문제를 극복할 수 있습니다.

고품질 데이터에 대한 액세스 제한: 기반 모델은 대부분의 조직이 액세스할 수 없는 데이터를 기반으로 한 모델을 제공합니다.

모델 성능/정확성: 기반 모델은 조직이 수개월 또는 수년간의 노력을 통해 구축할 수 있는 높은 수준의 정확성을 기본으로 제공합니다. 

가치 창출 시간: 머신 러닝 모델을 훈련하는 데 오랜 시간이 걸리며 많은 리소스가 필요할 수 있습니다. 기반 모델은 기본적으로 사전 훈련되므로 조직은 미세 조정을 통해 맞춤형 결과를 얻을 수 있습니다. 

제한된 인재: 기반 모델은 조직이 데이터 사이언스 리소스에 막대한 투자를 하지 않아도 AI/ML을 활용할 수 있는 방안을 제시합니다. 

비용 관리: 기반 모델을 사용하면 초기 훈련에 필요한 값비싼 하드웨어를 사용할 필요가 줄어듭니다. 물론 최종 모델을 제공하고 미세 조정하는 데 비용이 들긴 하지만, 이러한 비용은 기반 모델 자체를 훈련하는 데 필요한 비용에 비하면 일부분에 불과합니다.

 

기반 모델과 관련한 흥미로운 적용 사례도 매우 많지만, 염두에 두어야 할 잠재적인 과제도 상당합니다.

비용
기반 모델은 개발, 훈련, 배포하기 위해 많은 리소스를 필요로 합니다. 초기에 기반 모델을 훈련하는 단계에서는 방대한 양의 일반 데이터가 필요하며, 방대한 수의 GPU를 사용하고, 머신 러닝 엔지니어와 데이터 과학자 그룹이 필요하기도 합니다. 

해석가능성
'블랙박스'는 AI 프로그램이 신경망 내에서 작업을 수행하지만, 그 내용을 표시하지 않는 경우를 말합니다. 그러면 알고리즘을 만든 데이터 과학자와 엔지니어를 포함한 어느 누구도 모델이 특정 출력에 도달한 방법을 정확하게 설명할 수 없는 시나리오가 만들어집니다. 블랙박스 모델을 해석할 능력이 부족하기 때문에 이 기능이 특히 의료, 사법 제도, 금융 등의 분야에서 고위험 의사 결정에 사용되는 경우 폐해를 초래할 수 있습니다. 이와 같은 블랙박스 효과는 기반 모델뿐 아니라 어떠한 신경망 기반 모델에서든 발생할 수 있습니다. 

프라이버시와 보안 
기반 모델에는 많은 정보에 대한 액세스가 필요하며, 때로는 그러한 정보에 고객 정보나 독점 비즈니스 데이터가 포함되기도 합니다. 이는 제3사 제공업체가 모델을 배포하거나 액세스하는 경우에 특히 주의해야 하는 부분입니다.

정확성과 편향 
딥러닝 모델이 통계적으로 편향된 데이터로 학습하거나 모집단의 정확한 표현을 제공하지 않는 경우 출력에 결함이 있을 수 있습니다. 안타깝게도 사람의 편견이 인공지능에 전달되어 차별적인 알고리즘과 편향 출력에 대한 위험을 초래할 때가 많습니다. 조직이 생산성과 성과 향상을 위해 AI를 지속적으로 활용하는 만큼, 편향을 최소화하기 위한 전략 마련이 중요해졌습니다. 이를 위해서는 우선 포용성 있는 설계 프로세스를 갖추고 수집된 데이터 내 대표성을 지닌 다양성을 더욱 신중하게 고려해야 합니다. 

기반 모델과 관련하여 Red Hat이 중점적으로 고려하는 부분은 이와 같은 모델의 훈련, 프롬프트 조정, 미세 조정, 제공을 지원하는 환경을 비롯하여 기반이 되는 워크로드 인프라를 제공하는 것입니다.

선도적인 하이브리드 및 멀티클라우드 컨테이너 개발 플랫폼인 Red Hat® OpenShift®는 데이터 사이언티스트와 소프트웨어 개발자 간의 협업을 지원합니다. 또한 데이터센터에서 네트워크 엣지, 멀티클라우드에 이르는 하이브리드 클라우드 환경 전반에서 지능형 애플리케이션 출시를 가속화합니다.

조직은 Red Hat OpenShift Data Science를 통해 쿠버네티스 인프라를 설계하고 배포할 필요 없이 컨테이너화된 머신 러닝 모델을 빠르게 개발, 훈련, 테스트, 배포하기 위한 리소스에 액세스할 수 있습니다. 

Red Hat OpenShift AI의 입증된 기반은 고객이 온프레미스 또는 클라우드 서비스를 통해 OpenShift의 네이티브 GPU 가속화 기능을 사용하여 기반 모델을 훈련할 수 있도록 더욱 안정적인 스케일링을 지원합니다. 또한 OpenShift AI는 IBM watsonx와 Ansible® Lightspeed를 구동합니다. 

IBM Watson Code Assistant가 적용된 Ansible Lightspeed는 개발자들이 더욱 효율적으로 Ansible 콘텐츠를 만들도록 지원하는 생성형 AI 서비스입니다. 사용자가 입력한 간단한 내용을 읽은 후 IBM watsonx 파운데이션 모델과 상호작용하여 자동화 작업을 위한 코드 권장 사항을 생성하고 이를 사용하여 Ansible Playbook을 생성합니다. Red Hat OpenShift에 Ansible Lightspeed를 배포하면 지능형 자동화와 오케스트레이션을 통해 어려운 쿠버네티스 작업을 더 손쉽게 수행할 수 있습니다.

추가 자료

문서

Red Hat OpenShift Operator란?

Red Hat OpenShift Operators automate the creation, configuration, and management of instances of Kubernetes-native applications.

문서

Red Hat OpenShift Serverless를 선택해야 하는 이유

Red Hat OpenShift Serverless는 서버리스 워크로드를 배포 및 관리하기 위해 쿠버네티스를 확장합니다.

문서

Red Hat OpenShift Service Mesh를 선택해야 하는 이유

Red Hat OpenShift Service Mesh는 마이크로서비스 기반 애플리케이션을 일관된 방식으로 연결, 관리, 제어할 수 있게 합니다.

OpenShift에 대한 자세한 내용

제품

선택한 인프라에서 애플리케이션 출시 테스트를 완료한 통합 서비스 세트를 포함하는 엔터프라이즈 애플리케이션 플랫폼입니다.

신속하게 모델과 AI 기반 애플리케이션을 개발, 훈련, 서비스하고 모니터링하는 툴을 제공하는 AI 플랫폼입니다.

컨테이너를 추가 또는 축소하더라도 환경 전반에서 영구적으로 데이터를 저장할 수 있는 소프트웨어 정의 스토리지입니다.

빌트인 보안 정책을 갖춘 단일 콘솔로 쿠버네티스 클러스터와 애플리케이션을 관리합니다.

리소스

교육

무료 교육 과정

Running Containers with Red Hat Technical Overview

무료 교육 과정

Developing Cloud-Native Applications with Microservices Architectures

무료 교육 과정

Containers, Kubernetes and Red Hat OpenShift Technical Overview