LLMOps란?
LLM(Large Language Model, 대규모 언어 모델)은 인간 언어를 이해하고 생성하는 머신 러닝(ML) 모델입니다. GPT-3, LLaMA, Falcon과 같은 LLM은 데이터에서 학습하여 단어와 문장을 생성하는 툴입니다. 이러한 툴이 진화를 거듭하면서 조직은 해당 모델의 운영에 관한 모범 사례가 필요하게 되었습니다. 이것이 바로 LLMOps가 도입된 이유입니다.
LLMOps(대규모 언어 모델 운영)는 대규모 언어 모델을 관리하는 데 사용되는 운영 방법입니다. LLM의 라이프사이클은 미세 조정부터 유지 관리에 이르기까지 LLMOps를 통해 관리되고 자동화되므로 개발자와 팀이 LLM을 배포, 모니터링, 유지 관리하는 데 도움이 됩니다.
LLMOps와 MLOps 비교
LLM이 ML 모델의 하위 집합이라면, LLMOps는 머신 러닝 운영(MLOps)에 해당하는 대규모 언어 모델입니다. MLOps는 ML 모델의 배포 및 유지 관리 프로세스 간소화를 목표로 하는 일련의 워크플로우 사례입니다. MLOps는 지속적인 발전을 통해 ML 모델을 소프트웨어 개발 프로세스에 통합하고자 합니다. 마찬가지로 LLMOps는 LLM 개발 및 배포 라이프사이클을 지속적으로 실험, 반복, 배포, 개선하고자 합니다.
LLMOps와 MLOps는 유사한 점도 있지만, 다음과 같은 차이점도 있습니다.
학습: 기존의 ML 모델은 일반적으로 처음부터 새로 생성되거나 학습하지만, LLM은 파운데이션 모델에서 시작하여 태스크 성능을 개선하기 위해 데이터로 미세 조정됩니다.
튜닝: LLM의 경우 미세 조정(fine-tuning)은 성능을 개선하고 정확도를 높여 모델이 특정 주제에 대한 지식을 더 많이 갖출 수 있도록 합니다. 즉각적인 조정을 통해 특정 태스크에 대한 LLM의 성능을 개선할 수 있습니다. 하이퍼파라미터 조정도 다릅니다. 기존 ML에서는 조정이 주로 정확성 개선을 위해 이루어진 반면 LLM에서는 조정이 정확성은 물론 비용과 훈련에 필요한 전력량을 줄이는 데에도 중요합니다. 두 모델 유형 모두 조정 프로세스를 활용하지만, 중점을 두는 부분은 다릅니다. 마지막으로, 더 나은 응답을 생성하기 위해 LLM에서 정확하고 구체적인 팩트를 수집하도록 외부 지식을 사용하는 프로세스인 검색 증강 생성(RAG)을 빼놓을 수 없습니다.
피드백: 인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback, RLHF)은 LLM 학습을 개선한 것입니다. 사용자의 피드백은 LLM의 성능에 매우 중요합니다. LLM은 피드백을 통해 정확성을 평가하는 반면, 기존의 ML 모델은 특정 메트릭을 사용하여 정확성을 높입니다.
성능 메트릭: ML 모델에는 정확한 성능 메트릭이 있지만 LLM에는 더 복잡한 평가가 필요한 BLEU(Bilingual Evaluation Understudy), ROUGE(Recall-Oriented Understudy for Gisting Evaluation)와 같은 다른 메트릭 세트가 있습니다.
Red Hat 리소스
LLMOps의 장점
성능을 모니터링하고 향상하는 최적의 방법으로 부상하고 있는 LLMOps의 3가지 주요 장점은 다음과 같습니다.
효율성: 팀은 LLMOps를 통해 모델을 더 빠르게 개발하고, 모델 품질을 개선하고, 신속하게 배포할 수 있습니다. 팀은 더욱 간소화된 관리 접근 방식을 통해 커뮤니케이션, 개발, 배포를 촉진하는 플랫폼에서 개선된 방식으로 협업할 수 있습니다. 생성 AI의 속도를 높이는 오픈소스 추론 서버인 vLLM과 같은 툴은 GPU를 더 효율적으로 사용하는 데 도움이 될 수 있습니다.
확장성: LLMOps는 CI/CD(지속적 통합 및 지속적 제공/배포)를 위해 2개 이상의 모델을 관리하고 모니터링할 수 있으므로 확장성과 관리에 도움이 됩니다. 또한 LLMOps는 향상된 데이터 통신 및 응답을 통해 응답성이 더 뛰어난 사용자 경험을 제공합니다.
리스크 감소: LLMOps는 투명성을 높이고 조직 및 산업 정책에 대한 컴플라이언스를 강화합니다. LLMOps는 민감한 정보를 보호하고 리스크에 대한 노출을 방지하여 보안 및 개인정보 보호 수준을 높일 수 있습니다.
잘 알려진 3곳의 조직이 vLLM을 통해 확장 속도를 가속화한 방법을 알아보세요.
LLMOps 활용 사례
다음과 같은 몇 가지 LLMOps 활용 사례가 있습니다.
지속적 통합 및 제공(CI/CD): CI/CD는 모델 개발 라이프사이클을 간소화, 가속화, 자동화하는 것을 목표로 합니다. 새로운 코드를 얻는 데 인간의 개입이 필요하지 않아 다운타임 시간이 단축되고 코드 릴리스가 가속화됩니다. Red Hat OpenShift Pipelines의 기반이 되는 Tekton과 같은 툴은 여러 플랫폼에 걸쳐 배포를 자동화함으로써 개발자의 워크플로우를 지원합니다.
데이터 수집, 라벨링, 저장: 데이터 수집에서는 다양한 소스를 사용하여 정확한 정보를 수집합니다. 데이터 라벨링에서는 데이터를 분류하고, 데이터 저장에서는 네트워크에 연결된 디지털 정보를 수집 및 보관합니다.
모델 미세 조정(fine-tuning), 추론, 모니터링: 모델 미세 조정은 도메인별 태스크를 수행하도록 모델을 최적화합니다. AI 추론은 AI 모델이 데이터를 기반으로 답변을 제공하는 단계입니다. 모델 추론은 기존 지식을 바탕으로 프로덕션을 관리하고 추론된 정보에 따라 작업을 수행할 수 있습니다. 인간 피드백을 포함한 모델 모니터링은 모델 동작에 대한 데이터를 수집하고 저장하여 실제 프로덕션 데이터에 따라 모델이 어떻게 동작하는지 학습합니다.
LLMOps 단계
LLMOps에는 몇 가지 단계 또는 구성 요소가 있으며 각각의 모범 사례가 있습니다.
탐색적 데이터 분석(EDA): 데이터 세트를 생성하여 머신 러닝 라이프사이클을 준비하기 위해 데이터를 평가하는 프로세스입니다.
- 데이터 수집: 첫 번째 단계는 코드 아카이브나 소셜 미디어 네트워크와 같은 다양한 소스에서 수집한 LLM을 학습시키는 데 사용됩니다.
- 데이터 정리: 데이터를 수집한 후에는 오류 제거, 불일치 수정, 중복 데이터 제거 등 학습을 준비하기 위한 데이터 검사가 필요합니다.
- 데이터 탐색: 다음 단계는 데이터의 특성을 더 잘 이해하기 위해 데이터를 탐색하는 것으로, 여기에는 이상값 식별, 패턴 찾기가 포함됩니다.
데이터 준비 및 프롬프트 엔지니어링: 액세스 가능한 데이터를 여러 팀에 공유하고 LLM을 위한 프롬프트를 개발하는 프로세스입니다.
- 데이터 준비: 수집된 데이터를 종합하고 결론을 내리는 방법을 포함하여 LLM 학습에 사용되는 데이터를 다양한 방법으로 준비합니다.
- 프롬프트 엔지니어링: LLM이 원하는 출력을 생성할 수 있는 텍스트에 사용되는 프롬프트를 생성합니다.
모델 미세 조정: Hugging Face Transformers와 같이 널리 사용되는 오픈소스 라이브러리를 활용해 모델 성능을 미세 조정하고 개선합니다.
- 모델 학습: 데이터가 준비되면 머신 러닝 알고리즘을 사용하여 데이터의 패턴을 학습해 LLM을 학습시키거나 미세 조정합니다.
- 모델 평가: 학습이 완료되면 LLM을 학습시키는 데 사용되지 않은 데이터 세트를 사용하여 LLM의 성능을 평가해야 합니다.
- 모델 미세 조정: LLM의 성능이 좋지 않은 경우 LLM의 매개 변수를 수정하여 성능을 개선하는 등 미세 조정이 가능합니다.
모델 검토 및 거버넌스: Kubeflow와 같은 오픈소스 MLOps 플랫폼의 도움을 받아 ML 모델 전반에서 검색, 공유, 협업하는 프로세스입니다.
- 모델 검토: 미세 조정을 완료하면 LLM이 안전하고 신뢰할 수 있는지 확인하기 위해 검토해야 합니다. 여기에는 편향 및 보안 리스크 확인 작업이 포함됩니다.
- 모델 거버넌스: 모델 거버넌스는 LLM을 라이프사이클 전반에 걸쳐 관리하는 프로세스로, 성능 추적, 필요에 따른 변경, 불필요한 경우 종료하는 작업이 포함됩니다.
모델 추론 및 서빙: 모델 갱신 빈도 또는 요청 횟수와 같은 프로덕션 세부 사항을 관리하는 프로세스입니다.
- 모델 서빙: LLM에 대한 검토와 승인이 완료되면 LLM을 프로덕션으로 배포할 수 있어, 애플리케이션 프로그래밍 인터페이스(API)를 통해 사용할 수 있게 됩니다. LLM의 크기가 큰 경우(예: 매개 변수가 수천억 개인 경우) 여러 GPU에 모델을 분할하는 기술인 분산 추론이 필요할 때가 많습니다. llm-d와 같은 오픈소스 프로젝트는 이러한 분산된 설정을 효율적으로 오케스트레이션하는 관리형 쿠버네티스 네이티브 솔루션을 제공합니다.
- 모델 추론: 텍스트를 생성하거나 질문에 답하기 위해 애플리케이션에서 API에 쿼리할 수 있습니다. 이는 REST API나 웹 애플리케이션과 같은 다양한 방법으로 수행할 수 있습니다.
인간 피드백을 통한 모델 모니터링: 비정상적 또는 부정적인 사용자 행동을 모니터링하는 모델 및 데이터를 생성합니다.
- 모델 모니터링: 배포된 LLM의 성능이 예상대로인지 확인하기 위해 모니터링해야 합니다. 여기에는 성능 추적, 문제 식별, 필요한 경우 변경 등이 포함됩니다.
인간 피드백: LLM의 성능 개선에 사용되며, LLM에서 생성하는 텍스트에 대한 피드백을 제공하거나 LLM의 성능과 관련된 문제를 식별하는 방식으로 수행할 수 있습니다.
LLMOps 플랫폼이란?
LLMOps 플랫폼은 개발자와 팀에게 데이터 분석, 실험 추적, 프롬프트 엔지니어링, LLM 관리를 통해 협업을 촉진하는 환경을 제공합니다. 또한 LLM을 위한 매니지드 모델 전환, 배포, 모니터링 기능을 제공합니다. 이 플랫폼은 향상된 라이브러리 관리를 통해 운영 비용을 절감하고, 데이터 전처리, 모델 모니터링, 배포와 같은 태스크를 완료하기 위해 고도로 숙련된 기술팀 팀원을 요청해야 할 필요성을 줄이는 데 도움이 됩니다.
Red Hat을 선택해야 하는 이유
Red Hat AI는 AI 여정의 초기 단계에 있는 기업이든, 확장할 준비까지 마친 기업이든 상관없이 AI 여정에 오른 기업이라면 모두 도울 수 있는 제품 및 서비스 플랫폼입니다. 고유한 엔터프라이즈 활용 사례에 대한 생성형 AI와 예측 AI를 둘 다 지원할 수 있습니다.
Red Hat AI를 통해 Red Hat® AI Inference Server를 사용하여 하이브리드 클라우드 전반에서 모델 추론을 최적화함으로써 더 신속하고 비용 효율적으로 배포할 수 있습니다. vLLM 기반의 추론 서버는 GPU 활용도를 극대화하고 응답 시간을 향상합니다.
Red Hat AI Inference Server에는 모델 유연성을 허용하고 팀 간 일관성을 촉진하는, 제3자를 통해 검증되고 최적화된 모델 컬렉션인 Red Hat AI 리포지토리가 포함되어 있습니다. 기업은 제3자 모델 리포지토리에 액세스하여 시장 출시 시간을 단축하고 AI를 성공적으로 활용하는 데 드는 경제적 부담을 줄일 수 있습니다.
레드햇 공식 블로그
레드햇 공식 블로그에서 고객, 파트너, 커뮤니티 에코시스템 등 현재 화제가 되는 최신 정보를 살펴 보세요.