매개 변수 효율적인 미세 조정(Parameter-efficient Fine-Tuning, PEFT)이란?
대규모 언어 모델(Large Language Model, LLM)을 구동하려면 막대한 컴퓨팅 리소스와 비용이 소요됩니다. PEFT는 리소스 절약을 위해 LLM 내에서 일부 매개 변수만 조정하는 일련의 기술입니다.
PEFT를 사용하면 LLM을 더 간편하게 사용자 정의하는 동시에 기존 미세 조정된 모델과 유사한 수준의 출력을 생성할 수 있습니다.
기존 미세 조정(fine-tuning)과 PEFT
미세 조정과 PEFT는 둘 다 LLM에 초점을 맞춘 기술입니다. 이 두 기술은 LLM에 원하는 정보를 제공하여 모델을 조정함으로써 원하는 출력을 생성하도록 합니다. PEFT는 기존 미세 조정 기술이 진화된 형태라고 할 수 있습니다.
기존 미세 조정은 전체 모델을 추가로 학습시켜서 LLM을 조정합니다. 여기에는 막대한 컴퓨팅 리소스, 데이터, 그리고 비용이 소요됩니다.
반면 PEFT는 모델 내의 일부 소수 매개 변수만 수정하므로 많은 리소스가 필요하지 않아 조직이 일반적으로 더 쉽게 접근할 수 있습니다.
Red Hat AI
PEFT의 장점
PEFT는 더 작은 하드웨어에서 거대 모델을 더 빠르게 학습시킬 수 있다는 장점이 있습니다.
PEFT의 구체적인 장점은 다음과 같습니다.
- 학습 속도 향상: 업데이트되는 매개 변수가 적을 경우 PEFT를 사용하면 실험과 반복이 더 빨라집니다.
- 리소스 효율성: PEFT는 기존 미세 조정(fine-tuning)보다 GPU 메모리를 훨씬 적게 사용하며 소비자급 하드웨어에서 실행할 수 있습니다. 즉, 전용 서버 대신 노트북에서 LLM을 학습시킬 수 있습니다.
- 모델 학습 중 기존 지식 손실을 극복하는 능력: 모델 학습 중 기존 지식 손실은 새로운 학습 데이터가 제공될 때 모델이 이미 학습한 지식을 망각할 때 발생합니다. PEFT는 전체 모델이 아니라 일부 매개 변수만 업데이트하므로 모델 학습 중 기존 지식 손실이 발생할 위험을 방지하는 데 도움이 됩니다.
- 이식성: PEFT로 튜닝된 모델은 더 작고 관리하기 쉬우며 플랫폼 전반에서 배포하기가 더 쉽습니다. 따라서 운영 환경 내에서 모델을 더 쉽게 업데이트하고 개선할 수 있습니다.
- 지속 가능성: PEFT는 더 적은 컴퓨팅 리소스를 사용하므로 환경 친화적인 운영 목표에 부합합니다.
- 접근성: 컴퓨팅 리소스가 적은 팀과 조직도 모델을 미세 조정(fine-tuning)하고 원하는 결과를 얻을 수 있습니다.
PEFT의 작동 원리
LLM은 여러 신경망 레이어로 구성됩니다. 이러한 레이어를 입력 레이어에서 시작하여 출력 레이어로 끝나는 흐름도의 한 유형으로 생각하면 쉽게 이해됩니다. 이 두 레이어 사이에는 다른 많은 레이어가 있으며, 각 레이어는 신경망을 이동하는 데이터를 처리하는 데 고유한 역할을 합니다.
언어 모델이 정보를 처리하는 방식을 조정하려면 매개 변수를 변경합니다.
LLM의 매개 변수란?
매개 변수는 가중치라고도 하며, LLM은 이 매개 변수를 통해 언어를 이해합니다.
매개 변수를 기계 내부의 조정 가능한 기어라고 생각하면 이해하기 쉽습니다. 각 매개 변수는 고유한 숫자 값을 가집니다. 이 값을 변경하면 모델이 언어를 해석하고 생성하는 능력에 영향을 미치게 됩니다.
LLM의 매개 변수 수는 수십 억, 많게는 수천 억 개에 달할 수 있습니다. 매개 변수가 많은 모델일수록 더욱 복잡한 작업을 수행할 수 있습니다.
그러나 모델의 매개 변수가 증가하면 하드웨어 리소스의 필요성도 커집니다. 조직은 이 필요한 하드웨어에 투자할 여력이 없을 수 있습니다. 그것이 바로 PEFT와 같은 튜닝 기술이 매우 중요한 이유입니다.
모델 효율성을 높이려면 불필요한 매개 변수를 없애는 동시에 정확도를 높이는 방법을 알아보세요.
효율적인 매개 변수 미세 조정
PEFT는 전략적으로 소수의 매개 변수만 수정하고 사전 학습된 모델 구조의 대부분을 그대로 유지합니다. 이러한 조정 방법의 몇 가지 예는 다음과 같습니다.
모델 레이어 동결: 추론 중에 신경망의 모든 레이어에서 계산이 수행됩니다. 이러한 레이어 중 일부를 동결하면 계산을 수행하는 데 소요되는 처리 능력을 줄일 수 있습니다.
어댑터 추가: 어댑터는 보드 게임의 확장 팩과 같은 역할을 합니다. 어댑터는 사전 학습된 모델 내에서 레이어 위에 추가되며, 도메인 및 애플리케이션별 정보를 학습합니다. 이 시나리오에서는 원래 모델은 변경되지 않으며 새로운 기능이 추가됩니다.
PEFT는 다음과 같은 다양한 방법으로 수행할 수 있습니다.
- 낮은 순위 적응(Low-rank Adaptation, LoRA)
- 양자화된 낮은 순위 적응(Quantized Low-rank Adaptation, QLoRA)
- 접두사 튜닝
- 프롬프트 튜닝
- P-튜닝
이 영역에서 주요 툴은 vLLM입니다. vLLM은 메모리 효율적인 추론 서버 및 엔진으로, 하이브리드 클라우드 환경에서 대규모 언어 모델의 속도와 처리 능력을 개선하기 위해 설계되었습니다. vLLM은 PEFT를 지원하여(특히 여러 LoRA 어댑터를 지원할 목적) 1개의 기본 모델이 GPU 메모리에 로드된 상태를 유지하도록 허용함으로써 효율성을 크게 향상합니다.
PEFT 서빙을 위해 vLLM을 사용하면 1개의 모델로 여러 미세 조정된 버전을 동시에 서빙할 수 있습니다. 즉, PEFT는 소규모 파일을 생성하고, vLLM은 단일 기반 모델에서 메모리 리소스(예: 키-값(KV) 캐시)를 공유하고 분배하여 그러한 파일의 제공을 최적화합니다.
미세 조정(fine-tuning)의 정의
미세 조정(fine-tuning)은 의도를 LLM에 전달하여 모델이 목표에 맞게 결과물을 조정할 수 있도록 하는 방법입니다.
이렇게 생각해 보세요. LLM은 셰익스피어풍의 문체로 이메일을 작성할 수는 있겠지만 회사가 제공하는 제품의 세부 사항에 대해서는 전혀 모릅니다.
미세 조정(fine-tuning)을 사용하면 회사의 고유한 정보로 모델을 학습시킬 수 있습니다.
미세 조정은 사전 학습된 모델이 고유한 태스크를 더 효과적으로 수행할 수 있도록 더욱 구체적인 데이터세트를 사용해 학습시키는 프로세스입니다. 이 추가 학습 데이터는 모델의 매개 변수를 수정하고 원래 모델을 대체하는 새로운 버전을 생성합니다.
미세 조정은 도메인별 활용 사례에 맞게 LLM을 설정하는 데 필수적입니다. 그러나 기존의 미세 조정에는 많은 비용이 소요됩니다.
미세 조정에 많은 비용이 드는 이유는?
LLM의 미세 조정(fine-tuning)에 많은 비용이 드는 이유는 다음을 포함해 여러 가지가 있습니다.
- GPU 요구 사항: 미세 조정(fine-tuning)을 수행하려면 많은 처리 능력이 필요합니다. 그래픽 처리 장치(Graphic Processing Unit(GPU))를 구매하고 운영하려면 많은 비용이 들며, 미세 조정(fine-tuning) 프로세스 중에는 더 오래 실행해야 합니다. 전력 소비량과 냉각 비용도 만만치 않습니다.
- 데이터 요구 사항: 새로운 정보로 LLM을 미세 조정(fine-tuning)하는 데 필요한 데이터 세트는 고품질이어야 하며 적절하게 레이블이 지정되어야 합니다. 이러한 데이터를 확보, 구축하고 사전 처리하는 데 많은 비용과 시간이 소요됩니다.
적합한 LLM 조정 기술을 찾으려면?
LLM 조정이란 원하는 결과물을 생성하기 위해 언어 모델을 학습시키고 개인화화는 프로세스를 말합니다.
다음 요인을 고려하여 다양한 LLM 조정 기술 중에서 적합한 것을 선택하세요.
- 데이터 종속성: 얼마나 많은 데이터가 필요한지? 이 기술이 제대로 작동하는 데 필요한 데이터에 액세스할 수 있는지?
- 정확성: 이 기술이 튜닝 후 모델의 정확도에 어느 정도로 영향을 미치는지?
- 사용자의 복잡성: 사용하기가 얼마나 쉬운지?
PEFT는 기존 미세 조정(fine-tuning)에 비해 더 적은 데이터를 사용하고 정확도가 매우 높으며 사용하기도 더 편리합니다.
고려해 볼 만한 또 하나의 LLM 조정 기술은 검색 증강 생성(Retrieval-augmented Generation, RAG)입니다. RAG는 데이터 리포지토리, 텍스트 모음, 기존 도큐멘테이션과 같은 선택한 외부 지식 소스를 통해 LLM 내에 존재하는 데이터를 보완하는 수단을 제공합니다. RAG는 데이터 의존도가 높지만 매우 정확하며 미세 조정에 비해 사용이 덜 까다롭습니다.
Red Hat의 지원 방식
Red Hat® AI는 vLLM 기반 서버로 신속하고 유연하며 효율적인 추론 성능을 제공합니다. 모델과 데이터를 안정적으로 연결하여 하나의 플랫폼에서 전문 에이전트의 사용자 지정 및 개발을 통합합니다. 오픈소스 기반의 당사 제품으로 규모와 상관없이 AI 워크플로우의 모든 과정을 완전히 제어할 수 있습니다.
Red Hat AI Portfolio에 Red Hat AI Enterprise가 포함됩니다. Red Hat AI Enterprise는 모든 인프라에서 AI 추론, 에이전틱(Agentic) AI 워크플로우, AI 기반 애플리케이션을 배포, 관리, 스케일링할 수 있는 플랫폼입니다.
데이터 주권 전략 준비: Red Hat Sovereignty Readiness Assessment 툴 소개
Red Hat Sovereignty Readiness Assessment 툴은 웹 기반 셀프 서비스 평가로, 7가지 주요 영역에서 조직의 디지털 통제에 대한 명확하고 객관적인 기준을 제공합니다.