기존 워크로드와 널리 사용되는 워크로드 중 다수가 AI로 통합되고 강화되고 있으며, 향후 AI 애플리케이션의 새로운 물결이 등장할 가능성이 높습니다. 이로 인해 그래픽 처리 장치(GPU)와 사용자 정의 훈련 및 추론 엔진을 포함한 AI 가속기의 중요성이 커지고 있습니다. 개별 GPU에서 기존 CPU와 온 다이 통합된 AI 가속에 이르기까지, 미래의 워크로드를 개발하고 배포하는 데 필요한 성능을 제공하려면 전문화된 가속 하드웨어가 필요합니다.

이러한 이유로 Red Hat Enterprise Linux(RHEL)에서 새롭고 간소화된 AI 가속기 드라이버 경험을 제공하게 되었습니다. 혁신적인 차세대 AI 애플리케이션을 빌드하는 개발자든, AI 워크로드를 배포하기 위해 서버를 프로비저닝하는 IT 시스템 관리자이든 RHEL은 가속화된 시스템을 시작하고 실행할 수 있는 원활한 경험을 제공합니다. 이제 보안 소프트웨어 공급망 사례와 보안 부팅 기술을 사용하여 Red Hat이 구축하고 서명한 Red Hat 리포지토리에서 NVIDIA 및 AMD로부터 AI 가속기 드라이버를 구입할 수 있습니다. 하나의 명령으로 사용 가능한 최신 가속기 드라이버를 설치할 수 있습니다.

GPU 드라이버 관리의 과제와 Red Hat의 솔루션

지금까지 엔터프라이즈급 Linux 배포판과 함께 GPU 가속기 드라이버를 설치하고 유지 관리하는 데는 고유한 일련의 과제가 있었습니다. 사용자는 종종 다음과 같은 문제에 직면했습니다.

  • 드라이버 호환성: 특정 커널 및 하드웨어에 대한 올바른 드라이버 버전을 보장합니다.
  • 보안 및 신뢰: 보안 부팅을 지원하여 타사 드라이버의 신뢰성과 무결성을 확인합니다.
  • 유지 관리 오버헤드: 수동으로 드라이버를 업데이트하고 시스템 업데이트와의 잠재적 충돌을 관리합니다.

Red Hat의 이 새로운 오퍼링은 이러한 과제를 정면으로 해결합니다. Red Hat은 Red Hat 리포지토리를 통해 AMD, Intel, NVIDIA 드라이버를 제공함으로써 RHEL에서 AI 워크로드의 배포와 관리를 간소화하여 고객에게 더 큰 자신감과 제어 능력을 제공합니다.

새로운 경험에는 다음이 포함됩니다.

  • Red Hat이 빌드하고 서명한(해당하는 경우) Red Hat 리포지토리에 패키징된 NVIDIA 및 AMD AI 가속기 커널 및 사용자 모드 드라이버
  • 최신 NVIDIA 및 AMD 데이터센터 AI 가속기 드라이버를 원활하게 설치하는 스크립트
  • 업스트림 Linux 커널과 통합된 AMD 및 Intel 커널 모드 드라이버
 

커널 모드 드라이버

사용자 모드 드라이버

NVIDIA

RHEL 확장 리포지토리

CUDA 툴킷: 보조 리포지토리

AMD

BaseOS, RHEL 확장 리포지토리

ROCm: RHEL 확장 리포지토리

Intel

BaseOS

해당 사항 없음

AI 이니셔티브에 중요한 이유

이 새로운 기능은 AI 가속기를 활용하는 RHEL 사용자에게 다음과 같은 몇 가지 주요 이점을 제공합니다.

  • 가치 창출 시간 단축: 팀은 드라이버 설치 및 관리의 마찰을 줄임으로써 비즈니스에 중요한 미션 크리티컬 AI 워크로드를 빌드하고 배포하는 데 더 많은 시간을 할애하고 작업을 수행하는 시간을 줄일 수 있습니다.
  • 보안 및 신뢰 강화: 모든 드라이버는 Red Hat이 구축하고 서명하므로 공급망 보안을 강화하고 기밀 컴퓨팅과 통합할 수 있습니다. 드라이버가 진짜이고 변조되지 않았음을 확인하면 더 자신 있게 배포할 수 있습니다.
  • 간소화된 액세스: AI 가속기 하드웨어를 운영하는 데 필요한 모든 드라이버를 Red Hat 에코시스템(확장 및 보조 리포지토리)을 통해 제공하며, dnf 명령을 사용하여 기존 RHEL 업데이트 워크플로우와 원활하게 통합됩니다.
  • 파트너 검증을 통한 호환성 신뢰성: 드라이버는 Red Hat 파트너가 테스트하고 검증하여 안정성과 RHEL 커널과의 호환성을 보장합니다. 이를 통해 시스템 불안정성의 위험을 줄이고 AI 인프라의 전반적인 신뢰성을 개선할 수 있습니다.

rhel-drivers를 통한 손쉬운 설치

새로운 rhel-drivers 명령은 시스템에 있는 데이터 센터급 AI 가속기 하드웨어를 자동으로 감지한 다음 Linux 커널 버전에 따라 사용 가능한 최신 커널 모드 드라이버를 자동으로 설치합니다. 이 강력한 툴을 사용하면 도큐멘테이션이나 제품 호환성 페이지를 살펴볼 필요가 없으므로 사용하려는 AI 툴링을 활용하는 데 필요한 최신 가속기 혁신을 제공합니다.

파트너 검증: RHEL에서 AI 가속기 실행에 대한 확신

Red Hat은 공동 고객에게 엔터프라이즈 솔루션을 제공하기 위해 AMD, Intel, NVIDIA와 오랫동안 협력해 왔습니다. Red Hat 파트너는 호환성, 성능, 안정성을 보장하기 위해 RHEL에서 의미 있는 테스트를 수행했습니다.

RHEL 확장 리포지토리 및 보조 리포지토리

오늘날의 소프트웨어 에코시스템은 개발 모델과 라이센싱이 광범위하게 혼합되어 있습니다. Red Hat은 현대적인 IT 환경에서 필요한 비즈니스 가치를 제공하기 위해 다양한 소프트웨어와 툴에 의존한다는 것을 잘 알고 있습니다. 따라서 Red Hat은 고객에게 여러 리포지토리에 대한 액세스 권한을 제공하여 이처럼 다양한 에코시스템에 대응할 수 있도록 지원합니다.

마찬가지로 AI 가속기 에코시스템은 오픈소스와 독점 콘텐츠를 혼합하여 사용합니다. RHEL 확장 프로그램 및 보조 리포지토리를 사용하면 Red Hat 에코시스템 내에서 AI 가속기를 실행하는 데 필요한 모든 것을 확보할 수 있습니다.

RHEL 확장 리포지토리

RHEL Extensions Repository는 안전한 공급망에 대한 신뢰를 제공하기 위해 Red Hat이 구축하고 서명한 제3사 오픈소스 콘텐츠를 배포하기 위해 개발되었습니다.

Red Hat 보조 리포지토리

Red Hat 보조 리포지토리는 Red Hat이 구축하고 서명한 타사 독점 콘텐츠의 위치입니다.

기밀 컴퓨팅

Red Hat이 구축하고 서명한 드라이버는 안전한 멀티 테넌트 클라우드 배포에 매우 중요한 기밀 컴퓨팅을 지원합니다.

시작하기

다음은 RHEL에서 이러한 새로운 드라이버를 시작하는 데 도움이 되는 단계별 가이드입니다.

사전 요구 사항

  • Red Hat Enterprise Linux 10.1: 시스템에서 RHEL 10.1 이상을 실행하고 있는지 확인합니다.
  • 활성 Red Hat 서브스크립션: Red Hat 확장 프로그램 및 보조 리포지토리에 대한 액세스를 제공하는 활성 서브스크립션이 필요합니다.
  • 호환되는 NVIDIA 또는 AMD AI 가속기: 시스템에 호환되는 GPU가 설치되어 있는지 확인합니다. AMD의 경우 시스템 요구 사항(Linux) - ROCm 설치(Linux)를 읽고, Instinct GPU의 경우 이 시스템 최적화 조언에 따라 BIOS 설정 및 커널 인수를 확인하세요.

rhel-drivers를 사용한 단일 명령 설치

rhel-drivers는 NVIDIA 및 AMD AI 가속기 드라이버를 위한 간소화되고 원활한 설치 환경을 제공하는 새로운 명령줄 툴입니다. 패키지는 RHEL 10.1의 Application Streams(AppStreams) 리포지토리에서 사용할 수 있습니다. AppStreams는 기본적으로 활성화되어 있습니다. rhel-drivers 패키지를 설치하기만 하면 모든 준비가 완료됩니다. 

rhel-drivers는 여러 단계를 자동화합니다. 그렇지 않으면 수동으로 수행해야 합니다.

  1. 로컬 시스템에 있는 AI 가속기 자동 감지
  2. RHEL 확장 프로그램 및 보조 리포지토리 활성화
  3. Red Hat 리포지토리에서 사용 가능한 최신 드라이버를 설치합니다.
    • NVIDIA 데이터센터 AI 가속기의 경우 최신 OpenRM과 cuda-toolkit 드라이버를 설치합니다.
    • AMD 데이터 센터 AI 가속기의 경우 RHEL Extensions Repository에서 최신 AMDGPU 드라이버를 설치합니다. 사용자는 확장 리포지토리에서 AMD ROCm 패키지를 별도로 설치해야 합니다.

rhel-drivers를 사용하여 NVIDIA 커널 및 사용자 모드 드라이버 설치

# Install the rhel-drivers package (not installed by default)
sudo dnf install rhel-drivers
# Install the NVIDIA kernel and user mode drivers
sudo rhel-drivers install nvidia
sudo reboot

올바르게 설치되었는지 테스트하려면 다음 명령을 실행합니다.

nvidia-smi

rhel-drivers를 사용하여 AMD 커널 및 사용자 모드 드라이버 설치

# Install the rhel-drivers package (not installed by default)
sudo dnf install rhel-drivers
# Install the AMD kernel mode drivers
sudo rhel-drivers install amdgpu
# Install the AMD ROCm (user mode drivers) from the Extensions Repository
sudo dnf install rocm rocm-devel
sudo reboot

예상대로 설치되었는지 테스트합니다.

$ rocm-smi --showid --showtemp --showpower --showmeminfo vram

수동 드라이버 설치

모든 IT 환경은 서로 다르기 때문에 항상 최신 버전이 아닌 다양한 버전의 드라이버가 필요하다는 것을 알고 있습니다. 기존 버전의 AI 가속기 드라이버가 필요한 환경의 경우 고객은 RHEL 확장 프로그램 및 보조 리포지토리에서 직접 설치할 수 있습니다.

1. 확장 프로그램 및 보조 리포지토리 활성화

먼저 RHEL 버전에 적절한 리포지토리를 활성화합니다. RHEL 10의 경우:

sudo subscription-manager repos 
--enable=rhel-10-for-x86_64-supplementary-rpms
sudo subscription-manager repos 
--enable=rhel-10-for-x86_64-extensions-rpms

RHEL 시스템이 최신 패키지로 업데이트되었는지 확인합니다.

sudo dnf update sudo reboot

확장 프로그램과 EPEL 리포지토리를 동시에 사용

권장되지는 않지만 확장 프로그램 및 EPEL(Extra Packages for Enterprise Linux) 리포지토리를 병렬로 활성화하려는 경우 두 리포지토리에서 사용할 수 있는 패키지가 기본적으로 확장 프로그램에서 설치되도록 리포지토리 우선순위를 조정해야 합니다.

sudo subscription-manager repo-override 
--repo=rhel-10-for-x86_64-extensions-rpms --add=priority:98

리포지토리 우선순위에 대한 정의는 DNF 구성 참조를 참조하세요.

2. 드라이버 패키지 식별 및 설치

특정 패키지 이름은 NVIDIA와 AMD 간에 약간 다릅니다.

NVIDIA 드라이버

$ sudo dnf install nvidia-driver cuda-toolkit

사용 가능한 메타 패키지 목록은 NVIDIA의 메타 패키지 목록을 참조하세요.

NVIDIA AI 가속기 드라이버

일반적으로nvidia-driver사용자 공간 구성 요소와 함께kmod-nvidia패키지를 설치합니다.

$ sudo dnf install kmod-nvidia nvidia-driver

이 명령은 시스템에 맞는 올바른 커널 모듈 및 사용자 공간 드라이버를 자동으로 가져옵니다.

AMD AI 가속기 드라이버(ROCm)

AMD의 경우 최신 amdgpu 커널 드라이버와 ROCm 사용자 공간 스택을 설치합니다.

$ sudo dnf install kmod-amdgpu rocm rocm-devel

3. 시스템 재부팅

설치 후에는 시스템을 재부팅하여 새 커널 모듈이 올바르게 로드되었는지 확인해야 합니다.

$ sudo reboot

4. 설치 확인

시스템이 재부팅되면 드라이버가 벤더별 명령으로 로드되었는지 확인할 수 있습니다. 예를 들어 NVIDIA 드라이버가 로드되고 GPU가 인식되는지 확인하려면 다음을 수행합니다.

$ nvidia-smi

NVIDIA GPU 및 드라이버 버전을 자세히 설명하는 다음과 유사한 출력이 표시됩니다.

Intel NPU 커널 모드 드라이버: BaseOS에서 유효성 검사

Intel 드라이버는 Linux 커널에 있으므로 BaseOS 리포지토리에 포함됩니다. Intel NPU 호환 CPU는 Core Ultra Meteor Lake, Arrow Lake, Lunar Lake SoC에서 검증되었습니다. 커널 드라이버 지원을 확인하려면 다음을 수행합니다.

sudo modprobe -v intel_vpu
lsmod | grep intel_vpu

RHEL: 미래의 AI 애플리케이션 구축을 위한 기반

Red Hat은 가장 발전된 AI 애플리케이션과 워크로드의 개발과 배포를 지원하는 RHEL Enterprise Linux 플랫폼을 만들기 위해 노력하고 있습니다. RHEL에서 가속기 드라이버 경험을 지속적으로 개선할 수 있는 방법에 대한 의견을 듣고 싶습니다. 지금 바로 RHEL에서 이 드라이버와 새로운 설치 환경을 사용해 보세요. 

제품 체험판

Red Hat Enterprise Linux | 제품 체험판

Red Hat Enterprise Linux의 한 가지 버전으로서 하드웨어 리소스를 오케스트레이션하고 물리 시스템 또는 클라우드에서 실행되거나 하이퍼바이저 게스트로 실행됩니다.

저자 소개

James Huang is a Senior Product Manager for Red Hat Enterprise Linux, where he focuses on AI and High Performance Computing.

UI_Icon-Red_Hat-Close-A-Black-RGB

채널별 검색

automation icon

오토메이션

기술, 팀, 인프라를 위한 IT 자동화 최신 동향

AI icon

인공지능

고객이 어디서나 AI 워크로드를 실행할 수 있도록 지원하는 플랫폼 업데이트

open hybrid cloud icon

오픈 하이브리드 클라우드

하이브리드 클라우드로 더욱 유연한 미래를 구축하는 방법을 알아보세요

security icon

보안

환경과 기술 전반에 걸쳐 리스크를 감소하는 방법에 대한 최신 정보

edge icon

엣지 컴퓨팅

엣지에서의 운영을 단순화하는 플랫폼 업데이트

Infrastructure icon

인프라

세계적으로 인정받은 기업용 Linux 플랫폼에 대한 최신 정보

application development icon

애플리케이션

복잡한 애플리케이션에 대한 솔루션 더 보기

Virtualization icon

가상화

온프레미스와 클라우드 환경에서 워크로드를 유연하게 운영하기 위한 엔터프라이즈 가상화의 미래