Le unità di elaborazione grafica (GPU) sono fondamentali per l'IA generativa e predittiva. I data scientist, gli ingegneri del machine learning e gli ingegneri dell'IA si affidano alle GPU per sperimentare i modelli di IA, addestrarli, ottimizzarli e distribuirli. Tuttavia, la gestione di queste risorse essenziali può essere complessa e spesso ostacola lo sviluppo e l'innovazione.

Idealmente, i limiti dell'infrastruttura non dovrebbero creare problemi alla tua azienda. Il team deve dedicarsi alla creazione, al perfezionamento e all'utilizzo di modelli di IA, non alla gestione di complesse infrastrutture GPU. Questo è il motivo per cui le operazioni di IT (ITOps) svolgono un ruolo cruciale nel consentire lo sviluppo e l'inferenza dell'IA in modo rapido, fornendo l'accesso GPU on demand, o GPU-as-a-Service.

La sfida della GPU: un problema complesso per il settore ITOps

Configurare un'infrastruttura GPU efficiente per i carichi di lavoro IA non è semplice e i team ITOps devono affrontare diverse sfide importanti.

  • Carenza di GPU e vincoli di costo: l'accesso alle GPU può essere difficile a causa della disponibilità limitata, dei vincoli del cloud e della concorrenza interna. A ciò si possono aggiungere la mancanza di scelta e controllo da parte del cliente sull'architettura dell'acceleratore alla base. Inoltre le GPU hanno già costi elevati, incluse le spese operative e quelle di acquisizione, e spesso sono sottoutilizzate.
  • La mancanza di accesso alle GPU fa crescere l'importanza dello shadow IT: se data scientist, ML engineer e ingegneri IA non sono in grado di accedere tempestivamente alle GPU quando ne hanno bisogno, potrebbero utilizzare allo “shadow IT”. Ciò può significare l'utilizzo di servizi di terze parti, che potrebbero rivelare dati aziendali sensibili, o l'acquisto indipendente di risorse GPU da vari provider cloud, con un aumento dei costi e dei rischi per la sicurezza. Ne consegue una perdita di controllo sull'utilizzo delle risorse, sulla sicurezza dei dati e sulla conformità.
  • Infrastruttura GPU frammentata: le risorse GPU sono spesso distribuite su datacenter on premise, su più cloud pubblici e persino all'edge. Questo ambiente eterogeneo, con diversi tipi di acceleratori, tra cui GPU, acceleratori di IA e architetture, complica la gestione e ostacola l'allocazione efficiente delle risorse, riducendo l'efficienza e aumentando i costi.
  • Dati poco chiari sull'utilizzo della GPU: spesso le organizzazioni hanno difficoltà a monitorare l'utilizzo della GPU all'interno dell'azienda, rendendo difficile massimizzare il ritorno sull'investimento (ROI) e identificare le risorse sottoutilizzate. In una situazione di multitenancy, diventa difficile stabilire criteri di utilizzo equo, allocare con precisione le risorse e attribuire i costi.
  • Multitenancy della GPU sicura: rafforzare la sicurezza dei dati in una multitenancy è complesso e implica l'isolamento del traffico di rete dei tenant per prevenire l'accesso non autorizzato e la perdita di dati, la protezione dei dati sensibili da accessi non autorizzati o furti e il rispetto dei requisiti normativi, pur mantenendo la conformità.

La soluzione di Red Hat: risolvere il problema con GPU-as-a-Service

Red Hat offre una strategia completa per affrontare queste sfide. Il nostro approccio è incentrato sul consolidamento e sulla semplificazione dell'infrastruttura GPU alla base. Unendo gli acceleratori degli ambienti on premise, cloud ed edge, che includono diversi tipi, dimensioni e posizioni di GPU, le organizzazioni possono semplificare la gestione e l'orchestrazione delle GPU tramite un'unica piattaforma unificata.

La piattaforma Red Hat AI ottimizza le prestazioni e l'efficienza abbinando in modo intelligente i carichi di lavoro alle risorse GPU più adatte, massimizzando l'utilizzo grazie a una pianificazione e un posizionamento efficienti. Per aiutare le organizzazioni a mantenere visibilità e controllo, forniamo anche il monitoraggio GPU in tempo reale per identificare gli ostacoli e migliorare l'allocazione delle risorse. I continui miglioramenti tengono traccia dei consumi e dei modelli di utilizzo per ottimizzare i costi.

Questo sistema consente anche una multitenancy GPU protetta ed efficiente. L'isolamento degli ambienti tenant garantisce sicurezza della rete e isolamento dei dati. Inoltre, implementa controlli meticolosi degli accessi e quote di risorse per ciascun tenant, semplificando la conformità e mantenendo la traccia per eventuali controlli di sicurezza e governance.

Componenti chiave per l'offerta di GPU-as-a-Service

Red Hat utilizza efficienti tecnologie open source per offrire GPU-as-a-Service, principalmente all'interno di Red Hat OpenShift e Red Hat OpenShift AI.

Kueue è uno strumento di pianificazione dei carichi di lavoro intelligente e open source per Kubernetes che assegna le priorità e anticipa i processi, in modo che i carichi di lavoro critici vengano eseguiti per primi, preferendo i processi con priorità inferiore quando necessario. Gestisce le quote per un'equa allocazione delle risorse tra i team e ottimizza l'utilizzo delle risorse per evitare ostacoli e massimizzare l'efficienza. Kueue si occupa di smistamento, accodamento e pianificazione dei processi.

La funzionalità di partizione delle GPU in GPU virtuali più piccole viene utilizzata per consentire una condivisione più efficiente e un'allocazione dinamica delle risorse. Ciò semplifica la condivisione delle risorse, consentendo a più utenti di condividere una singola GPU fisica, migliorando l'utilizzo delle risorse e massimizzando l'utilizzo della GPU. 

La soluzione Red Hat utilizza anche una serie di tecnologie open source per ottimizzare il ciclo di vita dell'IA, dall'addestramento al fine tuning fino all'inferenza. Per l'addestramento e il fine tuning, lo stack include tecnologie come PyTorch, Ray, Kubeflow Trainer e KubeRay. Utilizza CodeFlare per l'invio dei processi e Kueue per l'accodamento e la pianificazione.

Per l'inferenza, Red Hat AI utilizza vLLM per la gestione efficiente in termini di memoria di modelli linguistici di grandi dimensioni e KServe per la distribuzione di modelli più ampi. Supporta anche framework come PyTorch, Hugging Face TGI e ONNX.

Inoltre, Red Hat OpenShift AI offre solide funzionalità di gestione della GPU e degli acceleratori, tra cui l'eliminazione dei periodi di inattività per gli ambienti di lavoro e la possibilità di configurare i segmenti di GPU disponibili, che contribuisce a ottimizzare l'allocazione delle risorse. La piattaforma fornisce anche immagini pronte all'uso con le librerie necessarie per il supporto degli acceleratori. Offre inoltre strumenti di osservabilità per monitorare lo stato dei carichi di lavoro dei singoli utenti, lo stato dei carichi di lavoro dell'intero cluster, le code e l'utilizzo delle GPU.

Red Hat: il tuo partner per l'innovazione dell'IA

Red Hat, leader mondiale nella fornitura di soluzioni software open source per le aziende, può aiutarti a configurare il tuo sistema GPU-as-a-Service. Fornendo GPU on demand per i carichi di lavoro IA, con particolare attenzione alla sicurezza e alla privacy, Red Hat aiuta i data scientist, gli ingegneri ML e gli ingegneri dell'IA a concentrarsi sull'IA, anziché sull'infrastruttura.

Scopri di più sulle soluzioni Red Hat AI e parla con un esperto di Red Hat.


Sull'autore

My entrepreneurial spirit led me to co-found an AI startup. This experience, combined with my work driving key go-to-market initiatives at Red Hat and building strategic partnerships, has shaped my ability to translate complex technologies into effective market strategies. I enjoy sharing these insights, whether speaking at UC Berkeley and Stanford or engaging with C-level executives. My background in AI research, including a collaboration between the Royal Institute of Technology and Stanford (with findings presented at SSDL 2017), continues to inform my passion for innovation.

UI_Icon-Red_Hat-Close-A-Black-RGB

Ricerca per canale

automation icon

Automazione

Novità sull'automazione IT di tecnologie, team e ambienti

AI icon

Intelligenza artificiale

Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque

open hybrid cloud icon

Hybrid cloud open source

Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido

security icon

Sicurezza

Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti

edge icon

Edge computing

Aggiornamenti sulle piattaforme che semplificano l'operatività edge

Infrastructure icon

Infrastruttura

Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale

application development icon

Applicazioni

Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili

Virtualization icon

Virtualizzazione

Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud