Red Hat AI Inference Server
Panoramica
Solo adottando un’IA reattiva, precisa e scalabile, si è in grado di sfruttarne i massimi benefici. Red Hat® AI Inference Server ottimizza il processo di inferenza, ovvero il passaggio indispensabile che consente alle applicazioni di IA di comunicare con i modelli linguistici di grandi dimensioni (LLM) e generare una risposta basata sui dati nel cloud ibrido. Attraverso questa ottimizzazione i processi di distribuzione avvengono più rapidamente e a un costo più vantaggioso.
Inferenza rapida e conveniente ovunque
Come parte della piattaforma Red Hat AI, Red Hat AI Inference Server offre un'inferenza coerente, rapida e conveniente in modo scalabile. AI Inference Server permette di eseguire qualsiasi modello di IA generativa (IA gen) su qualsiasi acceleratore hardware e in ambienti datacenter, cloud ed edge, offrendo la flessibilità e la possibilità di scelta necessarie per soddisfare le esigenze aziendali. AI Inference Server offre funzionalità per un'inferenza efficiente ottimizzando i modelli tramite LLM Compressor, per comprimere sia i modelli fondativi che quelli addestrati, o fornendo l'accesso a una raccolta di modelli di IA gen convalidati e ottimizzati pronti per i deployment inferenziali in meno tempo.
Red Hat AI Inference Server interagisce con svariati modelli e acceleratori hardware e può essere eseguito sull'infrastruttura e sul sistema operativo di tua scelta, incluse le piattaforme Red Hat AI, Red Hat Enterprise Linux®, Red Hat OpenShift® e altri distribuzioni Linux o Kubernetes di terze parti, offrendo la flessibilità necessaria per integrarsi con qualsiasi architettura.
Tabella 1. Caratteristiche e vantaggi
Beneficio | Descrizione |
Approccio efficiente all'inferenza dei modelli con un modello di linguaggio virtuale di grandi dimensioni (vLLM) | AI Inference Server offre un approccio efficiente all'inferenza dei modelli ottimizzando l'utilizzo della memoria delle GPU e la latenza dell'inferenza con vLLM. |
Complessità operativa mitigata | AI Inference Server offre una piattaforma coerente per il deployment e l'ottimizzazione dei modelli nel cloud ibrido. Si basa su un approccio intuitivo alla gestione delle tecniche di machine learning (ML) avanzate, inclusa la quantizzazione, e propone l'integrazione con strumenti di osservabilità come Prometheus e Grafana. |
Flessibilità del cloud ibrido | Basato su vLLM, AI Inference Server offre alle organizzazioni la flessibilità di eseguire i modelli di IA ovunque sia necessario: nei datacenter, negli ambienti cloud e all'edge. |
Specifiche tecniche
- Runtime di inferenza per il cloud ibrido. Dotato di un runtime di inferenza vLLM avanzato ed efficiente, AI Inference Server offre alle aziende una piattaforma unificata e ad alte prestazioni per eseguire i modelli scelti su vari acceleratori, Kubernetes e ambienti Linux. Inoltre, si integra con gli strumenti di osservabilità per migliorare il monitoraggio e supporta le API LLM, come OpenAI, per un deployment flessibile.
- LLM Compressor. I team di IA possono comprimere modelli di base e modelli addestrati di qualsiasi dimensione per ridurre l'utilizzo delle risorse di elaborazione mitigandone i costi e mantenendo un'elevata precisione nella risposta dei modelli. Inoltre, possono collaborare con Red Hat per ricevere supporto per le iniziative di ottimizzazione dei modelli.
- Repository ottimizzato dei modelli. AI Inference Server si trova nella pagina Red Hat AI su Hugging Face e offre l'accesso immediato a una raccolta convalidata e ottimizzata dei principali modelli di IA pronti per il deployment dell'inferenza, contribuendo a incrementare l'efficienza di 2-4 volte senza compromettere l'accuratezza del modello.
- Certificato per tutti i prodotti Red Hat. AI Inference Server è incluso in Red Hat OpenShift AI e Red Hat Enterprise Linux AI ed è supportato anche su Red Hat OpenShift e Red Hat Enterprise Linux.
- Deployment su piattaforme di terze parti. AI Inference Server può essere distribuito su piattaforme Linux e Kubernetes di terze parti ed è incluso nella policy di supporto per le terze parti di Red Hat. In questi casi, Red Hat supporta solo il componente Inference Server, mentre il cliente è responsabile dei problemi relativi alla piattaforma se questi non possono essere riprodotti su Red Hat Enterprise Linux o Red Hat OpenShift.
Ottieni un'automazione completamente ottimizzata
Per scoprire come AI Inference Server offre un'inferenza rapida, conveniente e scalabile, visita la pagina del prodotto Red Hat AI Inference Server.