Red Hat AI Inference Server

Panoramica

Solo adottando un’IA reattiva, precisa e scalabile, si è in grado di sfruttarne i massimi benefici. Red Hat® AI Inference Server ottimizza il processo di inferenza, ovvero il passaggio indispensabile che consente alle applicazioni di IA di comunicare con i modelli linguistici di grandi dimensioni (LLM) e generare una risposta basata sui dati nel cloud ibrido. Attraverso questa ottimizzazione i processi di distribuzione avvengono più rapidamente e a un costo più vantaggioso.

Inferenza rapida e conveniente ovunque

Come parte della piattaforma Red Hat AI, Red Hat AI Inference Server offre un'inferenza coerente, rapida e conveniente in modo scalabile. AI Inference Server permette di eseguire qualsiasi modello di IA generativa (IA gen) su qualsiasi acceleratore hardware e in ambienti datacenter, cloud ed edge, offrendo la flessibilità e la possibilità di scelta necessarie per soddisfare le esigenze aziendali. AI Inference Server offre funzionalità per un'inferenza efficiente ottimizzando i modelli tramite LLM Compressor, per comprimere sia i modelli fondativi che quelli addestrati, o fornendo l'accesso a una raccolta di modelli di IA gen convalidati e ottimizzati pronti per i deployment inferenziali in meno tempo.

Red Hat AI Inference Server interagisce con svariati modelli e acceleratori hardware e può essere eseguito sull'infrastruttura e sul sistema operativo di tua scelta, incluse le piattaforme Red Hat AI, Red Hat Enterprise Linux®, Red Hat OpenShift® e altri distribuzioni Linux o Kubernetes di terze parti, offrendo la flessibilità necessaria per integrarsi con qualsiasi architettura.

Tabella 1. Caratteristiche e vantaggi

Beneficio	Descrizione
Approccio efficiente all'inferenza dei modelli con un modello di linguaggio virtuale di grandi dimensioni (vLLM)	AI Inference Server offre un approccio efficiente all'inferenza dei modelli ottimizzando l'utilizzo della memoria delle GPU e la latenza dell'inferenza con vLLM.
Complessità operativa mitigata	AI Inference Server offre una piattaforma coerente per il deployment e l'ottimizzazione dei modelli nel cloud ibrido. Si basa su un approccio intuitivo alla gestione delle tecniche di machine learning (ML) avanzate, inclusa la quantizzazione, e propone l'integrazione con strumenti di osservabilità come Prometheus e Grafana.
Flessibilità del cloud ibrido	Basato su vLLM, AI Inference Server offre alle organizzazioni la flessibilità di eseguire i modelli di IA ovunque sia necessario: nei datacenter, negli ambienti cloud e all'edge.

Specifiche tecniche

Runtime di inferenza per il cloud ibrido. Dotato di un runtime di inferenza vLLM avanzato ed efficiente, AI Inference Server offre alle aziende una piattaforma unificata e ad alte prestazioni per eseguire i modelli scelti su vari acceleratori, Kubernetes e ambienti Linux. Inoltre, si integra con gli strumenti di osservabilità per migliorare il monitoraggio e supporta le API LLM, come OpenAI, per un deployment flessibile.
LLM Compressor. I team di IA possono comprimere modelli di base e modelli addestrati di qualsiasi dimensione per ridurre l'utilizzo delle risorse di elaborazione mitigandone i costi e mantenendo un'elevata precisione nella risposta dei modelli. Inoltre, possono collaborare con Red Hat per ricevere supporto per le iniziative di ottimizzazione dei modelli.
Repository ottimizzato dei modelli. AI Inference Server si trova nella pagina Red Hat AI su Hugging Face e offre l'accesso immediato a una raccolta convalidata e ottimizzata dei principali modelli di IA pronti per il deployment dell'inferenza, contribuendo a incrementare l'efficienza di 2-4 volte senza compromettere l'accuratezza del modello.
Certificato per tutti i prodotti Red Hat. AI Inference Server è incluso in Red Hat OpenShift AI e Red Hat Enterprise Linux AI ed è supportato anche su Red Hat OpenShift e Red Hat Enterprise Linux.
Deployment su piattaforme di terze parti. AI Inference Server può essere distribuito su piattaforme Linux e Kubernetes di terze parti ed è incluso nella policy di supporto per le terze parti di Red Hat. In questi casi, Red Hat supporta solo il componente Inference Server, mentre il cliente è responsabile dei problemi relativi alla piattaforma se questi non possono essere riprodotti su Red Hat Enterprise Linux o Red Hat OpenShift.

Ottieni un'automazione completamente ottimizzata

Per scoprire come AI Inference Server offre un'inferenza rapida, conveniente e scalabile, visita la pagina del prodotto Red Hat AI Inference Server.

Panoramica

Prodotti

Partecipazione e formazione

Piattaforme

Scenari di utilizzo

Soluzioni per settore

Scopri le tecnologie cloud

Piattaforme

In primo piano

Prova e acquista

Servizi e supporto

Formazione & certificazione

In primo piano

Servizi

Sviluppa competenze

Contenuti per l'apprendimento

Per sviluppatori

Per i clienti

Per i partner

Crea soluzioni supportate da partner affidabili

Vorrei:

Aiutami a trovare:

Desidero informazioni su:

Consigliati

[[name]]

Red Hat AI Inference Server

Panoramica

Inferenza rapida e conveniente ovunque

Tabella 1. Caratteristiche e vantaggi

Specifiche tecniche

Ottieni un'automazione completamente ottimizzata

Piattaforme

Strumenti

Prova, acquista, vendi

Comunica

Informazioni su Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links