Red Hat AI Inference

Red Hat® AI Inference è uno stack integrato che offre un'inferenza rapida, coerente, conveniente e scalabile.

Is AI inference costing you too much? Durata del video: 2:16

Cos'è Red Hat AI Inference?

Red Hat AI Inference offre la flessibilità e il controllo operativo necessari per eseguire qualsiasi modello su qualsiasi acceleratore, ovunque nel cloud ibrido. 

Lo stack di inferenza end-to-end, basato su vLLM e llm-d, ottimizza l'utilizzo delle risorse hardware e l'efficienza dei token per garantire tempi di risposta più rapidi. Progettata per supportare Agentic AI e architetture Model-as-a-Service, questa tecnologia open source incrementa l'efficienza senza compromettere le prestazioni.

vLLM: il motore della tecnologia open source

vLLM è un motore di inferenza ad alta efficienza che risolve i problemi di utilizzo della GPU, riducendo il costo per token e stabilizzando la latenza in modo scalabile. 

Grazie a un approccio open source portabile e a una community sempre più ampia, vLLM si sta imponendo come il Linux® dell'inferenza dell'IA gen.

Grazie al suo ruolo di contributore commerciale di riferimento, Red Hat offre competenze specialistiche su vLLM per accompagnarti verso il raggiungimento dei tuoi obiettivi legati all'IA.

La community di vLLM oggi

Oltre 500.000 GPU distribuite 24 ore su 24, 7 giorni su 71

Oltre 200 acceleratori di vario tipo2

Oltre 500 architetture dei modelli supportate2

24 volte più throughput rispetto alla concorrenza3

Vantaggi

Flessibilità dei modelli e dell'hardware

Mantieni la coerenza operativa con qualsiasi modello, su qualsiasi hardware e cloud.

Separa l'IA dall'infrastruttura alla base per realizzare un'architettura Model-as-a-Service unificata e distribuire in modo efficiente modelli e agenti. 

Ottimizzazione del costo per token

Utilizza vLLM e llm-d per aumentare il throughput e ridurre il costo per token. 

Ottimizza le risorse esistenti per eseguire gli agenti di IA contenendo i costi e favorendo una scalabilità sostenibile. 

Scalabilità prevedibile

Distribuisci in modo intelligente il traffico di inferenza per servire più utenti e agenti sull'infrastruttura esistente. 

Gestisci in modo affidabile diversi scenari di utilizzo e richieste, dai flussi di lavoro multimodali dell'Agentic AI ai chatbot basati su RAG fino agli assistenti di coding. 

icona llm-d

Prova llm-d in anteprima

Con Red Hat AI Inference puoi ora accedere in anteprima a llm-d su ambienti Kubernetes di terze parti, insieme alle funzionalità di inferenza distribuita su Red Hat OpenShift®. 

Libertà di scelta per i modelli

Crea un'architettura Model-as-a-Service unificata senza riprogettare lo stack di IA. 

Red Hat AI Inference standardizza le operazioni su qualsiasi combinazione di modelli open source e acceleratori hardware. Esegui i deployment più rapidamente e in tutta sicurezza con la nostra selezione di modelli ottimizzati nei costi e convalidati per la piattaforma Red Hat AI. 

ROI del 233% con Red Hat AI

Red Hat ha commissionato a Forrester Consulting uno studio Total Economic Impact™ (TEI) per esaminare il potenziale ritorno sull'investimento (ROI) per le aziende che eseguono il deployment di Red Hat AI. 

Dalle interviste ai clienti di Red Hat AI è emerso che un'organizzazione composita ha realizzato un ROI del 233% in tre anni, con un valore totale pari a oltre tre volte l'investimento iniziale.4

Caratteristiche principali del prodotto

Adotta uno stack di inferenza completo e perfettamente integrato, ottimizzato per distribuire modelli in modo efficiente e scalabile.

CaratteristicaDettagliVantaggio 
llm-d
Utilizza le funzionalità di inferenza distribuita di OpenShift oppure prova in anteprima llm-d su ambienti Kubernetes di terze parti.Aumenta la velocità dell'inferenza e ottimizza la tua infrastruttura di IA sulle piattaforme Kubernetes che utilizzi. Consulta la documentazione
Telemetria specifica per l'IA gen
Visualizza le metriche prestazionali specifiche del modello, come il tempo per il primo token (TTFT), il tasso di hit della KV-cache e l'utilizzo della GPU. 

Ottieni informazioni utili per raggiungere i rigorosi obiettivi del livello di servizio (SLO) e individua le aree di miglioramento per i tuoi modelli. 

 
Toolkit per l'ottimizzazione dei modelli
Ottimizza modelli personalizzati o fondativi con tecniche come la sparsità e la quantizzazione.Sfrutta al massimo la capacità hardware per contenere i costi e velocizzare l'inferenza.Consulta la documentazione
Mixture of Experts (MoE) sparse 
Esegui architetture MoE sparse con agenti a bassa latenza e modelli di ragionamento sofisticati. Riduci i costi dell'inferenza senza compromettere le prestazioni grazie a un'architettura dei modelli efficiente.Consulta la documentazione
Certificato per tutti i prodotti Red Hat.
Le funzionalità di Red Hat AI Inference sono integrate in Red Hat AI Enterprise e in Red Hat OpenShift® AI. La soluzione è supportata anche su Red Hat OpenShift e Red Hat Enterprise Linux.Utilizza i prodotti Red Hat o esegui il deployment su piattaforme Linux e Kubernetes in base alla nostrainformativa sul supporto di terze parti.Consulta la documentazione

Come acquistare la soluzione

Red Hat AI Inference è disponibile come prodotto standalone o all'interno di Red Hat AI. Le funzionalità basate su llm-d e vLLM sono incluse in Red Hat AI Enterprise e Red Hat OpenShift AI. 

Quando l'IA si adatta alle tue esigenze e alle tue condizioni.

IA generativa

IA generativa

Genera nuovi contenuti, come testi e codice software. 

Red Hat AI ti consente di eseguire i modelli di IA generativa che preferisci, più velocemente, con meno risorse e costi di inferenza inferiori. 

IA predittiva

IA predittiva

Collega i modelli e prevedi i risultati futuri. 

Con Red Hat AI le organizzazioni possono creare, addestrare, distribuire e monitorare i modelli predittivi, mantenendo la coerenza nel cloud ibrido.

Gestione operativa dell'IA

Gestione operativa dell'IA

Crea sistemi che supportino la manutenzione e il deployment dell'IA in modo scalabile. 

Con Red Hat AI puoi gestire e monitorare il ciclo di vita delle applicazioni basate sull'IA, risparmiando sulle risorse e garantendo la conformità alle normative sulla privacy. 

Agentic AI

Agentic AI

Crea flussi di lavoro che eseguono attività complesse con una supervisione limitata. 

Red Hat AI offre un approccio flessibile e una base robusta per la creazione, la gestione e il deployment dei flussi di lavoro di Agentic AI all'interno delle applicazioni esistenti.

Affidati ai nostri partner

Con le giuste tecnologie e il supporto degli esperti del settore, i nostri clienti potranno sfruttare al massimo il potenziale dell'IA. Scopri tutti i partner che collaborano con Red Hat per certificare la compatibilità dei propri prodotti con le nostre soluzioni. 

Logo Dell Technologies
Logo Lenovo
Logo di Intel
Logo Nvidia
Logo AMD

Storie dei clienti relative all'IA dall'evento Red Hat Summit e AnsibleFest 2025

Turkish Airlines

Turkish Airlines ha raddoppiato i tempi di deployment grazie all'accesso ai dati in tutta l'organizzazione.

Logo JCCM

JCCM ha migliorato i processi di valutazione di impatto ambientale (VIA) della regione utilizzando l'IA.

DenizBank

DenizBank ha accelerato i tempi di rilascio passando da pochi giorni a pochi minuti.

Logo Hitachi

Hitachi ha reso operativa l'IA nell'intera azienda con Red Hat OpenShift AI.

Domande frequenti

Devo acquistare Red Hat AI Enterprise o Red Hat OpenShift AI per usare Red Hat AI Inference?

No. Puoi acquistare Red Hat AI Inference come prodotto Red Hat standalone. 

Devo acquistare Red Hat AI Inference e Red Hat AI Enterprise?

No. Le funzionalità di Red Hat AI Inference basate su vLLM e llm-d sono già incluse in Red Hat AI Enterprise e Red Hat OpenShift AI. 

Red Hat AI Inference può essere eseguito su Red Hat Enterprise Linux o Red Hat OpenShift?

Sì. Il suo runtime basato su vLLM può essere eseguito anche in ambienti Linux e Kubernetes di terze parti in base al nostro accordo con terze parti. Consente inoltre di accedere in anteprima alle funzionalità di inferenza distribuita basate su llm-d in ambienti Kubernetes di terze parti. 

Come viene calcolata la tariffa di Red Hat AI Inference?

La tariffa si calcola in base all'acceleratore. 

Scopri altre risorse di IA

Come implementare l'IA a livello aziendale

Muovere i primi passi con l'inferenza IA

Scalabilità dell'inferenza IA per le aziende nel cloud ibrido

Webinar: come migliorare le prestazioni e ottimizzare i costi

Contatta il team commerciale

Contattaci per sapere di più su Red Hat AI

1Goin, Michael. "[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - 18 dicembre 2025". YouTube, 8 dicembre 2025.

2Kwon, Woosuk. "Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale". X, 26 gennaio 2026. 

3Kwon, Woosuk, et al. "vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention". Blog vLLM, 20 giugno 2023.

4Studio di Forrester Consulting, commissionato da Red Hat. "Forrester Total Economic Impact™ Of Red Hat AI". Febbraio 2026.