Red Hat AI Inference

Red Hat® AI Inference è uno stack integrato che offre un'inferenza rapida, coerente, conveniente e scalabile.

Prova la soluzione

Contatta un rappresentante di Red Hat

Collegamenti rapidi

Consulta la documentazione del prodotto

Inizia a imparare

Segui una formazione pratica

Scarica l'ebook

Is AI inference costing you too much? Durata del video: 2:16

Cos'è Red Hat AI Inference?

Red Hat AI Inference offre la flessibilità e il controllo operativo necessari per eseguire qualsiasi modello su qualsiasi acceleratore, ovunque nel cloud ibrido.

Lo stack di inferenza end-to-end, basato su vLLM e llm-d, ottimizza l'utilizzo delle risorse hardware e l'efficienza dei token per garantire tempi di risposta più rapidi. Progettata per supportare Agentic AI e architetture Model-as-a-Service, questa tecnologia open source incrementa l'efficienza senza compromettere le prestazioni.

L'importanza dell'inferenza IA

vLLM: il motore della tecnologia open source

vLLM è un motore di inferenza ad alta efficienza che risolve i problemi di utilizzo della GPU, riducendo il costo per token e stabilizzando la latenza in modo scalabile.

Grazie a un approccio open source portabile e a una community sempre più ampia, vLLM si sta imponendo come il Linux® dell'inferenza dell'IA gen.

Grazie al suo ruolo di contributore commerciale di riferimento, Red Hat offre competenze specialistiche su vLLM per accompagnarti verso il raggiungimento dei tuoi obiettivi legati all'IA.

Scopri la community vLLM

La community di vLLM oggi

Oltre 500.000 GPU distribuite 24 ore su 24, 7 giorni su 7¹

Oltre 200 acceleratori di vario tipo²

Oltre 500 architetture dei modelli supportate²

24 volte più throughput rispetto alla concorrenza³

Vantaggi

Flessibilità dei modelli e dell'hardware

Mantieni la coerenza operativa con qualsiasi modello, su qualsiasi hardware e cloud.

Separa l'IA dall'infrastruttura alla base per realizzare un'architettura Model-as-a-Service unificata e distribuire in modo efficiente modelli e agenti.

Ottimizzazione del costo per token

Utilizza vLLM e llm-d per aumentare il throughput e ridurre il costo per token.

Ottimizza le risorse esistenti per eseguire gli agenti di IA contenendo i costi e favorendo una scalabilità sostenibile.

Scalabilità prevedibile

Distribuisci in modo intelligente il traffico di inferenza per servire più utenti e agenti sull'infrastruttura esistente.

Gestisci in modo affidabile diversi scenari di utilizzo e richieste, dai flussi di lavoro multimodali dell'Agentic AI ai chatbot basati su RAG fino agli assistenti di coding.

Prova llm-d in anteprima

Con Red Hat AI Inference puoi ora accedere in anteprima a llm-d su ambienti Kubernetes di terze parti, insieme alle funzionalità di inferenza distribuita su Red Hat OpenShift®.

Scopri di più su llm-d

Libertà di scelta per i modelli

Crea un'architettura Model-as-a-Service unificata senza riprogettare lo stack di IA.

Red Hat AI Inference standardizza le operazioni su qualsiasi combinazione di modelli open source e acceleratori hardware. Esegui i deployment più rapidamente e in tutta sicurezza con la nostra selezione di modelli ottimizzati nei costi e convalidati per la piattaforma Red Hat AI.

Dai un'occhiata al repository dei modelli su Hugging Face

ROI del 233% con Red Hat AI

Red Hat ha commissionato a Forrester Consulting uno studio Total Economic Impact™ (TEI) per esaminare il potenziale ritorno sull'investimento (ROI) per le aziende che eseguono il deployment di Red Hat AI.

Dalle interviste ai clienti di Red Hat AI è emerso che un'organizzazione composita ha realizzato un ROI del 233% in tre anni, con un valore totale pari a oltre tre volte l'investimento iniziale.⁴

Leggi lo studio

Caratteristiche principali del prodotto

Adotta uno stack di inferenza completo e perfettamente integrato, ottimizzato per distribuire modelli in modo efficiente e scalabile.

Scarica la scheda tecnica

Caratteristica	Dettagli	Vantaggio
llm-d	Utilizza le funzionalità di inferenza distribuita di OpenShift oppure prova in anteprima llm-d su ambienti Kubernetes di terze parti.	Aumenta la velocità dell'inferenza e ottimizza la tua infrastruttura di IA sulle piattaforme Kubernetes che utilizzi.	Consulta la documentazione
Telemetria specifica per l'IA gen	Visualizza le metriche prestazionali specifiche del modello, come il tempo per il primo token (TTFT), il tasso di hit della KV-cache e l'utilizzo della GPU.	Ottieni informazioni utili per raggiungere i rigorosi obiettivi del livello di servizio (SLO) e individua le aree di miglioramento per i tuoi modelli.
Toolkit per l'ottimizzazione dei modelli	Ottimizza modelli personalizzati o fondativi con tecniche come la sparsità e la quantizzazione.	Sfrutta al massimo la capacità hardware per contenere i costi e velocizzare l'inferenza.	Consulta la documentazione
Mixture of Experts (MoE) sparse	Esegui architetture MoE sparse con agenti a bassa latenza e modelli di ragionamento sofisticati.	Riduci i costi dell'inferenza senza compromettere le prestazioni grazie a un'architettura dei modelli efficiente.	Consulta la documentazione
Certificato per tutti i prodotti Red Hat.	Le funzionalità di Red Hat AI Inference sono integrate in Red Hat AI Enterprise e in Red Hat OpenShift® AI. La soluzione è supportata anche su Red Hat OpenShift e Red Hat Enterprise Linux.	Utilizza i prodotti Red Hat o esegui il deployment su piattaforme Linux e Kubernetes in base alla nostrainformativa sul supporto di terze parti.	Consulta la documentazione

Come acquistare la soluzione

Red Hat AI Inference è disponibile come prodotto standalone o all'interno di Red Hat AI. Le funzionalità basate su llm-d e vLLM sono incluse in Red Hat AI Enterprise e Red Hat OpenShift AI.

Contatta un esperto di Red Hat

Perché scegliere Red Hat AI?

Crea una base affidabile che supporti qualsiasi modello e qualsiasi agente su qualsiasi acceleratore hardware, nell'intero cloud ibrido. Red Hat AI offre alle organizzazioni la libertà di eseguire il deployment dove i loro requisiti di dati, conformità e costi lo richiedono.

Inferenza

Gestisci la complessità dei modelli con un'inferenza rapida ed efficiente basata su vLLM e il controllo per eseguire qualsiasi modello su qualsiasi acceleratore nel cloud ibrido.

Dati

Personalizza gli scenari di utilizzo dell'Agentic AI specifici del dominio con modelli connessi ai dati privati della tua organizzazione.

Agenti

Semplifica e accelera il percorso verso un'adozione efficace dell'Agentic AI con governance e controllo.

Piattaforma

Distribuisci soluzioni di IA resilienti e affidabili grazie a una base open source trasparente e alla scalabilità del cloud ibrido.

Affidati ai nostri partner

Con le giuste tecnologie e il supporto degli esperti del settore, i nostri clienti potranno sfruttare al massimo il potenziale dell'IA. Scopri tutti i partner che collaborano con Red Hat per certificare la compatibilità dei propri prodotti con le nostre soluzioni.

Scopri i partner di Red Hat AI

Domande frequenti

Devo acquistare Red Hat AI Enterprise o Red Hat OpenShift AI per usare Red Hat AI Inference?

No. Puoi acquistare Red Hat AI Inference come prodotto Red Hat standalone.

Devo acquistare Red Hat AI Inference e Red Hat AI Enterprise?

No. Le funzionalità di Red Hat AI Inference basate su vLLM e llm-d sono già incluse in Red Hat AI Enterprise e Red Hat OpenShift AI.

Come acquistare Red Hat Enterprise Linux AI

Red Hat AI Inference può essere eseguito su Red Hat Enterprise Linux o Red Hat OpenShift?

Sì. Il suo runtime basato su vLLM può essere eseguito anche in ambienti Linux e Kubernetes di terze parti in base al nostro accordo con terze parti. Consente inoltre di accedere in anteprima alle funzionalità di inferenza distribuita basate su llm-d in ambienti Kubernetes di terze parti.

Come viene calcolata la tariffa di Red Hat AI Inference?

La tariffa si calcola in base all'acceleratore.

Scopri altre risorse di IA

Come implementare l'IA a livello aziendale

Muovere i primi passi con l'inferenza IA

Scalabilità dell'inferenza IA per le aziende nel cloud ibrido

Webinar: come migliorare le prestazioni e ottimizzare i costi

Contatta il team commerciale

Contattaci per sapere di più su Red Hat AI

¹Goin, Michael. "[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - 18 dicembre 2025". YouTube, 8 dicembre 2025.

²Kwon, Woosuk. "Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale". X, 26 gennaio 2026.

³Kwon, Woosuk, et al. "vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention". Blog vLLM, 20 giugno 2023.

⁴Studio di Forrester Consulting, commissionato da Red Hat. "Forrester Total Economic Impact™ Of Red Hat AI". Febbraio 2026.