-
Prodotti e documentazione Red Hat AI
Una piattaforma di prodotti e servizi per lo sviluppo e il deployment dell'IA nel cloud ibrido.
Red Hat AI Enterprise
Crea, sviluppa e distribuisci applicazioni basate sull'IA nel cloud ibrido.
Red Hat AI Inference Server
Ottimizza le prestazioni dei modelli con vLLM per un'inferenza rapida e conveniente in modo scalabile.
Red Hat Enterprise Linux AI
Sviluppa, testa ed esegui modelli di IA generativa con funzionalità di inferenza ottimizzate.
Red Hat OpenShift AI
Crea e distribuisci applicazioni e modelli basati sull'IA in modo scalabile negli ambienti ibridi.
-
Formazione Concetti di base
-
Partner per l'IA
Red Hat AI Inference
Red Hat® AI Inference è uno stack integrato che offre un'inferenza rapida, coerente, conveniente e scalabile.
Collegamenti rapidi
Is AI inference costing you too much? Durata del video: 2:16
Cos'è Red Hat AI Inference?
Red Hat AI Inference offre la flessibilità e il controllo operativo necessari per eseguire qualsiasi modello su qualsiasi acceleratore, ovunque nel cloud ibrido.
Lo stack di inferenza end-to-end, basato su vLLM e llm-d, ottimizza l'utilizzo delle risorse hardware e l'efficienza dei token per garantire tempi di risposta più rapidi. Progettata per supportare Agentic AI e architetture Model-as-a-Service, questa tecnologia open source incrementa l'efficienza senza compromettere le prestazioni.
vLLM: il motore della tecnologia open source
vLLM è un motore di inferenza ad alta efficienza che risolve i problemi di utilizzo della GPU, riducendo il costo per token e stabilizzando la latenza in modo scalabile.
Grazie a un approccio open source portabile e a una community sempre più ampia, vLLM si sta imponendo come il Linux® dell'inferenza dell'IA gen.
Grazie al suo ruolo di contributore commerciale di riferimento, Red Hat offre competenze specialistiche su vLLM per accompagnarti verso il raggiungimento dei tuoi obiettivi legati all'IA.
La community di vLLM oggi
Oltre 500.000 GPU distribuite 24 ore su 24, 7 giorni su 71
Oltre 200 acceleratori di vario tipo2
Oltre 500 architetture dei modelli supportate2
24 volte più throughput rispetto alla concorrenza3
Vantaggi
Flessibilità dei modelli e dell'hardware
Mantieni la coerenza operativa con qualsiasi modello, su qualsiasi hardware e cloud.
Separa l'IA dall'infrastruttura alla base per realizzare un'architettura Model-as-a-Service unificata e distribuire in modo efficiente modelli e agenti.
Ottimizzazione del costo per token
Utilizza vLLM e llm-d per aumentare il throughput e ridurre il costo per token.
Ottimizza le risorse esistenti per eseguire gli agenti di IA contenendo i costi e favorendo una scalabilità sostenibile.
Scalabilità prevedibile
Distribuisci in modo intelligente il traffico di inferenza per servire più utenti e agenti sull'infrastruttura esistente.
Gestisci in modo affidabile diversi scenari di utilizzo e richieste, dai flussi di lavoro multimodali dell'Agentic AI ai chatbot basati su RAG fino agli assistenti di coding.
Prova llm-d in anteprima
Con Red Hat AI Inference puoi ora accedere in anteprima a llm-d su ambienti Kubernetes di terze parti, insieme alle funzionalità di inferenza distribuita su Red Hat OpenShift®.
Libertà di scelta per i modelli
Crea un'architettura Model-as-a-Service unificata senza riprogettare lo stack di IA.
Red Hat AI Inference standardizza le operazioni su qualsiasi combinazione di modelli open source e acceleratori hardware. Esegui i deployment più rapidamente e in tutta sicurezza con la nostra selezione di modelli ottimizzati nei costi e convalidati per la piattaforma Red Hat AI.
ROI del 233% con Red Hat AI
Red Hat ha commissionato a Forrester Consulting uno studio Total Economic Impact™ (TEI) per esaminare il potenziale ritorno sull'investimento (ROI) per le aziende che eseguono il deployment di Red Hat AI.
Dalle interviste ai clienti di Red Hat AI è emerso che un'organizzazione composita ha realizzato un ROI del 233% in tre anni, con un valore totale pari a oltre tre volte l'investimento iniziale.4
Caratteristiche principali del prodotto
Adotta uno stack di inferenza completo e perfettamente integrato, ottimizzato per distribuire modelli in modo efficiente e scalabile.
| Caratteristica | Dettagli | Vantaggio | |
|---|---|---|---|
llm-d | Utilizza le funzionalità di inferenza distribuita di OpenShift oppure prova in anteprima llm-d su ambienti Kubernetes di terze parti. | Aumenta la velocità dell'inferenza e ottimizza la tua infrastruttura di IA sulle piattaforme Kubernetes che utilizzi. | |
Telemetria specifica per l'IA gen | Visualizza le metriche prestazionali specifiche del modello, come il tempo per il primo token (TTFT), il tasso di hit della KV-cache e l'utilizzo della GPU. | Ottieni informazioni utili per raggiungere i rigorosi obiettivi del livello di servizio (SLO) e individua le aree di miglioramento per i tuoi modelli. | |
Toolkit per l'ottimizzazione dei modelli | Ottimizza modelli personalizzati o fondativi con tecniche come la sparsità e la quantizzazione. | Sfrutta al massimo la capacità hardware per contenere i costi e velocizzare l'inferenza. | |
Mixture of Experts (MoE) sparse | Esegui architetture MoE sparse con agenti a bassa latenza e modelli di ragionamento sofisticati. | Riduci i costi dell'inferenza senza compromettere le prestazioni grazie a un'architettura dei modelli efficiente. | |
Certificato per tutti i prodotti Red Hat. | Le funzionalità di Red Hat AI Inference sono integrate in Red Hat AI Enterprise e in Red Hat OpenShift® AI. La soluzione è supportata anche su Red Hat OpenShift e Red Hat Enterprise Linux. | Utilizza i prodotti Red Hat o esegui il deployment su piattaforme Linux e Kubernetes in base alla nostrainformativa sul supporto di terze parti. |
Come acquistare la soluzione
Red Hat AI Inference è disponibile come prodotto standalone o all'interno di Red Hat AI. Le funzionalità basate su llm-d e vLLM sono incluse in Red Hat AI Enterprise e Red Hat OpenShift AI.
Quando l'IA si adatta alle tue esigenze e alle tue condizioni.
IA generativa
Genera nuovi contenuti, come testi e codice software.
Red Hat AI ti consente di eseguire i modelli di IA generativa che preferisci, più velocemente, con meno risorse e costi di inferenza inferiori.
IA predittiva
Collega i modelli e prevedi i risultati futuri.
Con Red Hat AI le organizzazioni possono creare, addestrare, distribuire e monitorare i modelli predittivi, mantenendo la coerenza nel cloud ibrido.
Gestione operativa dell'IA
Crea sistemi che supportino la manutenzione e il deployment dell'IA in modo scalabile.
Con Red Hat AI puoi gestire e monitorare il ciclo di vita delle applicazioni basate sull'IA, risparmiando sulle risorse e garantendo la conformità alle normative sulla privacy.
Agentic AI
Crea flussi di lavoro che eseguono attività complesse con una supervisione limitata.
Red Hat AI offre un approccio flessibile e una base robusta per la creazione, la gestione e il deployment dei flussi di lavoro di Agentic AI all'interno delle applicazioni esistenti.
Affidati ai nostri partner
Con le giuste tecnologie e il supporto degli esperti del settore, i nostri clienti potranno sfruttare al massimo il potenziale dell'IA. Scopri tutti i partner che collaborano con Red Hat per certificare la compatibilità dei propri prodotti con le nostre soluzioni.
Storie dei clienti relative all'IA dall'evento Red Hat Summit e AnsibleFest 2025
Turkish Airlines ha raddoppiato i tempi di deployment grazie all'accesso ai dati in tutta l'organizzazione.
JCCM ha migliorato i processi di valutazione di impatto ambientale (VIA) della regione utilizzando l'IA.
DenizBank ha accelerato i tempi di rilascio passando da pochi giorni a pochi minuti.
Hitachi ha reso operativa l'IA nell'intera azienda con Red Hat OpenShift AI.
Domande frequenti
Devo acquistare Red Hat AI Enterprise o Red Hat OpenShift AI per usare Red Hat AI Inference?
No. Puoi acquistare Red Hat AI Inference come prodotto Red Hat standalone.
Devo acquistare Red Hat AI Inference e Red Hat AI Enterprise?
No. Le funzionalità di Red Hat AI Inference basate su vLLM e llm-d sono già incluse in Red Hat AI Enterprise e Red Hat OpenShift AI.
Red Hat AI Inference può essere eseguito su Red Hat Enterprise Linux o Red Hat OpenShift?
Sì. Il suo runtime basato su vLLM può essere eseguito anche in ambienti Linux e Kubernetes di terze parti in base al nostro accordo con terze parti. Consente inoltre di accedere in anteprima alle funzionalità di inferenza distribuita basate su llm-d in ambienti Kubernetes di terze parti.
Come viene calcolata la tariffa di Red Hat AI Inference?
La tariffa si calcola in base all'acceleratore.
Scopri altre risorse di IA
Come implementare l'IA a livello aziendale
Muovere i primi passi con l'inferenza IA
Scalabilità dell'inferenza IA per le aziende nel cloud ibrido
Webinar: come migliorare le prestazioni e ottimizzare i costi
Contatta il team commerciale
Contattaci per sapere di più su Red Hat AI
1Goin, Michael. "[vLLM Office Hours #38] vLLM 2025 Retrospective & 2026 Roadmap - 18 dicembre 2025". YouTube, 8 dicembre 2025.
2Kwon, Woosuk. "Today, vLLM supports 500+ model architectures, runs on 200+ accelerator types, and powers inference at global scale". X, 26 gennaio 2026.
3Kwon, Woosuk, et al. "vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention". Blog vLLM, 20 giugno 2023.
4Studio di Forrester Consulting, commissionato da Red Hat. "Forrester Total Economic Impact™ Of Red Hat AI". Febbraio 2026.