Con la versione precedente di Red Hat OpenShift AI, abbiamo creato una base solida per l'infrastruttura di IA aziendale. Oggi, con il rilascio di OpenShift AI 3.3, affrontiamo le forze contrapposte che spesso impediscono ai progetti di IA di raggiungere la produzione: la necessità di una governance rigorosa rispetto alla richiesta di un accesso rapido da parte degli sviluppatori.

OpenShift AI 3.3 introduce una suite di strumenti progettati per gestire un hub centralizzato di risorse di IA, ottimizzando al contempo il futuro multimodello e multiagente.

Risorse centralizzate: un hub per l'IA

Man mano che le aziende superano gli scenari di utilizzo a modello singolo, la rintracciabilità diventa un problema. I team della piattaforma hanno bisogno di una fonte attendibile per le risorse di IA, al fine di registrare e controllare le versioni dei modelli prima che vengano configurati per la distribuzione, e per visualizzare i modelli distribuiti. 

I team hanno anche bisogno di indicazioni su come distribuire al meglio questi modelli: è difficile valutare i requisiti dell’hardware e comprendere la latenza e il throughput previsti. 

L'hub dell’IA mira a questo: è il repository centrale per le risorse di IA dell'organizzazione, a partire dai modelli linguistici di grandi dimensioni (Large Language Models, LLM) in OpenShift AI 3.3 fino ai server Model Context Protocol (MCP) nelle versioni future.

In OpenShift AI 3.3, AI hub offre informazioni dettagliate sulle prestazioni e indicazioni dal programma di convalida dei modelli di IA di Red Hat per valutare il compromesso tra prestazioni, costi e requisiti hardware. In questo modo i team della piattaforma possono indirizzare gli sviluppatori verso le configurazioni più efficienti prima di arrivare alla fase di distribuzione.

Governance scalabile: Model-as-a-Service (MaaS)

Se configuri e gestisci le GPU su cui distribuisci modelli di IA, creare applicazioni di IA è difficile. La maggior parte degli sviluppatori, degli ingegneri dell'IA e dei data scientist preferisce iniziare con un endpoint per un modello già operativo. Chiedere loro di svolgere tutto questo lavoro extra li rallenta, ha effetti negativi sul time to value e non è né scalabile né efficiente in termini di costi, tempi o governance. 

D'altra parte, consentire ai team della piattaforma di fornire i modelli a chiunque, per dotare i data scientist e i team aziendali dei modelli necessari, li aiuta a estendere lo stesso paradigma utilizzato per le piattaforme applicative. 

In questo scenario, i team della piattaforma gestiscono la distribuzione e l'ottimizzazione dei modelli, fornendo un set centralizzato di modelli di IA da controllare tramite criteri di accesso basati sui ruoli, impostando limiti e termini di utilizzo e gestendo il controllo delle versioni dei modelli, mentre agli utenti finali viene fornito un endpoint API per iniziare tranquillamente a lavorare.

OpenShift AI 3.3 offre un'anteprima tecnica di MaaS progettata per aiutare le organizzazioni a diventare provider interni di modelli di IA.

  • Per gli amministratori: definisci criteri granulari per la limitazione della frequenza nell'interfaccia utente. Ad esempio, puoi assegnare quote elevate di accesso per i modelli più piccoli utilizzati nelle attività quotidiane e porre limiti più severi ai modelli di frontiera a elevato utilizzo di risorse.
  • Routing ottimizzato con llm-d: Funziona in tandem con llm-d, il framework di inferenza distribuita Kubernetes native. Mentre imposti i criteri, llm-d ottimizza il routing delle richieste in modo che l'hardware venga utilizzato nel modo più efficiente possibile senza violare gli accordi sul livello del servizio (Service Level Agreements, SLA).

Velocità degli sviluppatori: IA generativa studio

I team della piattaforma devono registrare e rendere visibili a livello centrale i modelli e le risorse distribuiti, in modo che ingegneri e sviluppatori di IA possano iniziare a utilizzarli per le sviluppare.

Chi sviluppa ha inoltre bisogno di un ambiente centrale per sperimentare questi modelli e risorse, che consenta un approccio plug and play: in questo modo può individuare il modello, il prompt o lo strumento più adatto al proprio scenario di utilizzo, astraendo la complessità dell'infrastruttura necessaria per la distribuzione. 

L’anteprima tecnica di gen AI studio offre questo ambiente di prova e gli strumenti necessari a chi sviluppa, per passare da un prompt a un progetto pilota.

  • Ambiente di prova IA: sperimenta con prompt, parametri del modello e strumenti MCP. In OpenShift AI 3.3, puoi importare i tuoi server MCP e attivare o disattivare strumenti specifici, garantendo il determinismo necessario per un comportamento affidabile degli agenti. Per passare dall'interfaccia utente di OpenShift AI all'ambiente locale, la funzione "View Code" di OpenShift AI 3.3 ti consente di visualizzare e copiare la configurazione dell'ambiente di prova. La nostra roadmap futura si basa su questi elementi per migliorare l'esperienza degli ingegneri di IA tramite l'esportazione del codice, inclusa la gestione dei prompt, le funzionalità di retrieval-augmented generation (RAG) e il perfezionamento della selezione degli strumenti MCP.
  • Endpoint delle risorse IA: questi endpoint ti consentono di recuperare istantaneamente le chiavi API e gli endpoint per iniziare i test nell'IDE locale.

Il divario in fase di produzione: valutazione e ottimizzazione continue

Uno dei principali ostacoli al deployment in produzione non è la creazione del modello, ma la gestione dei costi e il controllo della qualità per evitare incongruenze.

  • Ottimizzazione dei costi nella compressione dei modelli: OpenShift AI 3.3 introduce workbench guidati per LLM Compressor (GitHub) e GuideLLM (GitHub), strumenti open source guidati e utilizzati da Red Hat per eseguire il benchmarking e comprimere i modelli nell'ambito del nostro programma di convalida dei modelli. Ora puoi eseguire il benchmarking di un modello, comprimerlo (ad esempio tramite la quantizzazione) e confrontare i miglioramenti delle prestazioni direttamente nel tuo ambiente. Scopri di più sul valore dei modelli compressi in questo articolo del blog su LLM Compressor.
  • Tracciamento degli esperimenti con MLflow: presentiamo un’anteprima per sviluppatori dell'integrazione di MLflow. Mentre la compressione ed il benchmarking aiutano a risolvere i problemi di prestazioni immediati, MLflow fornisce la "memoria storica" per il ciclo di vita dell'IA. Registrando i risultati di guidellm e le risposte delle applicazioni in MLflow, tieni traccia delle regressioni e della qualità nel tempo. In questo modo ti assicuri che le ottimizzazioni non compromettano l'accuratezza.
  • Visualizza il ciclo: ora puoi vedere la relazione diretta tra gli esperimenti di compressione e la latenza dell'inferenza all'interno della dashboard di MLflow. Questo consente una risoluzione dei problemi di prestazioni basata sui dati piuttosto che su basi aneddotiche.

Prova Red Hat OpenShift AI 

Le funzionalità di OpenShift AI 3.3 sono progettate per trasformare il modo in cui gestisci l'accesso alle funzionalità di IA sulla piattaforma. Installando OpenShift AI 3.3, puoi provare AI hub e visualizzare in anteprima gen AI studio e i nostri nuovi ambienti di lavoro per l'ottimizzazione. Per ulteriori informazioni, leggi il nostro comunicato stampa.

Puoi anche provare OpenShift AI nel Red Hat product trial center. In questo modo hai accesso gratuito per 60 giorni a un ambiente completamente gestito in cui testare strumenti di livello enterprise.

Prova prodotto

Red Hat OpenShift AI (autogestito) | Versione di prova del prodotto

Piattaforma di apprendimento automatico (ML) open source per il cloud ibrido.

Sugli autori

Jenny is a Technical Product Manager at Red Hat AI, where she focuses on the end-to-end platform experience for Red Hat AI Enterprise. She joined Red Hat through the Neural Magic acquisition, where she created user interfaces for LLM benchmarking and an AI control plane. Before moving into AI, she consulted for healthcare organizations and public health agencies, experiences that shape her focus on building AI tooling that supports practitioners in high-stakes, deeply specialized domains.

Jehlum is a Product Manager in the Red Hat AI team. She's focused on building platforms for generative AI applications. I am especially interested in data processing, observability, safety, evaluation - all key components to build production-grade generative AI applications on platforms that scale.

Taylor specializes in helping global enterprises transition Generative AI from experimental pilots to production-scale deployments. A specialist in large-scale inference and agentic systems, Taylor bridges the gap between complex infrastructure and practical application development. She is a dedicated advocate for open-source ecosystems, leveraging projects such as vLLM, llm-d and MLflow to build sovereign, secure, and observable AI stacks. Her work is centered on empowering organizations to reclaim control over their AI lifecycle through transparent and scalable open-source solutions.

UI_Icon-Red_Hat-Close-A-Black-RGB

Ricerca per canale

automation icon

Automazione

Novità sull'automazione IT di tecnologie, team e ambienti

AI icon

Intelligenza artificiale

Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque

open hybrid cloud icon

Hybrid cloud open source

Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido

security icon

Sicurezza

Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti

edge icon

Edge computing

Aggiornamenti sulle piattaforme che semplificano l'operatività edge

Infrastructure icon

Infrastruttura

Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale

application development icon

Applicazioni

Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili

Virtualization icon

Virtualizzazione

Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud