L'IA aziendale si sta trasformando: dai semplici chatbot si passa all'IA degli agenti. Questi sistemi utilizzano un ragionamento indipendente ed una pianificazione in più passaggi per completare attività complesse in modo autonomo. Per realizzare queste applicazioni basate sull'IA, gli ingegneri e gli sviluppatori di agenti devono poter accedere immediatamente ai modelli tramite endpoint API affidabili eseguiti come carichi di lavoro ad alte prestazioni. 

Gli agenti autonomi richiedono tipicamente molte risorse. Operano in modo scalabile e continuo. Possono interrogare l'infrastruttura decine di volte per risolvere una singola attività, determinando sia un carico sostenuto che picchi bruschi nella domanda di elaborazione. Senza una base dedicata, le prestazioni rallentano e i costi aumentano. Se combinate con le esigenze di sicurezza e governance dei dati aziendali sensibili, queste pressioni diventano seri ostacoli alla produzione.

Red Hat AI aiuta ad affrontare queste sfide offrendo una piattaforma metal-to-agent unificata che semplifica il deployment delle soluzioni di IA. Fornendo un framework coerente sia per i creatori che per gli operatori, Red Hat consente alle organizzazioni di passare dal ruolo di consumatori di token a quello di provider di token. Questo passaggio consente alle aziende di rendere scalabili i sistemi autonomi, mantenendo l'efficienza dell'hardware ed il controllo dei costi di elaborazione necessari per trasformare gli esperimenti di IA in risorse pronte per la produzione.

Dalla distribuzione statica all'orchestrazione di precisione: riduci i costi dell'inferenza

La base di qualsiasi applicazione basata sull'IA è il motore di inferenza. Al fine di creare agenti efficaci, gli sviluppatori hanno bisogno di una bassa latenza e di un throughput elevato per supportare il ragionamento basato sulla catena di pensiero. Red Hat AI 3.4 introduce strumenti per fornire queste prestazioni mantenendo la sostenibilità economica.

  • Model-as-a-Service (MaaS) per le aziende: In questa nuova versione, MaaS offre agli ingegneri della piattaforma un'interfaccia utente [disponibilità generale, GA] per consentire la gestione self service delle chiavi dei token per l'amministrazione basata sui ruoli [GA], il monitoraggio dell'utilizzo e lo showback [anteprima tecnica, TP]. Consente inoltre di applicare gli standard di sicurezza utilizzando sia modelli self-hosted [GA] sia i modelli basati su cloud [TP].
  • Inferenza distribuita con llm-d: Questa versione rende l'inferenza distribuita più semplice da utilizzare e più conveniente in termini di costi su larga scala. Gli utenti che eseguono il deployment dei modelli tramite l'interfaccia utente (UI) possono ora individuare i gateway disponibili nel proprio spazio dei nomi e selezionarne uno o più per il deployment. In questo modo si elimina la dipendenza da un singolo valore predefinito a livello di cluster [TP]. Un editor YAML integrato consente agli utenti di ispezionare e modificare le risorse [TP]. La determinazione delle priorità delle richieste [TP] consente a llm-d di distinguere tra traffico interattivo e in background sullo stesso endpoint. Elabora per prime le richieste sensibili alla latenza ed elimina il lavoro con priorità inferiore in caso di saturazione. L'automazione della scalabilità [TP] regola automaticamente le repliche in base al numero di richieste attive, al numero di richieste nella coda e all'utilizzo della GPU. L’inferenza batch [anteprima per sviluppatori, DP] compatibile con OpenAI aggiunge un percorso permanente di tipo fire-and-forget per carichi di lavoro ad alto volume, come la classificazione dei documenti o l'analisi dei log.
  • Decodifica speculativa per le prestazioni [GA]: la piattaforma Red Hat AI integra il server di inferenza vLLM, che ora include il supporto per la decodifica speculativa. Utilizzando modelli bozza altamente efficienti per accelerare l'elaborazione, questa tecnica può aumentare la velocità di risposta di 2-3 volte senza perdita di qualità, riducendo direttamente il costo per ciascuna interazione.
  • Flessibilità hardware tra GPU, CPU e NPU: Red Hat AI 3.4 amplia la scelta degli acceleratori per l'inferenza aziendale con il nuovo supporto AMD per GPU e CPU. Include il supporto per GPU AMD Instinct MI355X, il supporto in anteprima per AMD Instinct MI350P PCIe e il serving vLLM su CPU generalmente disponibile sui processori AMD EPYC. La versione include anche la disponibilità generale del serving vLLM su CPU sui processori Intel Xeon e un container Rebellions certificato per ATOM NPU. Ciò offre alle organizzazioni una maggiore flessibilità per abbinare ciascun carico di lavoro al livello di elaborazione più adatto: GPU per carichi di lavoro di ragionamento complessi, CPU per un'inferenza leggera e sempre attiva e NPU per un'erogazione efficiente dal punto di vista energetico e ad alto throughput. Insieme, queste funzionalità aiutano a ridurre il costo per interazione, a migliorare l'utilizzo dell'infrastruttura e a fornire un'esperienza con Red Hat AI coerente in ambienti di accelerazione eterogenei.

Red Hat AI Inference, che fornisce supporto di livello enterprise per vLLM e l'accesso ai modelli convalidati e ottimizzati di Red Hat, ora aggiunge funzionalità di inferenza distribuita con llm-d sia su Red Hat OpenShift che su distribuzioni Kubernetes di terze parti [anteprima tecnica]. La versione iniziale include la disponibilità su CoreWeave e sui servizi Kubernetes gestiti di Azure. Le organizzazioni possono ora eseguire lo stesso stack di inferenza in tutti gli ambienti senza dover riprogettare l'architettura per ciascun provider. Ciò significa che le operazioni di IA rimangono coerenti e utilizzano la stessa base open source ad alte prestazioni, indipendentemente dall'hardware alla base e dal provider cloud.

Convalida l'integrità dei modelli tramite lo sviluppo basato sulla valutazione

Un modello è efficace quanto i dati su cui si basa. Red Hat AI 3.4 si concentra sullo sviluppo basato sulla valutazione (evaluation-driven development, EDD), sostituendo i test soggettivi con dati e benchmark concreti per verificare che i modelli e gli agenti siano pronti per la produzione.

  • Tracciamento degli esperimenti con MLflow [GA]: l'integrazione di MLflow funge da spina dorsale per registrare automaticamente metriche, parametri e artefatti, al fine di consentire la riproducibilità e semplificare il confronto dei risultati tra carichi di lavoro predittivi e generativi. Ciò include la gestione dei prompt, che tratta i prompt come risorse aziendali gestite e dotate di controllo delle versioni.
  • Esperienze automatizzate [anteprima tecnica]: strumenti come AutoRAG e AutoML automatizzano le attività di IA complesse per ridurre le costose ipotesi e i tentativi manuali. AutoRAG automatizza la selezione dei modelli di incorporamento e le strategie di suddivisione in blocchi per la retrieval-augmented generation (RAG), aiutando i team a passare più rapidamente dai dati non elaborati a una pipeline ad alte prestazioni. Allo stesso modo, AutoML gestisce l'ingegneria delle funzionalità e la selezione dei modelli per l'analisi predittiva, consentendo agli sviluppatori di concentrarsi sui risultati aziendali piuttosto che sulla preparazione dei dati.
  • Hub di valutazione [anteprima tecnica]: Red Hat AI 3.4 introduce l'eval hub, un piano di controllo di valutazione dell'IA unificato e indipendente dal framework per la valutazione di modelli linguistici di grandi dimensioni (large language models, LLM), applicazioni di IA e agenti. Sostituisce i metodi di test frammentati utilizzando un'API REST unificata e un controller Kubernetes, offrendo raccolte di valutazione curate e personalizzate, una dashboard con MLflow integrato e l'accesso all'interfaccia a riga di comando (CLI) e al kit di sviluppo software (SDK). Utilizzando le schede modello dell'Open Container Initiative (OCI) per la governance e un server Model Context Protocol (MCP) per le valutazioni rilevabili dagli agenti, offre un ambiente cluster-native che consente ai professionisti di scalare i benchmark riproducibili dai laptop alle pipeline di produzione. 

Ridurre i rischi per l'azienda basata su agenti: maturità e tracciabilità

Gli agenti autonomi richiedono livelli elevati di visibilità, tracciabilità e accesso governato agli strumenti in modo che rimangano entro i limiti operativi prestabiliti. Red Hat AI fornisce il framework AgentOps per garantire la visibilità e la protezione di questi sistemi.

  • Gestione controllata dei prompt [anteprima tecnica]: L'integrazione di MLflow offre anche nuove funzionalità di gestione dei prompt all'interno del playground di gen AI studio, un ambiente centralizzato in cui gli sviluppatori possono creare prototipi di prompt, confrontare i modelli e verificare la sicurezza senza passare da uno strumento all'altro. In questo modo gli sviluppatori possono controllare le versioni, testare e perfezionare i prompt degli agenti come risorse gestite. La gestione dei prompt come codice aiuta le organizzazioni ad accelerare il time to value mantenendo la coerenza.
  • Gestione delle identità [DP]: Red Hat AI implementa SPIFFE/SPIRE per le identità degli agenti di crittografia, utilizzando token di breve durata per eliminare le chiavi hardcoded. Ciò garantisce la sicurezza zero trust e consente agli agenti di operare in base ai principi del privilegio minimo negli ambienti di produzione.
  • Gestione del ciclo di vita con Kagenti [DP]: Per le aziende che gestiscono risorse di agenti in evoluzione, la piattaforma introduce Kagenti, uno strumento di gestione del ciclo di vita che consente ai team di distribuire, ridimensionare e gestire gli agenti senza modificare il codice alla base. Kagenti consente il rilevamento e l'onboarding degli agenti durante tutto il loro ciclo di vita, supportando la transizione dallo sviluppo alla produzione.
  • Tracciabilità degli agenti tramite MLflow [GA]: MLflow offre la tracciabilità end to end degli agenti. Il sistema tiene traccia di ogni chiamata LLM, di ogni esecuzione degli strumenti e di ogni fase decisionale. Si tratta di un requisito fondamentale per il debug, l'audit e la valutazione dei sistemi autonomi.
  • Gestione MCP enterprise [DP/TP]: Red Hat AI introduce un approccio basato sulla piattaforma per la gestione dell'accesso agli strumenti basati su MCP. Il catalogo MCP [DP] consente ai team di individuare e distribuire server MCP affidabili di Red Hat e dei partner tecnologici. L'operatore del ciclo di vita MCP [DP] li gestisce come carichi di lavoro Kubernetes native. Il gateway MCP [TP] fornisce autenticazione centralizzata, controllo degli accessi a livello di strumento e osservabilità, in modo che gli agenti possano accedere solo agli strumenti autorizzati.

Ampliamento della base: sicurezza e osservabilità

Affinché l'IA sia sostenibile, deve funzionare su una base stabile e trasparente. Red Hat AI 3.4 funge da hub operativo completo che integra MLOps, GenAIOps e AgentOps in un'unica piattaforma.

  • Creazione integrata con laboratorio per i prompt e registro [GA]: La piattaforma fornisce strumenti unificati per la creazione e la gestione dei prompt, in modo che la logica che guida il comportamento degli agenti sia archiviata in un registro centrale, fornendo un'unica sorgente di verità per sviluppatori e amministratori.
  • Sicurezza dell'IA e red teaming [TP]: Red Hat AI 3.4 integra la scansione automatizzata degli attacchi direttamente nel ciclo di vita dello sviluppo. Sfruttando la tecnologia derivante dall'acquisizione di Chatterbox Labs, la piattaforma utilizza Garak per esaminare modelli e sistemi di agenti alla ricerca di rischi come jailbreak, prompt injection e bias. Questa funzionalità fornisce un'analisi avanzata del rischio per individuare le falle di sicurezza nella logica del modello durante la fase di sviluppo anziché durante il runtime. Identificando e mitigando tempestivamente le vulnerabilità, i team possono valutare l'integrità delle applicazioni di IA per consentire una transizione più sicura al rilascio in produzione.
  • Metriche centralizzate e osservabilità [TP]: questa versione offre un'istanza Prometheus unificata e senza configurazione con dashboard di base native. Gli amministratori dei cluster possono monitorare l'utilizzo dell'hardware e le metriche MaaS [TP] da un'unica console. Inoltre, consente di visualizzare, passo passo, le tracce dell'esecuzione, le catene di ragionamento, le chiamate degli strumenti e le interazioni LLM di un agente direttamente nella console [DP]. La piattaforma mantiene la flessibilità necessaria per indirizzare queste metriche ai punti di raccolta dei dati di osservabilità di terze parti.

Red Hat AI sui marketplace cloud

A breve sarà disponibile Red Hat AI Enterprise per l'approvvigionamento direttamente tramite AWS Marketplace, Microsoft Azure Marketplace e Google Cloud Marketplace. In questo modo le organizzazioni possono distribuire l'infrastruttura di IA nel cloud preferito in modo più rapido e flessibile. Ora le organizzazioni possono applicare gli Enterprise Discount Program (EDP) esistenti e l'impegno di spesa per il cloud per le sottoscrizioni Red Hat AI, semplificando il processo finanziario e di approvvigionamento.

Questa disponibilità rappresenta un'espansione delle opzioni cloud esistenti di Red Hat AI. Red Hat offre già Red Hat Enterprise Linux AI su tutti e tre i principali marketplace per le organizzazioni che eseguono modelli linguistici di grandi dimensioni (LLM) in modalità immagine Red Hat Enterprise Linux. 

Red Hat AI Inference on IBM Cloud 

Insieme ad IBM Cloud, annunciamo anche la disponibilità di Red Hat AI Inference on IBM Cloud, un servizio di inferenza completamente gestito che consente ai clienti di eseguire modelli di IA destinati agli ambienti di produzione. Offre un accesso rapido ed economico ai modelli open source fondativi con governance integrata, inclusi controlli degli accessi di livello enterprise, auditing e governance dell'utilizzo. Gli esempi di catalogo dei modelli attuali includono Granite 4.0 H Small (IBM), Mistral‑Small‑3.2‑24B‑Instruct, Llama 3.3 70B Instruct e GPT‑OSS‑120B.

Considerazioni finali

Red Hat AI 3.4 amplia le funzionalità necessarie per passare da chatbot sperimentali a un'azienda basata su agenti completamente realizzata. Integrando inferenza distribuita, pipeline di dati automatizzate, AgentOps indipendente dal framework e una sicurezza proattiva dell'IA, Red Hat offre una base completa per il cloud ibrido. Questa versione estende gli strumenti per creare sistemi autonomi prevedibili, incentrati sulla sicurezza ed economicamente sostenibili a qualsiasi ambiente. Red Hat AI è una piattaforma completa adatta all'era degli agenti e aiuta le organizzazioni a estendere l'innovazione mantenendo il controllo completo sulle proprie risorse di IA.

Esplora Red Hat AI e scopri come creare un'IA adatta alle tue esigenze. La disponibilità di Red Hat AI 3.4 è prevista entro la fine del mese.

Risorsa

L'adattabilità enterprise: predisporsi all'IA per essere pronti a un'innovazione radicale

Questo ebook, redatto da Michael Ferris, COO e CSO di Red Hat, illustra il ritmo del cambiamento e dell'innovazione tecnologica radicale con l'IA che i leader IT devono affrontare nella realtà odierna.

Sugli autori

Jennifer Vargas is a marketer — with previous experience in consulting and sales — who enjoys solving business and technical challenges that seem disconnected at first. In the last five years, she has been working in Red Hat as a product marketing manager supporting the launch of a new set of cloud services. Her areas of expertise are AI/ML, IoT, Integration and Mobile Solutions.

Carlos Condado is a Senior Product Marketing Manager for Red Hat AI. He helps organizations navigate the path from AI experimentation to enterprise-scale deployment by guiding the adoption of MLOps practices and integration of AI models into existing hybrid cloud infrastructures. As part of the Red Hat AI team, he works across engineering, product, and go-to-market functions to help shape strategy, messaging, and customer enablement around Red Hat’s open, flexible, and consistent AI portfolio.

With a diverse background spanning data analytics, integration, cybersecurity, and AI, Carlos brings a cross-functional perspective to emerging technologies. He is passionate about technological innovations and helping enterprises unlock the value of their data and gain a competitive advantage through scalable, production-ready AI solutions.

Younes Ben Brahim is a Principal Product Marketing Manager at Red Hat, focusing on the strategic positioning and market adoption of Red Hat's AI platform offerings. Younes has spent over 15 years in the IT industry leading product marketing initiatives, managing product lifecycles for HPC & AI, and delivering consulting services.
Prior to Red Hat, he has worked with companies like NetApp, Dimension Data, and Cisco Systems, providing technical solutions and product strategy for enterprise infrastructure and software projects.

Will McGrath is a Senior Principal Product Marketing Manager at Red Hat. He is responsible for marketing strategy, developing content, and driving marketing initiatives for Red Hat OpenShift AI. He has more than 30 years of experience in the IT industry. Before Red Hat, Will worked for 12 years as strategic alliances manager for media and entertainment technology partners.

UI_Icon-Red_Hat-Close-A-Black-RGB

Ricerca per canale

automation icon

Automazione

Novità sull'automazione IT di tecnologie, team e ambienti

AI icon

Intelligenza artificiale

Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque

open hybrid cloud icon

Hybrid cloud open source

Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido

security icon

Sicurezza

Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti

edge icon

Edge computing

Aggiornamenti sulle piattaforme che semplificano l'operatività edge

Infrastructure icon

Infrastruttura

Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale

application development icon

Applicazioni

Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili

Virtualization icon

Virtualizzazione

Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud