Nel settore dell'intelligenza artificiale (IA), abbiamo trascorso gli ultimi tre anni con l'ossessione per la scalabilità. Abbiamo inseguito un numero elevatissimo di parametri (migliaia di miliardi), credendo che "di più" significasse "nel modo più intelligente". Mentre la situazione si stabilizza, per le aziende emerge una nuova realtà: il numero non è l’unità di misura più importante, quel che è importa è fornire risultati affidabili e deterministici.
A Red Hat, abbiamo sempre creduto che le tecnologie più potenti siano quelle distribuite, aperte e idonee allo scopo. I modelli linguistici di piccole dimensioni (small language models, SLM) rappresentano esattamente questo cambiamento. La distinzione tra SLM e modelli linguistici di grandi dimensioni (large language models, LLM) è meno importante del ruolo architetturale svolto dal modello. Ciò che conta è la sovranità funzionale offerta da un modello di piccole dimensioni.
Ci stiamo allontanando da un mondo di IA conversazionale, in cui poniamo una domanda a un gigantesco modello "black-box", per entrare nell'era dell'IA agentica, in cui un parco di modelli specializzati svolge il vero lavoro aziendale.
Ogni azienda eseguirà agenti di IA
Siamo sulla soglia di un cambiamento fondamentale quanto la transizione al web.
Ripensa all'evoluzione dell'identità aziendale. Nel 1995, il settore ci si chiedeva: "Perché ho bisogno di un indirizzo email?" Nel 2005 serviva un sito web. Nel 2015, serviva una presenza sui social media. Nel 2026, la domanda sarà: "Quanti agenti ho in esecuzione?"
Ci stiamo dirigendo verso un mondo in cui ci saranno più agenti di IA che persone. Ogni azienda ne avrà uno sciame:
- agenti rivolti ai clienti che non si limitano a rispondere alle domande, ma risolvono problemi logistici complessi;
- agenti dei flussi di lavoro che automatizzano il "collante" invisibile tra i reparti;
- agenti headless che eseguono chiamate API in modo silenzioso per riconciliare l'inventario ed elaborare i pagamenti.
Tuttavia, non puoi creare un parco di agenti sostenibile e conveniente con i token cloud sovvenzionati da qualcun altro. È qui che un SLM diventa lo strumento obbligatorio per abilitare gli scenari di utilizzo aziendali e la scalabilità.
Perché gli SLM dominano il back end agentico
Sebbene gli LLM di frontiera siano capolavori dell'ingegneria ad alto throughput, spesso sono troppo pesanti per il ruolo di un dipendente digitale riflessivo. In un flusso di lavoro agentico, non serve solo la potenza di elaborazione, ma anche un'esecuzione a bassa latenza. Gli SLM ci consentono di fornire tempi di risposta inferiori al secondo e l'affidabilità deterministica richiesta dall'automazione di importanza critica.
1. Il potere della specializzazione (dall’efficienza alla scalabilità)
Mentre poche organizzazioni prenderebbero in considerazione il fine tuning di un modello con 400 miliardi di parametri, un modello 3B o 7B offre un punto di accesso gestibile e altamente efficace. È qui che inizia il controllo dell'architettura. Una ricerca svolta alla fine del 2025 dimostra che anche un modello con 350 milioni di parametri, ottimizzato su dati sintetici di alta qualità, può superare i modelli di frontiera generici in specifici domini di chiamata degli strumenti e orchestrazione delle API. Per un back-end di agenti robusto, l'obiettivo non è una capacità linguistica ampia e poetica, ma una specializzazione ad alta precisione.
2. Determinismo e "matematica dell'affidabilità"
Uno dei maggiori ostacoli per l'IA aziendale è il non determinismo, ovvero il rischio che un agente possa formattare correttamente una risposta una volta e fallire la successiva. Sebbene nessun LLM sia una funzione matematica perfettamente deterministica, gli SLM consentono di applicare un controllo dell'architettura che prima era molto più difficile. Utilizzando tecniche di decodifica vincolata come JSON Schema o Context-Free Grammars (CFG), puoi eliminare lo spazio di ricerca dei token del modello, rendendo fisicamente impossibile per il modello scegliere un carattere successivo non valido. In questo modo l'attenzione si sposta dalla magia senza limiti all'accuratezza vincolata allo schema. In combinazione con l'esecuzione locale e il fine tuning specializzato, gli SLM possono ottenere una validità di oltre il 98% nelle attività strutturate, offrendo l'affidabilità prevedibile necessaria per i flussi di lavoro sensibili degli agenti.
3. La sovranità dei dati non è un optional
I dati sono la tua risorsa più preziosa. In un mondo di agenti, questi modelli si occuperanno della gestione delle relazioni con i clienti (CRM), del codice proprietario e della strategia interna. Cedere tali dati a un provider cloud di terze parti in cambio di un approccio "intelligence-as-a-service" è un errore strategico.
L'esecuzione di SLM on premise o all'interno del proprio ambiente hybrid cloud significa mantenere la proprietà intellettuale. Consente un'architettura di IA "zero trust" in cui i dati sensibili non lasciano mai il tuo perimetro, soddisfacendo i severi requisiti normativi comuni in settori come quello sanitario, finanziario e governativo.
Considerazioni finali
Stiamo passando da un mondo in cui l'IA generativa (gen AI) produce conversazioni e contenuti a uno scenario in cui l'IA agentica agisce per nostro conto. In questa nuova era, la domanda non riguarda più quale sia il modello più grande, ma quale sia l'infrastruttura più affidabile e protetta. Quando le operazioni aziendali dipendono da un parco di agenti digitali specializzati, il modello cloud "scatola nera" non è più sufficiente. Servono sovranità, velocità e precisione.
Noi di Red Hat crediamo che il percorso verso il futuro degli agenti sia open source. Sfruttando modelli linguistici di piccole dimensioni curati, che possono essere ottimizzati, distribuiti e orchestrati con il portafoglio di Red Hat AI, le aziende possono portare l'IA dalla sperimentazione alla logica di business.
Il settore si muove rapidamente, ma l'obiettivo è chiaro: smetti di inseguire i giganti e inizia a costruire le basi. Il futuro dell'IA è piccolo, veloce e basato sull'open hybrid cloud.
Scopri di più
Prodotto
Red Hat AI
Sugli autori
Catherine Weeks is an Engineering Director in Red Hat AI, where she leads the teams building software with the latest generative AI innovations.
With a background in software design, Catherine is a leader who excels at translating complex customer needs into practical engineering solutions. She is known for her ability to work at every level—from high-level strategy down to the hands-on work of getting it done. This approach helps her balance the fast-moving world of AI innovation with the need to build the reliable, high-quality products customers depend on, all while fostering a supportive team culture.
With over 20 years in the software industry, Catherine has a proven record of mentoring strong teams and has always been a champion for the end-user.
Ricardo is a Principal Software Engineer working at the Red Hat's Office of the CTO in the Emerging Technologies organization as Initiative lead. Ricardo is currently focused on the different kinds of architectures in the AI space like SLMs and multimodality. He has been part of the MicroShift and Edge Manager projects since its inception.
He is a former member of the Akraino Technical Steering Committee and Project Technical Lead of the Kubernetes-Native-Infrastructure blueprint family. He's been doing R&D related to OpenStack, as well as, contributing to OpenDaylight project and OPNFV. He is passionate about new technologies and everything related to the Open Source world. Ricardo holds a MSc Degree in Telecommunications from Technical University of Madrid (UPM). He loves music, photography and outdoor sports.
Altri risultati simili a questo
Red Hat and Netris bring multi-tenant networking to sovereign AI clouds and neoclouds
The agentic paradox and the case for hybrid AI
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Ricerca per canale
Automazione
Novità sull'automazione IT di tecnologie, team e ambienti
Intelligenza artificiale
Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque
Hybrid cloud open source
Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido
Sicurezza
Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti
Edge computing
Aggiornamenti sulle piattaforme che semplificano l'operatività edge
Infrastruttura
Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale
Applicazioni
Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili
Virtualizzazione
Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud