Cosa sono i modelli linguistici di piccole dimensioni (SLM)?
Un modello linguistico di piccole dimensioni (SLM) è la versione ridotta di un modello linguistico di grandi dimensioni (LLM) ed è caratterizzato da conoscenze più specializzate, tempi di personalizzazione più brevi e un'efficienza operativa superiore.
A differenza degli LLM, che dispongono di conoscenze generali più ampie, gli SLM vengono addestrati per l'acquisizione di conoscenze specifiche in un certo campo. Le dimensioni ridotte degli SLM consentono di ridurre il consumo di risorse di elaborazione per l’addestramento e il deployment, abbattendo i costi infrastrutturali e accelerando i processi di ottimizzazione, e la loro leggerezza li rende la soluzione ideale per i dispositivi edge e le applicazioni mobili.
SLM e LLM a confronto
Gli SLM e gli LLM sono due tipi di sistemi di intelligenza artificiale (IA) addestrati per interpretare il linguaggio umano, inclusi i linguaggi di programmazione. In genere, le differenze principali tra di essi riguardano la dimensione dei set di dati su cui sono addestrati, i processi utilizzati per l'addestramento e i costi e i benefici associati alla loro adozione per i vari scenari di utilizzo.
Come suggeriscono i nomi, sia gli LLM che gli SLM sono addestrati su set di dati costituiti da linguaggio, distinguendosi così dai modelli addestrati su immagini (come DALL·E) o video (come Sora). Alcuni esempi di set di dati basati sul linguaggio includono testi di pagine web, codice per sviluppatori, email e manuali.
Una delle applicazioni più note degli SLM e degli LLM è l'intelligenza artificiale generativa (IA gen), che può generare, come suggerisce il nome, contenuti non predefiniti in risposta a molte query diverse e imprevedibili. Gli LLM, in particolare, si sono affermati presso il grande pubblico grazie al modello fondativo GPT-4 e a ChatGPT, un chatbot conversazionale addestrato su enormi set di dati che utilizza miliardi di parametri per rispondere a una vasta serie di query umane. Sebbene l'IA gen sia ampiamente diffusa, esistono anche applicazioni non generative degli LLM e degli SLM, come l'intelligenza artificiale predittiva.
In genere gli LLM e gli SLM sono addestrati su set di dati diversi
L'ambito di applicazione di GPT-4/ChatGPT è un valido esempio che dimostra una differenza comune tra LLM e SLM: i set di dati su cui sono addestrati.
Di solito, gli LLM sono destinati a emulare l'intelligenza umana a un livello molto ampio e sono quindi addestrati su un'ampia gamma di set di dati di grandi dimensioni. Nel caso di GPT-4/ChatGPT, questi dati includono l'intero Internet pubblico fino a una certa data. È in questo modo che ChatGPT si è diffuso per il suo modo di interpretare e rispondere a una così vasta gamma di query da parte degli utenti generici. Tuttavia, questo è anche il motivo per cui a volte è stato oggetto di attenzione per le risposte potenzialmente errate, chiamate colloquialmente "allucinazioni": non dispone del fine tuning e dell'addestramento in ambiti specifici per poter rispondere con precisione a ogni query specifica di un settore o di un particolare dominio.
Gli SLM, invece, sono solitamente addestrati su set di dati più piccoli, su misura per specifici settori o aree di competenza. Ad esempio, un fornitore di servizi sanitari potrebbe utilizzare un chatbot basato su un SLM addestrato su set di dati medici per infondere conoscenze specifiche settoriali alla query di un utente senza esperienza sulla propria salute, arricchendo la qualità della domanda e della risposta. In questo caso, il chatbot basato su SLM non ha bisogno di essere addestrato su tutti i contenuti di Internet, inclusi ogni articolo di blog, romanzo o poesia esistenti, perché sarebbero irrilevanti per lo scenario di utilizzo del settore sanitario.
In breve, gli SLM tendono a distinguersi in ambiti specifici, ma rispetto agli LLM risultano meno efficaci nella gestione delle conoscenze generali e della comprensione globale del contesto.
Risorse da Red Hat
LLM e SLM richiedono risorse differenti
Qualunque sia lo scenario di utilizzo in azienda, il processo di addestramento dei modelli è caratterizzato dall'utilizzo elevato di risorse, soprattutto nel caso degli LLM. Per GPT-4, 25.000 GPU NVIDIA A100 sono state eseguite in modo simultaneo e continuativo per 90-100 giorni. Ricordiamo che nella gamma degli LLM, GPT-4 si colloca tra i più grandi. Altri LLM, come Granite, non esigono così tante risorse. Anche l'addestramento di un SLM richiede risorse di elaborazione significative, benché in misura nettamente inferiore a quelle richieste da un LLM.
Requisiti in termini di risorse per l'addestramento e per l'inferenza
È importante anche notare la differenza tra addestramento e inferenza dei modelli. L'addestramento, come descritto in precedenza, è la prima fase per lo sviluppo di un modello di IA. L'inferenza è il processo che esegue un modello di IA addestrato per elaborare previsioni a partire da nuovi dati. Quando un utente pone una domanda a ChatGPT, ad esempio, ChatGPT restituisce all'utente una previsione. Il processo che genera tale previsione è un'inferenza.
Alcuni LLM preaddestrati, come quelli della famiglia Granite, possono generare inferenze utilizzando le risorse di una singola workstation con capacità elevate (i modelli Granite possono occupare una GPU2 V100-32GB), sebbene molti richiedano più unità di elaborazione in parallelo per generare i dati. Più alto è il numero di utenti che accedono simultaneamente a un LLM e più lenta sarà l'esecuzione delle inferenze da parte del modello. Invece gli SLM sono di solito progettati per generare inferenze utilizzando le risorse di uno smartphone o di altri dispositivi mobili.
Vantaggi degli SLM
Non esiste un modello migliore di un altro, ma esiste il modello più appropriato ai piani, alle risorse, all'esperienza, alle tempistiche e ad altri fattori specifici di un'azienda. È importante anche stabilire se il proprio scenario di utilizzo richiede l'addestramento di un modello da zero o il fine tuning di un modello preaddestrato. Ecco alcune considerazioni utili su LLM e SLM:
Costo
In generale, le risorse richieste dagli LLM per l'addestramento, il fine tuning e le inferenze sono più elevate, ma va ricordato che l'addestramento non è un investimento così frequente. Le risorse di elaborazione sono necessarie solo durante l'addestramento del modello, un'attività intermittente e non continua. L'esecuzione delle inferenze è invece un costo continuo che può aumentare in funzione del numero di utenti che lo utilizzano. Nella maggior parte dei casi, serviranno risorse di cloud computing su vasta scala, significativi investimenti in risorse on premise, o entrambi.
Gli SLM sono spesso ritenuti più adatti agli scenari a bassa latenza, come l'edge computing, perché possono funzionare con le sole risorse disponibili in un singolo dispositivo mobile, senza richiedere una connessione stabile e continua a risorse più significative.
Competenze
Alcuni tra i più diffusi LLM preaddestrati, come Granite, Llama e GPT-4, offrono un'opzione di tipo "plug-and-play" che consente alle organizzazioni di introdurre l'IA. Sono adatti a chi intende iniziare a fare pratica con l'IA perché non devono essere progettati e addestrati da zero dai data scientist. Per il fine tuning ottimale dei set di dati di ambiti molto specifici degli SLM è invece necessaria un'esperienza specializzata sia in data science che nei domini delle competenze settoriali.
Sicurezza
Uno dei potenziali rischi degli LLM è l'esposizione di dati sensibili tramite le interfacce di programmazione delle applicazioni (API). Il fine tuning di un LLM con i dati di un'organizzazione richiede molta attenzione alle policy aziendali e di conformità. Offrendo un livello di controllo più alto, negli SLM il rischio di perdita di dati è inferiore.
Limitazioni degli SLM
Con l’integrazione degli SLM nei flussi di lavoro aziendali, diventa fondamentale conoscerne le limitazioni intrinseche.
Bias
Gli SLM vengono addestrati con set di dati più piccoli, per questo diventa più semplice (rispetto agli LLM) mitigare i bias che inevitabilmente contengono. Tuttavia, come accade per tutti i modelli linguistici, l'addestramento dei dati può comunque introdurre bias, o pregiudizi, quali rappresentazioni parziali o non accurate di alcuni gruppi e concetti o inesattezze relative ai fatti. I modelli linguistici possono acquisire anche bias correlati a dialetti, posizioni geografiche e grammatica.
Per limitare gli output distorti, i team dovrebbero prestare particolare attenzione alla qualità dei dati di addestramento.
Ambito di conoscenza limitato
Per la generazione delle risposte gli SLM attingono a una base informativa più ristretta, il che li rende ideali per attività specifiche, ma meno adatti ad attività che necessitano di conoscenze generali di ampio respiro.
I team potrebbero valutare la possibilità di creare una raccolta di SLM specifici da utilizzare insieme a uno o più LLM. Questa soluzione si rivela particolarmente interessante quando i team riescono a combinare i modelli con le applicazioni esistenti, creando un flusso di lavoro interconnesso di più modelli linguistici che lavorano di pari passo.
Scenari di utilizzo degli SLM
Grazie alla loro adattabilità, gli SLM si rivelano ideali per una vasta serie di scenari di utilizzo.
Chatbot
È possibile utilizzare un SLM per addestrare un chatbot su materiale specializzato, ad esempio un chatbot per l'assistenza clienti può essere addestrato con contenuti aziendali specifici, in modo da poter rispondere alle domande degli utenti e aiutarli a trovare le informazioni di cui hanno bisogno.
Agentic AI
È possibile integrare gli SLM in un flusso di lavoro agentic AI, in modo che svolgano attività per conto dell'utente.
IA generativa
Gli SLM possono svolgere attività quali generazione di nuovo testo, traduzione di testi esistenti e creazione di riassunti.
Perché scegliere Red Hat?
Red Hat AI offre funzionalità di IA generativa e predittiva, insieme al supporto MLOps, per creare soluzioni di IA scalabili e affidabili negli ambienti di cloud ibrido. Favorisce l'adozione dell'IA, alleviando le difficoltà della distribuzione delle soluzioni di IA, e garantisce sviluppo e distribuzione flessibili, ovunque si trovino i dati.
Insieme all'infrastruttura di cloud ibrido e aperto di Red Hat, Red Hat AI permette di creare soluzioni personalizzate, di gestire modelli e cicli di vita dell'applicazione, di assecondare i requisiti di accelerazione hardware e di distribuire, eseguire e gestire carichi di lavoro critici da una sola piattaforma.
Machine learning e IA per principianti
Se stai muovendo i primi passi con i modelli di ML e IA, puoi provare InstructLab, una soluzione realizzata dalla community per l'addestramento dei modelli LLM, che ti permette di sperimentare e contribuire in modo diretto e gratuito allo sviluppo dei tuoi modelli di IA.
Accesso facilitato ai modelli della famiglia Granite di IBM
Se vuoi passare alla fase successiva, Red Hat® Enterprise Linux® AI è una piattaforma per modelli fondativi concepita per sviluppare, testare ed eseguire gli LLM del portfolio Granite per applicazioni aziendali. Granite è una famiglia di modelli di IA con licenza open source completamente supportati e tutelati da Red Hat. L'approccio open source stimola l'innovazione dell'IA generativa garantendo al tempo stesso affidabilità e sicurezza.
Scalabilità per le aziende
Red Hat® OpenShift® AI è una piattaforma in grado di supportare la scalabilità dei modelli negli ambienti di cloud ibrido, che permette di addestrare, eseguire il fine tuning dei prompt, ottimizzare e gestire i modelli di IA per adeguarli a scenari di utilizzo e dati specifici.
Nel complesso, questi prodotti forniscono una soluzione unificata che consente la collaborazione tra data scientist e sviluppatori, in modo che i team possano far avanzare rapidamente i modelli dalla fase di sperimentazione agli ambienti di produzione.
Ecosistema di partner
Inoltre, le integrazioni dei partner di Red Hat danno accesso a un ecosistema in crescita di strumenti di IA affidabili e compatibili con le piattaforme open source.
Il blog ufficiale di Red Hat
Leggi gli articoli del blog di Red Hat per scoprire novità e consigli utili sulle nostre tecnologie, e avere aggiornamenti sul nostro ecosistema di clienti, partner e community.