SLM e LLM a confronto

Pubblicato 1 ottobre 2024•7 minuti (tempo di lettura)

Un modello linguistico di piccole dimensioni (SLM) è la versione ridotta di un modello linguistico di grandi dimensioni (LLM) ed è caratterizzato da conoscenze più specializzate, tempi di personalizzazione più brevi e un'efficienza operativa superiore.

A differenza degli LLM, che dispongono di conoscenze generali più ampie, gli SLM vengono addestrati per l'acquisizione di conoscenze specifiche in un certo campo. Le dimensioni ridotte degli SLM consentono di ridurre il consumo di risorse di elaborazione per l’addestramento e il deployment, abbattendo i costi infrastrutturali e accelerando i processi di ottimizzazione, e la loro leggerezza li rende la soluzione ideale per i dispositivi edge e le applicazioni mobili.

SLM e LLM a confronto

Gli SLM e gli LLM sono due tipi di sistemi di intelligenza artificiale (IA) addestrati per interpretare il linguaggio umano, inclusi i linguaggi di programmazione. In genere, le differenze principali tra di essi riguardano la dimensione dei set di dati su cui sono addestrati, i processi utilizzati per l'addestramento e i costi e i benefici associati alla loro adozione per i vari scenari di utilizzo.

Come suggeriscono i nomi, sia gli LLM che gli SLM sono addestrati su set di dati costituiti da linguaggio, distinguendosi così dai modelli addestrati su immagini (come DALL·E) o video (come Sora). Alcuni esempi di set di dati basati sul linguaggio includono testi di pagine web, codice per sviluppatori, email e manuali.

Una delle applicazioni più note degli SLM e degli LLM è l'intelligenza artificiale generativa (IA gen), che può generare, come suggerisce il nome, contenuti non predefiniti in risposta a molte query diverse e imprevedibili. Gli LLM, in particolare, si sono affermati presso il grande pubblico grazie al modello fondativo GPT-4 e a ChatGPT, un chatbot conversazionale addestrato su enormi set di dati che utilizza miliardi di parametri per rispondere a una vasta serie di query umane. Sebbene l'IA gen sia ampiamente diffusa, esistono anche applicazioni non generative degli LLM e degli SLM, come l'intelligenza artificiale predittiva.

Considerazioni essenziali per la creazione di un ambiente di AI e ML production ready

L'ambito di applicazione di GPT-4/ChatGPT è un valido esempio che dimostra una differenza comune tra LLM e SLM: i set di dati su cui sono addestrati.

Di solito, gli LLM sono destinati a emulare l'intelligenza umana a un livello molto ampio e sono quindi addestrati su un'ampia gamma di set di dati di grandi dimensioni. Nel caso di GPT-4/ChatGPT, questi dati includono l'intero Internet pubblico fino a una certa data. È in questo modo che ChatGPT si è diffuso per il suo modo di interpretare e rispondere a una così vasta gamma di query da parte degli utenti generici. Tuttavia, questo è anche il motivo per cui a volte è stato oggetto di attenzione per le risposte potenzialmente errate, chiamate colloquialmente "allucinazioni": non dispone del fine tuning e dell'addestramento in ambiti specifici per poter rispondere con precisione a ogni query specifica di un settore o di un particolare dominio.

Gli SLM, invece, sono solitamente addestrati su set di dati più piccoli, su misura per specifici settori o aree di competenza. Ad esempio, un fornitore di servizi sanitari potrebbe utilizzare un chatbot basato su un SLM addestrato su set di dati medici per infondere conoscenze specifiche settoriali alla query di un utente senza esperienza sulla propria salute, arricchendo la qualità della domanda e della risposta. In questo caso, il chatbot basato su SLM non ha bisogno di essere addestrato su tutti i contenuti di Internet, inclusi ogni articolo di blog, romanzo o poesia esistenti, perché sarebbero irrilevanti per lo scenario di utilizzo del settore sanitario.

In breve, gli SLM tendono a distinguersi in ambiti specifici, ma rispetto agli LLM risultano meno efficaci nella gestione delle conoscenze generali e della comprensione globale del contesto.

LoRA e QLoRA a confronto

Qualunque sia lo scenario di utilizzo in azienda, il processo di addestramento dei modelli è caratterizzato dall'utilizzo elevato di risorse, soprattutto nel caso degli LLM. Per GPT-4, 25.000 GPU NVIDIA A100 sono state eseguite in modo simultaneo e continuativo per 90-100 giorni. Ricordiamo che nella gamma degli LLM, GPT-4 si colloca tra i più grandi. Altri LLM, come Granite, non esigono così tante risorse. Anche l'addestramento di un SLM richiede risorse di elaborazione significative, benché in misura nettamente inferiore a quelle richieste da un LLM.

Requisiti in termini di risorse per l'addestramento e per l'inferenza

È importante anche notare la differenza tra addestramento e inferenza dei modelli. L'addestramento, come descritto in precedenza, è la prima fase per lo sviluppo di un modello di IA. L'inferenza è il processo che esegue un modello di IA addestrato per elaborare previsioni a partire da nuovi dati. Quando un utente pone una domanda a ChatGPT, ad esempio, ChatGPT restituisce all'utente una previsione. Il processo che genera tale previsione è un'inferenza.

Alcuni LLM preaddestrati, come quelli della famiglia Granite, possono generare inferenze utilizzando le risorse di una singola workstation con capacità elevate (i modelli Granite possono occupare una GPU2 V100-32GB), sebbene molti richiedano più unità di elaborazione in parallelo per generare i dati. Più alto è il numero di utenti che accedono simultaneamente a un LLM e più lenta sarà l'esecuzione delle inferenze da parte del modello. Invece gli SLM sono di solito progettati per generare inferenze utilizzando le risorse di uno smartphone o di altri dispositivi mobili.

Non esiste un modello migliore di un altro, ma esiste il modello più appropriato ai piani, alle risorse, all'esperienza, alle tempistiche e ad altri fattori specifici di un'azienda. È importante anche stabilire se il proprio scenario di utilizzo richiede l'addestramento di un modello da zero o il fine tuning di un modello preaddestrato. Ecco alcune considerazioni utili su LLM e SLM:

Costo

In generale, le risorse richieste dagli LLM per l'addestramento, il fine tuning e le inferenze sono più elevate, ma va ricordato che l'addestramento non è un investimento così frequente. Le risorse di elaborazione sono necessarie solo durante l'addestramento del modello, un'attività intermittente e non continua. L'esecuzione delle inferenze è invece un costo continuo che può aumentare in funzione del numero di utenti che lo utilizzano. Nella maggior parte dei casi, serviranno risorse di cloud computing su vasta scala, significativi investimenti in risorse on premise, o entrambi.

Gli SLM sono spesso ritenuti più adatti agli scenari a bassa latenza, come l'edge computing, perché possono funzionare con le sole risorse disponibili in un singolo dispositivo mobile, senza richiedere una connessione stabile e continua a risorse più significative.

Dal blog di Red Hat

Suggerimenti per ridurre i costi degli LLM

In che modo la generazione di dati sintetici di InstructLab migliora gli LLM

Competenze

Alcuni tra i più diffusi LLM preaddestrati, come Granite, Llama e GPT-4, offrono un'opzione di tipo "plug-and-play" che consente alle organizzazioni di introdurre l'IA. Sono adatti a chi intende iniziare a fare pratica con l'IA perché non devono essere progettati e addestrati da zero dai data scientist. Per il fine tuning ottimale dei set di dati di ambiti molto specifici degli SLM è invece necessaria un'esperienza specializzata sia in data science che nei domini delle competenze settoriali.

Sicurezza

Uno dei potenziali rischi degli LLM è l'esposizione di dati sensibili tramite le interfacce di programmazione delle applicazioni (API). Il fine tuning di un LLM con i dati di un'organizzazione richiede molta attenzione alle policy aziendali e di conformità. Offrendo un livello di controllo più alto, negli SLM il rischio di perdita di dati è inferiore.

Con l’integrazione degli SLM nei flussi di lavoro aziendali, diventa fondamentale conoscerne le limitazioni intrinseche.

Bias

Gli SLM vengono addestrati con set di dati più piccoli, per questo diventa più semplice (rispetto agli LLM) mitigare i bias che inevitabilmente contengono. Tuttavia, come accade per tutti i modelli linguistici, l'addestramento dei dati può comunque introdurre bias, o pregiudizi, quali rappresentazioni parziali o non accurate di alcuni gruppi e concetti o inesattezze relative ai fatti. I modelli linguistici possono acquisire anche bias correlati a dialetti, posizioni geografiche e grammatica.

Per limitare gli output distorti, i team dovrebbero prestare particolare attenzione alla qualità dei dati di addestramento.

Ambito di conoscenza limitato

Per la generazione delle risposte gli SLM attingono a una base informativa più ristretta, il che li rende ideali per attività specifiche, ma meno adatti ad attività che necessitano di conoscenze generali di ampio respiro.

I team potrebbero valutare la possibilità di creare una raccolta di SLM specifici da utilizzare insieme a uno o più LLM. Questa soluzione si rivela particolarmente interessante quando i team riescono a combinare i modelli con le applicazioni esistenti, creando un flusso di lavoro interconnesso di più modelli linguistici che lavorano di pari passo.

Grazie alla loro adattabilità, gli SLM si rivelano ideali per una vasta serie di scenari di utilizzo.

Chatbot

È possibile utilizzare un SLM per addestrare un chatbot su materiale specializzato, ad esempio un chatbot per l'assistenza clienti può essere addestrato con contenuti aziendali specifici, in modo da poter rispondere alle domande degli utenti e aiutarli a trovare le informazioni di cui hanno bisogno.

Agentic AI

È possibile integrare gli SLM in un flusso di lavoro agentic AI, in modo che svolgano attività per conto dell'utente.

IA generativa

Gli SLM possono svolgere attività quali generazione di nuovo testo, traduzione di testi esistenti e creazione di riassunti.

Scopri gli scenari di utilizzo dell'IA gen

Red Hat AI offre funzionalità di IA generativa e predittiva, insieme al supporto MLOps, per creare soluzioni di IA scalabili e affidabili negli ambienti di cloud ibrido. Favorisce l'adozione dell'IA, alleviando le difficoltà della distribuzione delle soluzioni di IA, e garantisce sviluppo e distribuzione flessibili, ovunque si trovino i dati.

Insieme all'infrastruttura di cloud ibrido e aperto di Red Hat, Red Hat AI permette di creare soluzioni personalizzate, di gestire modelli e cicli di vita dell'applicazione, di assecondare i requisiti di accelerazione hardware e di distribuire, eseguire e gestire carichi di lavoro critici da una sola piattaforma.

Scopri le soluzioni IA di Red Hat

Accesso facilitato ai modelli della famiglia Granite di IBM

Red Hat Enterprise Linux AI è una piattaforma per sviluppare, testare ed eseguire LLM per applicazioni aziendali in un singolo ambiente server. Questa soluzione include Red Hat AI Inference Server per offrire un'inferenza rapida e conveniente nel cloud ibrido, massimizzando la produttività e minimizzando la latenza.

Learn more about Red Hat Enterprise Linux AI

Scalabilità per le aziende

Red Hat® OpenShift® AI è una piattaforma in grado di supportare la scalabilità dei modelli negli ambienti di cloud ibrido, che permette di addestrare, eseguire il fine tuning dei prompt, ottimizzare e gestire i modelli di IA per adeguarli a scenari di utilizzo e dati specifici.

Nel complesso, questi prodotti forniscono una soluzione unificata che consente la collaborazione tra data scientist e sviluppatori, in modo che i team possano far avanzare rapidamente i modelli dalla fase di sperimentazione agli ambienti di produzione.

Scopri di più su Red Hat OpenShift AI

Ecosistema di partner

Inoltre, le integrazioni dei partner di Red Hat danno accesso a un ecosistema in crescita di strumenti di IA affidabili e compatibili con le piattaforme open source.

Scopri i nostri partner per l'IA

Continua a leggere

Cos'è l'inferenza distribuita?

Con l'inferenza distribuita i modelli di IA elaborano i carichi di lavoro in modo più efficiente, suddividendo le attività di inferenza su un gruppo di dispositivi interconnessi.

Cos'è il Model Context Protocol (MCP)?

Scopri in che modo il Model Context Protocol (MCP) connette le applicazioni di IA a sorgenti di dati esterne, aiutandoti a creare flussi di lavoro più intelligenti.

Introduzione ad AIOps

AIOps è un'intelligenza artificiale per le operazioni IT con un approccio specifico all'automazione delle operazioni IT che si avvale del machine learning e di altre tecniche di IA avanzate.

Partecipazione e formazione

Servizi e supporto

Servizi

SLM e LLM a confronto

SLM e LLM a confronto

Risorse da Red Hat

Requisiti in termini di risorse per l'addestramento e per l'inferenza

Costo

Dal blog di Red Hat

Competenze

Sicurezza

Bias

Ambito di conoscenza limitato

Chatbot

Agentic AI

IA generativa

Accesso facilitato ai modelli della famiglia Granite di IBM

Scalabilità per le aziende

Ecosistema di partner

Definizione della strategia aziendale per l'IA: una guida introduttiva

Tutte le versioni di prova dei prodotti Red Hat

Continua a leggere

Cos'è l'inferenza distribuita?

Cos'è il Model Context Protocol (MCP)?

Introduzione ad AIOps

AI/ML: risorse consigliate

Piattaforme

Strumenti

Prova, acquista, vendi

Comunica

Informazioni su Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links