Cosa sono i modelli fondativi per l'IA?

Pubblicato 14 settembre 2023•6 minuti (tempo di lettura)

Un modello fondativo è una particolare tipologia di modello di machine learning (ML) che viene addestrato per eseguire una specifica gamma di attività.

Fino a poco tempo fa, i sistemi di intelligenza artificiale (IA) erano strumenti specializzati. Ciò significa che un modello di ML veniva addestrato solo per un'applicazione specifica o un determinato scenario di utilizzo. Il termine modello fondativo è entrato a far parte del lessico comune quando alcuni esperti hanno notato le due tendenze nell'ambito del machine learning indicate di seguito.

Per eseguire una vasta gamma di attività venivano utilizzate solo poche architetture di deep learning.
Un modello di AI è in grado di fornire concetti che non erano previsti all'inizio del suo addestramento.

I modelli fondativi, come i modelli Granite di IBM, sono stati programmati per avere una comprensione contestuale generica di andamenti, strutture e rappresentazioni. Questa conoscenza di base della comunicazione e dei diversi schemi e andamenti può essere ulteriormente affinata per eseguire attività specifiche per un dominio in qualsiasi settore.

Scopri Red Hat AI

Le caratteristiche che definiscono i modelli fondativi e che ne consentono il funzionamento sono due: la capacità di trasferire le informazioni apprese e la scalabilità. La capacità di trasferire le informazioni apprese indica l'abilità di un modello di applicare le conoscenze in una situazione a un'altra e di costituire una sorta di esperienza interna.

La scalabilità invece si riferisce a dei componenti hardware, le unità di elaborazione grafica (GPU), che consentono al modello di eseguire più operazioni allo stesso tempo, ossia di effettuare un'elaborazione in parallelo. Le GPU sono un elemento chiave dell'addestramento e della distribuzione dei modelli di deep learning, compresi quelli di base, perché consentono di elaborare dati ed eseguire calcoli statistici complessi rapidamente.

Deep learning e modelli fondativi
Molti modelli fondativi, specialmente quelli impiegati nell'elaborazione del linguaggio naturale (NLP), nella visione artificiale e nell'elaborazione audio, vengono addestrati utilizzando il deep learning. La tecnologia deep learning sostiene molti (ma non tutti) modelli fondativi ed è stato l'elemento principale che ha contribuito a molti progressi in questo ambito. Il deep learning è anche noto come apprendimento neurale profondo o reti neurali profonde e insegna ai computer a imparare tramite l'osservazione, simulando le modalità di acquisizione delle conoscenze tipiche degli esseri umani.

Trasformatori e modelli fondativi
Sebbene non tutti i modelli fondativi utilizzino i trasformatori, un'architettura con trasformatore si è rivelata un modo diffuso per creare modelli fondativi che coinvolgono testi come ChatGPT, BERT e DALL-E 2. I trasformatori migliorano le capacità dei modelli di ML perché consentono di acquisire le dipendenze e le relazioni contestuali tra gli elementi di una sequenza di dati. Inoltre, essendo tipi di reti neurali artificiali (ANN) impiegati nei modelli NLP, non vengono in genere utilizzati per modelli di ML dedicati alla visione artificiale o all'elaborazione vocale.

Dopo l'addestramento, il modello fondativo utilizza la conoscenza acquisita dall'enorme pool di dati da cui è stato costituito per supportare la risoluzione dei problemi, capacità che offre vantaggi notevoli alle organizzazioni sotto diversi aspetti. Di seguito un elenco di alcune delle attività generiche svolte da un modello fondativo.

Elaborazione del linguaggio naturale (NLP)
Grazie alla sua capacità di riconoscere contesti, regole grammaticali e strutture linguistiche, un modello fondativo addestrato in ambito NLP è in grado di generare informazioni precise dai dati con cui è stato alimentato. Un ulteriore affinamento di queste capacità consente di associare ai testi analizzati un preciso sentiment (che sia positivo, negativo o neutro) in modo che si possano analizzare in modo costruttivo e produttivo messaggi scritti, come feedback dei clienti, recensioni online o post sui social. L'elaborazione del linguaggio naturale è un ambito ampio, che comprende lo sviluppo e l'applicazione di modelli linguistici di grandi dimensioni (LLM).

Visione artificiale
Quando il modello è in grado di riconoscere forme e caratteristiche di base, può iniziare a identificare anche schemi e motivi precisi. I modelli sviluppati per questo particolare utilizzo, quando affinati, sono in grado di moderare automaticamente i contenuti ed eseguire attività legate al riconoscimento facciale e alla classificazione delle immagini. Partendo dagli schemi e dagli andamenti appresi in precedenza, sono inoltre in grado di generare nuove immagini.

Elaborazione audio/riconoscimento vocale
Un modello addestrato al riconoscimento fonetico è in grado di estrapolare il significato delle parole pronunciate, per offrire una comunicazione più inclusiva. Assistenti virtuali, supporto multilingue, comandi vocali e funzionalità come quelle che consentono la trascrizione del parlato promuovono sia l'accessibilità che la produttività.

Un'ulteriore ottimizzazione consente di progettare sistemi di machine learning maggiormente specializzati, capaci di soddisfare le esigenze specifiche del settore di riferimento, ad esempio il riconoscimento delle frodi per le istituzioni finanziarie, il sequenziamento del DNA per il settore medico, chatbot per l'assistenza clienti e molto altro.

I modelli fondativi offrono alle organizzazioni accessibilità e un livello di sofisticazione che sarebbero altrimenti irraggiungibili. Adottando e basandosi sui modelli fondativi le aziende possono superare problemi comuni come quelli indicati di seguito.

Accesso limitato a dati di qualità: i dati su cui si basano sono migliori e più numerosi di quelli a cui si ha solitamente accesso.

Precisione/performance del modello: offrono un'accuratezza di base che in autonomia si raggiungerebbe in mesi, se non in anni.

Time to value: l'addestramento di un modello di ML richiede tempo e risorse, mentre i modelli fondativi offrono una serie di funzionalità generali, personalizzabili in base alle esigenze specifiche.

Mancanza di talenti: si può approfittare di AI/ML senza dover investire sensibilmente in risorse di data science.

Gestione complessa delle spese: non serve hardware costoso per l'addestramento iniziale. Seppure sia necessario investire nell'ottimizzazione e nella distribuzione del modello finale, questo costituisce solo una minima parte del costo che sarebbe servito per addestrare il modello fondativo da zero.

Scopri come l'IA può lavorare per l'azienda

I modelli fondativi possono certamente essere utilizzati in molti modi utili e innovativi, ma presentano anche una serie di sfide che è bene tenere presenti.

Costi
Sono necessarie molte risorse per sviluppare, addestrare e distribuire sistemi di questo tipo. L'addestramento iniziale richiede un'enorme quantità di dati generici, consuma centinaia di migliaia di GPU e spesso richiede un gruppo dedicato di ingegneri e data scientist esperti in machine learning.

Le organizzazioni possono evitare di dover addestrare un modello da zero utilizzando i modelli Models-as-a-Service (MaaS). Per utilizzare i modelli in un'applicazione in tempo reale, possono avvalersi di un server di inferenza come vLLM. vLLM offre capacità di inferenza efficienti in modo scalabile, consentendo agli sviluppatori di sfruttare al massimo il potenziale delle prestazioni del proprio hardware.

Per i modelli fondativi di grandi dimensioni con miliardi di parametri, tecniche come l'inferenza distribuita e llm-d possono offrire ancora più efficienza e un maggiore risparmio di risorse.

Interpretabilità
In questo ambito, si parla di scatola nera quando un programma di IA esegue un'attività all'interno della propria rete neurale, senza renderne chiaro il processo di elaborazione. Ciò porta a uno scenario in cui nessuno, nemmeno i data scientist e gli ingegneri che hanno creato l'algoritmo, è in grado di spiegare esattamente in che modo il modello è arrivato a uno specifico risultato. L'incapacità di interpretare queste scatole nere può causare conseguenze dannose quando vengono impiegate per processi decisionali che comportano rischi elevati, soprattutto in settori quali quello dell'assistenza sanitaria, della giustizia penale e finanziario. Questo effetto si rileva in qualsiasi modello basato su una rete neurale, non solo sui modelli fondativi.

Privacy e sicurezza
I modelli fondativi devono avere accesso a molte informazioni che a volte includono i dati personali del cliente o dati aziendali proprietari. Si tratta di un aspetto di cui tenere particolarmente conto se il modello che si intende utilizzare è accessibile a un provider di terze parti.

Scopri di più sulla sicurezza dell'IA

Precisione e bias
Se un modello di deep learning è addestrato a partire da dati contenenti bias in termini statistici o che non forniscono una rappresentazione veritiera della popolazione, il risultato può essere non corretto. I bias umani esistenti purtroppo vengono spesso trasferiti all'intelligenza artificiale, con il conseguente rischio di algoritmi discriminatori e risultati pregiudiziosi. Per le aziende che usufruiscono dell'IA per migliorare produttività e prestazioni, è quindi essenziale che siano attuate strategie che riducano i bias. Per farlo, sono necessari innanzitutto processi di progettazione inclusivi e una maggiore attenzione alla diversità di rappresentazione all'interno dei dati raccolti.

Le organizzazioni possono migliorare l'accuratezza dell'output dei modelli standardizzando il modo in cui i modelli accedono e utilizzano i dati esterni tramite Model Context Protocol (MCP). Creando un flusso di comunicazione strutturato tra il modello e i documenti esterni (come i documenti interni dell'azienda o le API in tempo reale), è possibile tracciare, verificare e filtrare gli output per individuare eventuali bias. Inoltre, la creazione di una connessione formale con MCP semplifica la scalabilità e la gestione di un sistema di retrieval augmented generation (RAG) man mano che vengono introdotte nuove sorgenti di dati.

Rendi operativa l'IA con Red Hat AI

Red Hat^® AI offre un portafoglio di prodotti di IA sviluppati a partire dalle soluzioni che i nostri clienti già conoscono.

Grazie alle soluzioni per l'IA di Red Hat, le organizzazioni possono:

Adottare l'IA rapidamente per promuovere l'innovazione.
Semplificare l'erogazione di soluzioni di intelligenza artificiale.
Eseguire il deployment in tutti gli ambienti.

Scopri le soluzioni per l'IA di Red Hat

Rapido accesso agli LLM della famiglia Granite

Se ti piacerebbe sperimentare i modelli fondativi, ma non hai ancora le idee chiare sugli scenari di utilizzo nella tua azienda, prova Red Hat^® Enterprise Linux^® AI. Red Hat Enterprise Linux è una piattaforma per l'esecuzione degli LLM in ambienti server singoli. La soluzione include Red Hat AI Inference Server, che offre un'inferenza rapida e conveniente nel cloud ibrido, massimizzando il throughput e riducendo al minimo la latenza.

Gli sviluppatori possono accedere rapidamente a un unico server e hanno a disposizione un set completo di LLM e strumenti di IA, ovvero tutto il necessario per ottimizzare i modelli e creare applicazioni di IA gen.

Esplora Red Hat Enterprise Linux AI

Continua a leggere

Cos'è l'inferenza distribuita?

Con l'inferenza distribuita i modelli di IA elaborano i carichi di lavoro in modo più efficiente, suddividendo le attività di inferenza su un gruppo di dispositivi interconnessi.

Cos'è il Model Context Protocol (MCP)?

Scopri in che modo il Model Context Protocol (MCP) connette le applicazioni di IA a sorgenti di dati esterne, aiutandoti a creare flussi di lavoro più intelligenti.

Introduzione ad AIOps

AIOps è un'intelligenza artificiale per le operazioni IT con un approccio specifico all'automazione delle operazioni IT che si avvale del machine learning e di altre tecniche di IA avanzate.

Cosa sono i modelli fondativi per l'IA?

Risorse da Red Hat

Rapido accesso agli LLM della famiglia Granite

Definizione della strategia aziendale per l'IA: una guida introduttiva

Tutte le versioni di prova dei prodotti Red Hat

Continua a leggere

Cos'è l'inferenza distribuita?

Cos'è il Model Context Protocol (MCP)?

Introduzione ad AIOps

AI/ML: risorse consigliate

Piattaforme

Strumenti

Prova, acquista, vendi

Comunica

Informazioni su Red Hat

Change page language

Red Hat legal and privacy links

Red Hat legal and privacy links