Un'esperienza può far germogliare un seme in una mente e farlo crescere fino a trasformarlo in un'idea molto più grande. Di recente ho visitato il Giappone, un paese meraviglioso con una cultura ricca e unica al mondo, e mi sono ricordato di quanto lingua e cultura siano profondamente intrecciate. La struttura linguistica riflette e influenza il modo in cui le persone percepiscono il mondo. Ad esempio, alcune culture sono più informali, mentre altre in cui esistono gerarchie sociali consolidate, tendono ad essere più formali. Ciò si manifesta a livello grammaticale, ma anche nel modo in cui le persone si salutano, nella formulazione delle domande e nel ritmo stesso della conversazione. Questa esperienza mi ha fatto sorgere una domanda: come possiamo addestrare la nuova generazione di IA a parlare la lingua di tutte le culture?
IA globale
Spesso si sente parlare dell'IA come di uno strumento rivoluzionario a livello globale, una tecnologia per l'intera umanità. Ma se l'IA apprende da dati collettivi, quale cultura sta davvero assimilando? L'idea di un sistema universalmente intelligente è promettente, ma nasconde un problema critico, in quanto i modelli di IA più potenti di oggi non sono neutrali a livello culturale. Sono un riflesso diretto dei dati di addestramento, che sono prevalentemente in inglese e incentrati sull'Occidente.
Il concetto di "sovranità dell'IA" diventa particolarmente rilevante per l'addestramento di questi modelli orientati all'Occidente. Non si tratta semplicemente di avere accesso a tecnologie o hardware, ma anche di creare un'IA che rifletta le lingue, i valori e la cultura specifici di una nazione o di una comunità. Riteniamo che la chiave per raggiungere questo obiettivo risieda nel mondo dell'IA open source.
Il divario linguistico dell'IA in cifre
La sovranità digitale, in particolare nel contesto dell'IA, si sta evolvendo rapidamente, passando dall'essere un concetto astratto a un problema critico e reale. I numeri confermano questo cambiamento: dal lancio di InvestAI da parte dell'UE, che ha stanziato 200 miliardi di euro per lo sviluppo dell'IA (di cui 20 miliardi di euro per la creazione di "gigafabbriche" di IA), all'investimento privato delle aziende in aumento del 44,5% dal 2023 al 2024, con i governi e il settore privato di tutto il mondo che investono miliardi nello sviluppo di ecosistemi di IA nazionali per garantire il proprio futuro digitale. Poiché i modelli di IA sono sempre più sofisticati e di portata sempre maggiore, la posizione e il controllo dei dati utilizzati per l'addestramento e il funzionamento hanno implicazioni significative per la sicurezza nazionale, la competitività economica e la governance etica. Questo controllo dei dati non è solo un problema teorico, bensì una preoccupazione tangibile con chiare ripercussioni.
I modelli fondativi di cui si parla in genere si basano principalmente sulla lingua inglese. Ad esempio, l'89,7% dei dati relativi al pre-addestramento di Llama 2 di Meta era in inglese. Anche per Llama 3.1, solo l'8% dei suoi 15mila miliardi di token non era in inglese. Allo stesso modo, GPT-3 di OpenAI è stato addestrato su un set di dati per circa il 93% in inglese. Queste statistiche, tratte dalle schede tecniche dei modelli, sono piuttosto eloquenti.
Anche il web stesso, la principale fonte di dati per l'addestramento, è alterato in questo senso. Un esempio lampante è il set di dati Common Crawl, uno snapshot di Internet utilizzato per addestrare molti modelli. In una versione recente, il 46% dei documenti era in inglese, mentre le lingue più vicine, tedesco e russo, rappresentavano meno del 6% ciascuna. Al contrario, secondo il CIA World Factbook 2022, poco meno del 19% della popolazione mondiale parla inglese.
La conseguenza di questo squilibrio va oltre la semplice traduzione linguistica. Determina l'allineamento culturale del modello. La ricerca ha dimostrato che i modelli linguistici di grandi dimensioni (LLM) tendono ad allinearsi ai valori culturali delle società occidentali, istruite, industrializzate, ricche e democratiche (WEIRD: Western, Educated, Industrialized, Rich, Democratic), perché sono la fonte dei dati su cui sono stati addestrati.
L'addestramento di un modello di IA sulle lingue può essere un modo efficace per rappresentare e riprodurre i modelli culturali, perché le lingue riflettono direttamente i valori, le credenze e la visione del mondo di una cultura. Analizzando grandi quantità di testo proveniente da uno specifico gruppo linguistico e culturale, l'IA imparerà a imitare le sfumature di quella cultura.
Freddure e dintorni
L'addestramento di un modello di IA implica la comprensione non solo del vocabolario e della grammatica, ma anche dell'applicazione pratica del linguaggio. Ciò significa andare oltre il significato letterale delle parole per includere sarcasmo, ironia, umorismo e tutto il galateo sociale incorporato in una conversazione. Un esempio di tutto ciò sono le battute scherzose. Per sperimentare, ho chiesto a un modello GPT pubblico di generare una battuta e ha fornito quanto segue:
Mi spiace per il calendario. Ha i giorni contati.
Questa battuta può essere divertente in lingue come l'inglese o l'italiano, ma potrebbe confondere chi non è madrelingua, perché il gioco di parole si trova soprattutto nelle culture occidentali. Il sarcasmo e l'umorismo (presenti talvolta nelle battute) si materializzano solo dall'elaborazione di ampi corpora di letteratura, documenti storici, interazioni sui social media e persino colloquialismi. In questo modo, i modelli di IA possono iniziare a imitare i temi ricorrenti, le narrazioni dominanti e i framework cognitivi alla base dell'identità di una cultura.
Un nuovo percorso con l'open source
Le community non devono creare i propri modelli da zero. Il bello dell'open source è che offre un percorso alternativo. Le community possono adottare un "modello di base" open source potente (come Llama) e perfezionarlo. Ciò significa che possono addestrare ulteriormente il modello in base ai propri dati culturali specifici, in modo che apprenda le sfumature della lingua, della storia e dei framework legali.
Il fine tuning culturale non è solo una teoria: viene già messo in atto. Di seguito alcuni esempi:
- Elaborazione del linguaggio naturale panafricano con Masakhane: Masakhane, che in zulu significa "costruiamo insieme", è una community di base panafricana di ricercatori. È l'esempio perfetto di community che lavora per risolvere i propri problemi. Ha creato il primo set di dati per il riconoscimento delle entità nominate (NER) per 10 lingue africane (MasakhaNER) e ha creato modelli di traduzione per oltre 30 lingue africane.
- Tutela delle lingue indigene: l'applicazione dell'IA si estende alla protezione delle lingue a rischio. Progetti come l'Indigenous Languages Technology Project del National Research Council of Canada (NRC) e le iniziative linguistiche di IBM come il Guarani Mbya in Brasile sono esempi interessanti di come questa tecnologia possa essere utilizzata per contribuire alla tutela delle culture.
Le crescenti iniziative per la sovranità dell'IA
Parallelamente al lavoro tecnico, sta emergendo un movimento politico più ampio intorno al concetto di sovranità dell'IA. Per sovranità dell'IA si intende una nazione che prende il controllo delle proprie iniziative di sviluppo dell'IA in modo da rimanere indipendente dagli altri paesi (o regioni). L'IA sovrana implica il controllo dei dati sensibili all'interno dei confini nazionali, l'indipendenza strategica dei sistemi critici, lo sviluppo di un'IA che rifletta le culture locali e sia in linea con i valori nazionali, il rilancio dell'economia nazionale e la definizione di quadri e normative, come l'EU AI Act nell'Unione Europea.
Questo movimento legale e politico promuove il lavoro di community come Masakhane, trasformandolo da una buona idea a una priorità nazionale per molti paesi. Fornisce una motivazione per l'enorme impresa di raccogliere set di dati locali e creare capacità per un’IA sovrana. Dopotutto, una nazione non può ottenere la sovranità dell'IA se tutti i suoi dati vengono elaborati attraverso modelli stranieri che non riflettono il suo contesto culturale. Il fine tuning locale dei modelli open source aiuta a soddisfare queste esigenze di policy.
Il futuro multilingue dell'IA
Il percorso predefinito dell'IA potrebbe essere quello dell'omogeneizzazione culturale, in cui le sfumature delle nostre culture globali vengono appiattite da modelli addestrati su una fetta ristretta dell'esperienza umana. Utilizzando strumenti e modelli open source, le community dedicate stanno creando un ecosistema di IA più equo e diversificato.
I principi dell'open source sono molto validi ed è importante promuovere un approccio all'IA basato sulla community. Adottando trasparenza, collaborazione e sviluppo condiviso, l'open source aiuta ad accelerare l'innovazione. Riunisce molte prospettive e contributi diversi, che possono quindi plasmare il futuro dell'IA.
Ad esempio, la partecipazione di Red Hat a progetti come InstructLab e vLLM consente a chiunque, non solo ai data scientist, di contribuire con le proprie conoscenze e competenze agli LLM. Questo approccio collaborativo aiuta a creare tecnologie di IA che riflettano una gamma più ampia di esigenze e norme culturali della società. Contribuisce a ridurre la concentrazione del potere in poche mani e rende le innovazioni più accessibili a tutti.
Più modelli, meno bias
Il bias dei modelli in genere ha origine dai dati utilizzati per l'addestramento. Se un modello viene addestrato su un set di dati che non è diversificato o rappresentativo del mondo reale, inevitabilmente rifletterà e amplificherà i pregiudizi intrinseci. Red OpenShift Hat AI aiuta a ridurre il bias consentendo agli sviluppatori di scegliere tra un'ampia gamma di modelli di IA. Questa flessibilità significa che non viene imposto un modello singolo e potenzialmente soggetto a bias, e che gli utenti possono selezionare i modelli più adatti al loro contesto specifico, oltre a modelli addestrati su set di dati più diversificati. La natura open source di OpenShift AI promuove anche la trasparenza e l'esistenza di una community di contributori con background diversi, aiutando a ridurre ulteriormente questi pregiudizi intrinseci.
Un approccio incentrato sulla community non solo accelera il progresso tecnologico, ma rende anche più democratico lo sviluppo dell'IA, consentendo a un numero maggiore di individui e organizzazioni di contribuire e trarre vantaggio da queste tecnologie trasformative. Il futuro dell'IA non deve necessariamente essere una monocultura sterile. Grazie alle community open source dedicate in tutto il mondo, può diventare un ecosistema vivace, creato da tutti insieme.
Vuoi contribuire a promuovere un ecosistema di IA più equo e diversificato? Partecipa al World Summit AI 2025 per scoprire in che modo l'open source sta plasmando il futuro della sovranità dell'IA. Leggi di più sull'impegno di Red Hat a favore dell'IA open source, inclusi progetti come InstructLab e Red Hat AI Inference Server, e scopri come contribuire a democratizzare lo sviluppo dell'IA. Scopri di più sull'evento.
Risorsa
Definizione della strategia aziendale per l'IA: una guida introduttiva
Sull'autore
Adam Wealand's experience includes marketing, social psychology, artificial intelligence, data visualization, and infusing the voice of the customer into products. Wealand joined Red Hat in July 2021 and previously worked at organizations ranging from small startups to large enterprises. He holds an MBA from Duke's Fuqua School of Business and enjoys mountain biking all around Northern California.
Altri risultati simili a questo
Smarter troubleshooting with the new MCP server for Red Hat Enterprise Linux (now in developer preview)
Navigating secure AI deployment: Architecture for enhancing AI system security and safety
Technically Speaking | Build a production-ready AI toolbox
Technically Speaking | Platform engineering for AI agents
Ricerca per canale
Automazione
Novità sull'automazione IT di tecnologie, team e ambienti
Intelligenza artificiale
Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque
Hybrid cloud open source
Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido
Sicurezza
Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti
Edge computing
Aggiornamenti sulle piattaforme che semplificano l'operatività edge
Infrastruttura
Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale
Applicazioni
Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili
Virtualizzazione
Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud