Nel nostro post precedente di questa serie, abbiamo parlato di come l'IA sta cambiando il modo in cui viene sviluppato il software. In questo articolo, ci concentriamo su alcuni dei principali problemi legali (o relativi alla sfera legale) che gli stessi sviluppatori open source hanno sollevato in merito allo sviluppo assistito dall'IA. 

Non si tratta di una panoramica completa di tutte le questioni legali legate all'IA. Non affrontiamo, ad esempio, le preoccupazioni dei clienti in merito alla conformità alle normative sull'IA o le questioni di responsabilità relative ai contratti per i prodotti basati sull'IA. Parliamo, invece, di questioni che sono oggetto di un dibattito in corso tra le community open source. 

Le nostre opinioni su questi temi riflettono il nostro impegno per un uso responsabile delle tecnologie di IA e la nostra filosofia open source come approccio standard. Riteniamo che gli approcci collaborativi e trasparenti costituiscano un modo efficace per affrontare questi problemi in modo costruttivo.

Attribuzione e marcatura 

L'attribuzione è un approccio legale e culturale fondamentale nell'open source. In genere, le licenze richiedono di preservare gli avvisi di copyright e di paternità e di evitare affermazioni ingannevoli sulla paternità. 

Lo sviluppo assistito dall'intelligenza artificiale rende difficile soddisfare questo requisito. Poiché i sistemi di IA non sono considerati "autori" ai sensi della legge sul copyright, tecnicamente non c'è nessuno a cui attribuire il merito. Tuttavia, sarebbe fuorviante per gli sviluppatori presentare un risultato in gran parte generato dall'IA come il puro frutto del proprio lavoro. 

Ecco perché un numero crescente di progetti open source sta adottando regole di divulgazione per i contributi assistiti dall'IA traendo ispirazione dalle norme di divulgazione in altri campi, come l'etichettatura dei media sintetici. I contributi "contrassegnati" aiutano a preservare la chiarezza giuridica e la fiducia della community e facilitano ai revisori la valutazione del codice nel contesto.

Supportiamo la marcatura, ma non dovrebbe essere eccessivamente prescrittiva. Gli usi relativamente banali dell'IA (come il completamento automatico di un nome di variabile o il suggerimento di una docstring) non dovrebbero richiedere una dichiarazione formale. Per gli usi più sostanziali, la marcatura può essere semplicemente un commento al codice sorgente, una nota in una richiesta di merge o un trailer di commit come ”Assisted-by”. Tra le diciture utilizzate da alcuni progetti troviamo anche ”Generated-by” e ”Co-authored by”.  

Copyright e formalità delle concessioni di licenza

Per quanto importante possa essere l'attribuzione, l'open source dipende ancora di più da concessioni di licenza chiare. Qui si pone una domanda pratica: come dovrebbero funzionare gli avvisi di licenza quando un contributo include materiale generato dall'IA non soggetto a copyright?

Nella maggior parte dei casi, quando gli avvisi di licenza sono già presenti in un repository o in un singolo file sorgente, non dovrebbe cambiare nulla. A causa della natura altamente funzionale del codice, i file sorgente comprendono, in genere, materiale soggetto a copyright e materiale non soggetto a copyright, e le licenze open source si applicano solo al materiale protetto da copyright. Per i contributi sostanziali generati dall'IA, la divulgazione tramite contrassegno integra gli avvisi di licenza esistenti e questo è un modo efficace per evitare di trarre in inganno gli utenti. 

Il caso che presenta maggiori difficoltà si verifica quando un intero file sorgente, o anche un intero repository, viene generato dall'IA. In questo caso, l'aggiunta di un avviso di copyright e licenza può essere inappropriata, a meno che e nella misura in cui il contributo umano non trasformi il file in un'opera che possa essere protetta da copyright. Tuttavia, data la norma secondo cui i repository open source dovrebbero avere un file LICENSE globale, è ragionevole aggiungere una licenza open source estremamente permissiva (ad esempio, Unlicense) come licenza globale di un repository generato dall'IA, anche se tecnicamente tali licenze presuppongono l'esistenza del copyright. Man mano che vengono aggiunti contributi umani, sarà possibile rivisitare questa scelta di licenza iniziale; in assenza di precedenti collaboratori umani, sarà meno complesso rispetto allo scenario tipico in cui un progetto open source viene sottoposto a una nuova licenza. Prevediamo che l’evoluzione delle procedure si verifichi di pari passo con le modifiche normative e con una maggiore esperienza della community nell’ambito degli strumenti di intelligenza artificiale.  

Gli strumenti di intelligenza artificiale favoriscono il plagio? 

Alcuni sviluppatori open source sono scettici, e talvolta addirittura ostili, nei confronti dello sviluppo assistito dall'IA, e accusano i modelli di IA di essere "macchine per il plagio" o meccanismi di "riciclaggio del copyright". 

Esistono due aspetti di questo problema. Il primo è pratico: uno strumento di intelligenza artificiale potrebbe inserire di nascosto estratti di codice proprietario (o non compatibile con la licenza) in un progetto open source, creando potenzialmente rischi legali per manutentori e utenti. Il secondo aspetto è di natura più generale e filosofica: i modelli linguistici di grandi dimensioni, addestrati su grandi quantità di software open source, si appropriano sostanzialmente del lavoro della community, producendo risultati privi degli obblighi richiesti dalle licenze open source.   

Riteniamo che queste preoccupazioni meritino di essere prese sul serio. È vero che i modelli linguistici di grandi dimensioni sono in grado, in alcuni casi, di emettere estratti consistenti dei dati di addestramento. Se si trattasse di un comportamento frequente o inevitabile, sarebbe una buona ragione per evitare del tutto di utilizzare questi strumenti. 

Tuttavia, l'evidenza suggerisce il contrario. Quando GitHub Copilot è stato rilasciato, sono state ampiamente pubblicizzate affermazioni secondo le quali i suggerimenti erano stati copiati da progetti open source. Laddove tali affermazioni fossero state motivate, in genere si sarebbe trattato di sforzi deliberati per convincere lo strumento a riprodurre alla lettera il codice noto, il che non è un uso normale. Da allora, non abbiamo riscontrato prove credibili che gli strumenti di sviluppo dell'IA ampiamente utilizzati replichino sistematicamente porzioni di dati di addestramento sufficienti da sollevare problemi di copyright.

L'idea sbagliata alla base di gran parte della teoria della "macchina del plagio" è che i modelli di IA generativa siano una sorta di compressione dei dati, e che alcuni dei dati di addestramento vengano dispersi. In realtà, il comportamento normale dei modelli consiste nel generare nuovi testi basati sui modelli statistici che hanno appreso. Il fatto che siano addestrati sul codice open source non significa che il loro output sia una riproduzione di quel codice. 

Detto questo, la possibilità di una replica occasionale non può essere ignorata. Gli sviluppatori che utilizzano gli strumenti di IA dovrebbero prestare attenzione a questo rischio e considerare l'output generato dall'IA come qualcosa da rivedere con la stessa attenzione di qualsiasi altro contributo. Nel caso in cui gli strumenti di sviluppo dell'IA forniscano funzionalità per rilevare o segnalare suggerimenti lunghi che corrispondono al codice open source esistente, tali funzionalità dovrebbero essere abilitate. Insieme alle pratiche di divulgazione e alla supervisione umana, questi passaggi sono un modo pratico per mitigare il problema della replica, anziché considerare l'uso dell’IA come qualcosa di intrinsecamente scorretto. 

I contributi assistiti dall'IA e il DCO

I progetti che utilizzano il Developer Certificate of Origin (DCO) hanno sollevato particolari preoccupazioni in merito ai contributi assistiti dall'IA. Il DCO, che da tempo raccomandiamo come best practice per lo sviluppo open source, richiede ai collaboratori di certificare il diritto di inviare il proprio lavoro in base alla licenza del progetto. Alcuni sviluppatori sostengono che, poiché i risultati degli strumenti di IA possono includere materiale sconosciuto o non divulgato, nessuno può legittimamente effettuare l'approvazione DCO per il codice assistito da IA. Questo punto di vista ha portato alcuni progetti che utilizzano DCO a vietare del tutto i contributi assistiti dall'IA. 

Comprendiamo questa preoccupazione, ma il DCO non è mai stato interpretato nel senso che ogni riga di un contributo debba essere l'espressione creativa personale del contributore o di un altro sviluppatore. Molti contributi contengono materiale di routine e non soggetto a copyright, che gli sviluppatori continuano a firmare. Il vero punto del DCO è la responsabilità. Il contributore ritiene di avere il diritto di utilizzare il contributo in un'opera soggetta (per quanto riguarda gli elementi protetti da copyright) da una particolare licenza open source. I responsabili del progetto hanno la ragionevole aspettativa che il contributore abbia eseguito una due diligence per effettuare la certificazione. Grazie alla divulgazione e all'attenzione umana, oltre che alla supervisione, supportate ove possibile da strumenti che verifichino la somiglianza del codice, i contributi assistiti dall'IA possono essere del tutto compatibili con lo spirito del DCO.

Niente di tutto ciò significa che i progetti debbano consentire contributi assistiti dall'IA. Ogni progetto ha diritto alle proprie regole e al proprio livello di comfort; se un progetto prevede il divieto di utilizzare contributi assistiti dall'IA per il momento, tale decisione merita rispetto. I progetti che sono inseriti in questo percorso dovrebbero tenere conto del fatto che le preoccupazioni espresse non sono nuove o esclusivamente relative all'IA. Per anni, gli utenti commerciali dell'open source avversi al rischio si sono preoccupati del codice "riciclato": contributi che nascondono materiale protetto da copyright in termini non divulgati e problematici. Nel tempo, questi timori si sono rivelati infondati. Non è impossibile che un contributo assistito dall'IA contenga materiale non divulgato e protetto da copyright, ma l'esperienza suggerisce che si tratta di un evento a rischio gestibile. Tale eventualità non è categoricamente diversa dalle sfide che l'open source ha affrontato e gestito in passato. 

In altre parole, il DCO può rimanere quello che è sempre stato: uno strumento pratico ed efficace per mantenere la fiducia e la chiarezza giuridica nello sviluppo open source, anche nell'era dell'IA.

Consolidare la fiducia

Alla base di gran parte della discussione sull'IA nello sviluppo di software, sia essa legale, tecnica o etica, c'è la questione della fiducia. La fiducia è una preoccupazione umana fondamentale per la buona riuscita di qualsiasi progetto open source. L'introduzione dell'IA nello sviluppo open source solleva nuove questioni su più fronti. Si tratta della fiducia nel fatto che i contributori utilizzino l'IA in modo responsabile, che coloro che lo fanno non vengano stigmatizzati, e che le aziende che sviluppano e incoraggiano l'uso dell'IA agiscano per servire il bene pubblico. Riconoscere che queste aziende, tra cui Red Hat, hanno un interesse commerciale nel successo dell'IA è anche un aspetto fondamentale per essere trasparenti sul loro ruolo in questa trasformazione tecnologica.

La sfida di creare fiducia nella tecnologia non è nuova. La conferenza di Ken Thompson del 1984 "Reflections on Trusting Trust" rimane una pietra miliare per comprendere come il giudizio umano e l'integrità istituzionale siano alla base del software stesso. L'intelligenza artificiale riporta alla luce questi concetti. La fiducia deve comunque essere conquistata attraverso azioni coerenti e visibili. Red Hat apprezza il rapporto di fiducia costruito con le community upstream. Riteniamo che il nostro modello di sviluppo open source, basato su trasparenza, collaborazione e responsabilità, rimanga un modo efficace per sostenerlo mentre affrontiamo insieme il futuro dell'IA e dell'open source.

Guardando al futuro

I problemi che abbiamo discusso in questa sede – marcatura, avvisi di licenza, problemi relativi alla replica dei dati di addestramento e DCO – rappresentano le sfide principali con cui gli sviluppatori open source si confrontano oggi. Con la divulgazione dell'uso dell'IA, la supervisione umana e il rispetto delle regole di progetto, lo sviluppo assistito dall'IA può essere conciliato sia con le basi legali che con i valori culturali dell'open source. Apprezziamo la collaborazione nei progetti upstream su questi e altri approcci che bilanciano tali interessi. Promuoviamo la libertà di scelta per ogni progetto. Le community open source si rafforzeranno se affronteranno questi problemi in modo attivo, anziché accantonarli. 

Risorsa

L'adattabilità enterprise: predisporsi all'IA per essere pronti a un'innovazione radicale

Questo ebook, redatto da Michael Ferris, COO e CSO di Red Hat, illustra il ritmo del cambiamento e dell'innovazione tecnologica radicale con l'IA che i leader IT devono affrontare nella realtà odierna.

Sugli autori

Chris Wright is senior vice president and chief technology officer (CTO) at Red Hat. Wright leads the Office of the CTO, which is responsible for incubating emerging technologies and developing forward-looking perspectives on innovations such as artificial intelligence, cloud computing, distributed storage, software defined networking and network functions virtualization, containers, automation and continuous delivery, and distributed ledger.

During his more than 20 years as a software engineer, Wright has worked in the telecommunications industry on high availability and distributed systems, and in the Linux industry on security, virtualization, and networking. He has been a Linux developer for more than 15 years, most of that time spent working deep in the Linux kernel. He is passionate about open source software serving as the foundation for next generation IT systems.

UI_Icon-Red_Hat-Close-A-Black-RGB

Ricerca per canale

automation icon

Automazione

Novità sull'automazione IT di tecnologie, team e ambienti

AI icon

Intelligenza artificiale

Aggiornamenti sulle piattaforme che consentono alle aziende di eseguire carichi di lavoro IA ovunque

open hybrid cloud icon

Hybrid cloud open source

Scopri come affrontare il futuro in modo più agile grazie al cloud ibrido

security icon

Sicurezza

Le ultime novità sulle nostre soluzioni per ridurre i rischi nelle tecnologie e negli ambienti

edge icon

Edge computing

Aggiornamenti sulle piattaforme che semplificano l'operatività edge

Infrastructure icon

Infrastruttura

Le ultime novità sulla piattaforma Linux aziendale leader a livello mondiale

application development icon

Applicazioni

Approfondimenti sulle nostre soluzioni alle sfide applicative più difficili

Virtualization icon

Virtualizzazione

Il futuro della virtualizzazione negli ambienti aziendali per i carichi di lavoro on premise o nel cloud