L’addestramento AI tra pressione normativa sul copyright e soluzioni tecnologiche, la sfida dei dati sintetici
Pur offrendo interessanti prospettive, in termini di privacy e rispetto del copyright, i dati sintetici presentano sfide complesse: la difficoltà di riprodurre fedelmente la complessità dei dati reali, il rischio di introdurre nuovi bias e la necessità di rigorose validazioni
L’intelligenza artificiale sta trasformando in modo profondo numerosi aspetti della nostra vita quotidiana, con progressi significativi guidati da realtà come Google, Meta, OpenAI e Stability AI. Alla base di questi avanzamenti vi è la capacità di addestrare sofisticate reti neurali attraverso enormi quantità di dati. Tuttavia, questa dipendenza solleva interrogativi sempre più pressanti in merito alla legalità e all’etica delle modalità di acquisizione dei dati, in particolare rispetto al consenso degli utenti e ai diritti di proprietà intellettuale.
Nel contesto europeo, l’uso improprio di dati da parte dei sistemi di IA può compromettere i diritti fondamentali sanciti dagli articoli 7 e 8 della Carta dei Diritti Fondamentali UE, riguardanti il rispetto della vita privata e la protezione dei dati personali.
Per tutelare questi diritti, si applicano il GDPR e il nuovo regolamento (UE) 2024/1689 AI Act. Tra gli strumenti di controllo previsti figurano la DPIA (art. 35 GDPR) e la FRIA (art. 27 AI Act), che possono essere svolte congiuntamente. A livello nazionale, il disegno di legge n. 1146 introduce ulteriori disposizioni su informazione, ricerca e trattamento dei dati personali in ambito IA, oltre a deleghe su algoritmi e metodi di addestramento.
I modelli Gemini di Google si distinguono per le capacità multimodali, elaborando testo, immagini, audio e video. Modelli come Gemma e CodeGemma sono stati addestrati su 500 miliardi di token da fonti eterogenee. Meta ha annunciato l’utilizzo di contenuti pubblici provenienti dall’UE per addestrare la propria IA, mentre OpenAI si affida a dati pubblici, partnership e contenuti generati dagli utenti, offrendo a questi ultimi la possibilità di disattivare l’uso dei propri dati. Stability AI si è mostrata più trasparente, utilizzando dataset open source e registrazioni con licenza Creative Commons.
Tutte queste aziende basano il proprio sviluppo su dati raccolti pubblicamente online, pratica ormai comune nel settore. Tuttavia, i livelli di trasparenza variano sensibilmente. L’uso di materiale protetto da copyright senza consenso sta infatti attirando crescente attenzione legale, con numerose azioni avviate contro i principali operatori. Tra i casi più noti si citano le cause intentate da Getty Images contro Stability AI, dal New York Times contro OpenAI e Microsoft e da diversi autori contro OpenAI.
Il dibattito si concentra sul principio di fair use, con posizioni contrastanti: da un lato chi sostiene che la natura trasformativa dei modelli IA giustifica l’uso di contenuti protetti, dall’altro chi rileva un potenziale danno per i titolari dei diritti. Una recente sentenza nel caso Thomson Reuters vs Ross Intelligence Inc. ha stabilito che l’addestramento di un’IA non generativa su materiale protetto non costituisce fair use, pur lasciando aperti margini di interpretazione per i modelli generativi.
L’AI Act introduce obblighi di trasparenza sui dataset utilizzati per addestrare i modelli, con l’obiettivo di garantire il rispetto dei diritti di copyright e protezione dei dati. Il regolamento non disciplina direttamente la proprietà intellettuale, ma richiama la Direttiva UE 790/2019, imponendo ai fornitori la pubblicazione di una sintesi delle fonti impiegate. Sono inoltre in arrivo ulteriori disposizioni con l’art. 23 del ddl n. 1146, che aggiornerà la legge italiana sul diritto d’autore.
Un’alternativa emergente è rappresentata dai dati sintetici, generati artificialmente per imitare le caratteristiche statistiche dei dati reali senza includere informazioni personali o protette. Pur offrendo interessanti prospettive in termini di privacy e rispetto del copyright, questi dati presentano sfide complesse, quali la difficoltà di riprodurre fedelmente la complessità dei dati reali, il rischio di introdurre nuovi bias e la necessità di rigorose validazioni.
Il futuro dell’addestramento dei modelli IA più avanzati si giocherà dunque tra la pressione normativa sul copyright e la ricerca di soluzioni tecnologiche affidabili, come i dati sintetici.
Resta da vedere se prevarrà la capacità di adattamento dei team legali o l’ingegno dei team tecnologici nel guidare questa evoluzione.
_______
*Giuseppe Accardo, Pollicino Advisory & Partners