Fair Use o furto digitale? Ecco la class action che può ridefinire i confini del diritto d’autore nell’era dell’IA
La vicenda ruota attorno alla pirateria libraria digitale, un fenomeno che ha acquisito una nuova e più ampia rilevanza con l’avvento dell’IA generativa
L’ultima cruciale battaglia legale sull’Intelligenza Artificiale è approdata alla Divisione di San Francisco del Tribunale Federale. Una nota casa produttrice di software cloud si trova ad affrontare una severa class action per presunta violazione massiva del diritto d’autore. L’accusa, mossa da due autrici statunitensi, delinea un quadro che mette in discussione le fondamenta etiche e legali su cui sono stati costruiti alcuni dei più potenti modelli linguistici (LLM) di nuova generazione. Le querelanti, E. M. T. e J. G., sostengono che la società ha copiato e utilizzato centinaia di migliaia di libri protetti da copyright – inclusi i loro – per addestrare i suoi modelli di punta, in particolare XGen, senza alcuna autorizzazione né compenso.
La contestazione centrale riguarda la violazione diretta del Copyright Act. La società è accusata di aver compiuto atti illeciti in modo diretto e non indiretto, attraverso: l’uso di dataset di addestramento come The Pile e RedPajama, che contengono al loro interno la sottosezione Books3, una raccolta di oltre 190.000 libri ottenuti da fonti pirata ben note come Bibliotik, Z-Library e LibGen; il training di tali dati nei modelli CodeGen e XGen (inclusi i modelli successivi come xGen-Sales e xGen-Small) i quali hanno “ingerito” le opere protette e hanno conservato una forma copiata di queste, che – secondo le querelanti – costituisce una violazione diretta e continuata del copyright; e lo sfruttamento commerciale di tali modelli, integrati nella piattaforma Agentforce AI. Le autrici, titolari di diritti registrati sulle proprie opere, hanno riscontrato che i loro libri si trovavano nella lista di quelli presenti in Books3, costituendo il corpus della violazione.
Il cuore dello scandalo ruota attorno alla pirateria libraria digitale, un fenomeno che ha acquisito una nuova e più ampia rilevanza con l’avvento dell’IA generativa. La pirateria libraria consiste nella diffusione e condivisione illecita di libri e opere editoriali in formato digitale, senza il consenso degli aventi diritto. Questo avviene tipicamente attraverso: piattaforme di accesso pubblico come LibGen (Library Genesis), Z-Library, Sci-Hub e Anna’s Archive, noti per offrire accesso gratuito a milioni di testi in violazione dei diritti d’autore; e archivi privati e tracker come Bibliotik, da cui deriva direttamente Books3. Se in passato la pirateria danneggiava il mercato degli editori, oggi fornisce la “materia prima” perfetta per l’addestramento degli LLM. I libri, a differenza dei contenuti web frammentati, offrono una struttura linguistica estremamente coerente, complessa e variegata. I dataset derivati dai libri pirata offrono una quantità sterminata di dati di alta qualità, ottenibili gratuitamente e senza la necessità di negoziare licenze.
La vicenda si inserisce in una serie di cause di pirateria libraria intentate negli Stati Uniti, nelle quali la difesa delle aziende tecnologiche ha spesso fatto leva sul concetto di Fair Use. Il Fair Use è un’eccezione del diritto d’autore statunitense che consente l’uso limitato e non autorizzato di opere protette, se l’utilizzo rientra in categorie come la critica, la ricerca, l’informazione o se è trasformativo. Le querelanti, tuttavia, ritengono che, nel caso di specie, il Fair Use non possa in alcun modo essere invocato, sostenendo che: il principio premia chi aggiunge nuovo significato, mentre l’accusa è che le opere sono state interamente copiate, immagazzinate e processate, senza alcun tipo di trasformazione significativa; l’utilizzo è finalizzato allo sfruttamento commerciale su larga scala (Agentforce AI) e non è né “minimo” né “educativo”; e l’uso dei contenuti per l’addestramento genera prodotti concorrenti e incide negativamente sul valore di mercato delle opere originali. L’uso di materiale ottenuto illecitamente minerebbe alla radice ogni pretesa di uso.
Attualmente, il giudice non si è ancora pronunciato sul merito, e non è possibile stabilire con certezza se il Fair Use sia applicabile o meno in questo specifico contesto. Dai precedenti contenziosi, come nel caso di B. vs. Anthropic, è possibile stabilire, tuttavia, una tendenza chiara nelle decisioni preliminari: i giudici hanno riconosciuto che il Fair Use può potenzialmente estendersi all’addestramento degli algoritmi di IA. Tuttavia, è stato chiarito che se i dati utilizzati provengono da fonti illegali o pirata — ovvero se l’opera è stata inizialmente ottenuta illecitamente — allora l’atto di “furto” non viene assolto solo perché l’opera viene successivamente utilizzata per l’addestramento. L’origine illecita del dato è un fattore che può influenzare significativamente la decisione finale e l’ammontare dei danni.
In attesa di una sentenza, si può ad ora affermare che il caso presente rappresenta un capitolo aggiuntivo nella difficile definizione dei limiti del Fair Use. Questo principio, nato in un’era predigitale, non è strutturato per gestire la scala massiva della copia e l’immenso sfruttamento commerciale dei modelli attuali. I tribunali sono chiamati quindi a ridefinirne i confini per un’applicazione che tenga conto delle nuove dinamiche tecnologiche. La sentenza che definirà questo caso stabilirà se la raccolta di dati non autorizzata sia un legittimo atto di “ricerca e trasformazione” (l’ultima evoluzione del Fair Use) o, data l’origine pirata e l’uso commerciale, una forma avanzata e sistematica di pirateria industriale.
L’esito di questa class action, che chiede la distruzione dei dataset e miliardi in risarcimento, influenzerà direttamente il futuro del diritto d’autore e la capacità degli autori di controllare e monetizzare il loro lavoro nell’era dell’Intelligenza Artificiale.
_______
*A cura di Lucia Maggi – partner di 42 Law Firm






