Stop a ChatGPT, il Garante contesta "inaccuratezza" dell'output e trattamento dei dati personali
Le contestazioni mosse dal Garante su cui si basa il provvedimento di limitazione temporanea
Nel commentare il provvedimento del Garante per la Protezione dei dati personali del 31 marzo scorso , è opportuno premettere – pur con le necessarie semplificazioni – qualche cenno su come funziona chatGPT e sulla sua genesi.
In senso generalissimo possiamo dire che chatGPT è l'interfaccia con cui degli esseri umani possono interrogare, utilizzando il linguaggio naturale, un sistema basato su un modello statistico (GPT-3) applicato al linguaggio naturale e creato da un dataset di partenza molto, molto grande (più è grande, più il modello statistico tende ad essere accurato).
OpenAI ha utilizzato per la creazione del proprio modello le seguenti fonti (c.d. training/test dataset):
Va sottolineata subito una cosa: nel descrivere la grandezza del dataset non si parla di "parole", ma di token.
Cosa sono i token? Prendiamo a prestito il tool messo a disposizione direttamente da OpenAi per comprendere come funziona la tokenizzazione della frase "Quel ramo del lago di Como":
La nostra frase, costituita da 6 parole per un totale di 26 caratteri compresi gli spazi, è stata spezzettata in 10 token:
1."Q"
2."uel"
3." ram"
4."o"
5." del"
6." l"
7."ago"
8." di"
9." Com"
10."o"
Già di primo acchito vediamo che ogni token, singolarmente preso, ci dice (eufemisticamente) pochissimo del testo di partenza: i token acquistano significato quando sono correlati tra di loro e messi in sequenza.
Se li prendessimo da soli e cercassimo di assegnare un significato potremmo addirittura incorrere in errori fondamentali, come nel caso prendessimo singolarmente il token "o" e, intuitivamente, lo ricollegassimo alla congiunzione italiana, cosa che è ovvio nel contesto sarebbe sbagliato.
Con queste prime informazioni di base, cerchiamo di capire allora cosa il processo di creazione del modello statistico di GPT-3: OpenAI a partire da una ingentissima quantità di testi pubblicati online e raccolti (in particolare) da Common Crawl ha proceduto alla tokenizzazione di tutti questi testi ed ha condotto una massiva analisi statistica sulla probabilità che un token sia seguito da un altro token.
In altri termini, forzatamente riduttivi, si può dire che GPT-3 è stato addestrato ad indovinare con un altissimo livello di confidenza quale token ne segue un altro e così via fino ad indovinare sequenze di parole. Ovviamente, trattandosi di un modello statistico, anche GPT-3/ChatGPT possono sbagliare e quindi magari associare parole che in realtà, in un determinato contesto, forniscono delle informazioni inaccurate.
Fatta questa premessa, necessariamente riduttiva della complessità dietro al lavoro di Openai, applichiamo la tokenizzazione ad un dato personale, ossia ad un nome e cognome:
Abbiamo quindi i seguenti token:
1."G"
2."ian"
3."l"
4."uca"
5." Gil"
6."ardi"
Appare subito evidente che i token, singolarmente presi, non sono dati personali in quanto non hanno, di per sé, la capacità di identificare un individuo, diversamente dal suo nome e cognome.
Un ulteriore aspetto che deve essere tenuto a mente è che il training/test dataset, una volta utilizzato per la creazione e il raffinamento del modello statistico perde di utilità ed anzi può tranquillamente essere cancellato, avendo ormai assolto al suo scopo, ossia fornire informazioni statistiche utili alla modellizzazione desiderata, e non viene più utilizzato nella messa in produzione di sistemi che si basino su detto modello.
Fatte queste premesse, affrontiamo due delle contestazioni mosse dal Garante su cui si basa il provvedimento di limitazione temporanea, ossia il trattamento di dati personali (senza adeguata base giuridica) e la "inaccuratezza" dell'output di ChatGPT.
Partiamo da questo secondo aspetto: come abbiamo visto sopra il sistema è programmato per predire indovinando (in inglese si direbbe to make an educated guess) una sequenza di parole massimizzando la probabilità assegnabile a quella determinata sequenza di token (e quindi di parole).
Ma sappiamo che probabilità non è (sempre) certezza e quindi è intrinseco nella natura di modello statistico la possibilità di errore ed anzi, la creazione di un modello statistico che non rappresenti con precisione assoluta il training dataset (c.d. overfitting) è uno degli elementi chiave che permettono ad un modello di intelligenza artificiale di avere una qualche utilità una volta applicato a dataset diversi da quello utilizzato nella creazione del modello stesso.
La censura del Garante quindi sembra denotare una limitata comprensione della natura e del funzionamento dei modelli di intelligenza artificiale (quantomeno, quelli ad oggi noti ed utilizzati) ed in particolare della genesi e del funzionamento di ChatGPT; la generazione statistica di testi basata su un'analisi probabilistica è intrinsecamente imperfetta e tale imperfezione non è ulteriormente mitigabile se non ulteriormente migliorando il modello, ampliando il training dataset e/o facendo ricerca e sviluppo sulle tecnologie di modellizzazione.
Sul primo punto il discorso è più complesso: abbiamo visto che sicuramente i token di per sé non sono dati personali, ma – aggregandoli – è possibile che un insieme di token possa creare una sequenza di parole almeno astrattamente riconducibile alla categoria "dati personali". Nella misura in cui però queste parole nascono da un "azzardo statistico", tale natura appare sicuramente discutibile: opinando diversamente dovremmo concludere – alquanto paradossalmente - che anche il Pi greco sia un dato personale in quanto è matematicamente certo che al suo interno siano espressi, con codifica ASCII, tutti i dati personali di tutti gli interessati che hanno vissuto, vivono e vivranno e la estrapolazione di tali dati è solo una questione di probabilità statistica nel poter rinvenire tali dati in un tempo finito.
____
*A cura di Giuseppe Vaciago – partner di 42 Law Firm e Gianluca Gilardi – Ceo di LT42, The Legal Tech Company