Civile

Web scraping per l’addestramento dell’ intelligenza artificiale generativa, dal Garante Privacy le prime indicazioni

Il Garante indica eventuali cautele che i gestori di siti internet e di piattaforme online, quali titolari del trattamento dei dati personali oggetto di pubblicazione, potrebbero implementare

Smart city concept powered by artificial intelligence

di Gabriele Lipari*

Con un provvedimento del 20 maggio 2024 ed in corso di pubblicazione in Gazzetta Ufficiale, l’Autorità Garante per la protezione dei dati personali ha fornito le prime indicazioni sul fenomeno della raccolta massiva di dati personali dal web per finalità di addestramento dei modelli di intelligenza artificiale generativa - “ IAG ”, indicando le possibili cautele che i gestori di siti internet e di piattaforme online, sia pubblici che privati, operanti in Italia, quali titolari del trattamento dei dati personali oggetto di pubblicazione, potrebbero implementare.

Il web scraping si riferisce all’attività di raccolta massiva ed indiscriminata di dati (anche personali) condotta attraverso tecniche di web crawling, ovvero tramite bot che esplorano un sito web, memorizzando e conservando i dati ivi raccolti per successive analisi, elaborazioni ed utilizzi.

In un contesto generale che vede l’adozione di modelli di IAG, il web scraping viene considerato altamente funzionale a garantire l’addestramento di algoritmi di intelligenza artificiale generativa, sia che provenga da autonoma attività di scraping, sia che provenga da data lake di terze parti.

L’Autorità Garante ha dunque ritenuto di fornire indicazioni sulle possibili cautele che i titolari del trattamento dovrebbero attuare per mitigare gli effetti del web scraping di terze parti, finalizzato all’addestramento di sistemi di intelligenza artificiale generativa, verificando le finalità e le basi giuridiche della messa a disposizione del pubblico dei dati personali e fermo il generale principio di accountability che grava su di essi.

Nello speicifico il Garante suggerisce la creazione di aree accessibili solo previa registrazione, al fine di sottrarre dati dalla pubblica disponibilità suggerendo inoltre l’inserimento, nei Termini di Servizio (ToS) di un sito web o di una piattaforma online, dell’espresso “ divieto di utilizzare tecniche di web scraping ” raccomandando infine un monitoraggio delle richieste HTTP ricevute da un sito web così da individuare eventuali flussi anomali di dati in ingresso ed in uscita e di intraprendere adeguate contromisure di protezione.

Tra le raccomandazioni del Garante, anche l’adozione di qualunque tecnica in grado di limitare l’accesso ai bot riducendone significativamente l’impatto con un contestuale monitoraggio dei file di log, al fine di bloccare eventuali user-agent non desiderati. Da ultimo viene infine raccomandato l’intervento sul file robot.txt , quale strumento tecnico che consente ai gestori di indicare se l’intero sito o alcune sue parti possono o meno essere oggetto di indicizzazione e scraping.

Il provvedimento dell’Autorità Garante giunge a proposito per indicare le cautele che possono essere utilizzate per un uso consapevole, lecito e trasparente dell’IAG, strumento che già oggi mostra la sua importanza e rilevanza e che in ottica prospettica potrà consentire di raggiungere traguardi ad oggi solo meramente ipotizzabili.

Dato il contesto di trattamento, sarebbe stato auspicabile che l’Autorità Garante avesse anche indicato quali basi giuridiche possano essere considerate applicabili in un contesto così variegato che caratterizza la gestione di siti web e di piattaforme online, così da garantire una accountability  consapevole e piena da parte dei titolari di trattamento, contemperando l’esigenza di incrementare gli scambi dei dati con la sicurezza degli stessi e la consapevolezza dell’uso o riuso degli stessi da parte dei soggetti cui si riferiscono.

_____
*A cura di Gabriele Lipari, Partner di LawaL Legal & Tax advisory

Per saperne di piùRiproduzione riservata ©