Professione e Mercato

Intelligenza artificiale e dati sintetici: la luce alla fine del tunnel?

I dati sintetici rappresentano una tendenza chiave nel mercato dell’IA, sempre più rilevante per superare le sfide dei dati reali, massimizzare il potenziale dei dati a disposizione di aziende ed enti pubblici, ridurre gli impatti privacy e garantire l’efficienza e l’efficacia dei sistemi di IA, contribuendo a un’innovazione tecnologica etica, sostenibile e responsabile

immagine non disponibile

di Nadia Martini e Nicola Sandon (*)

Il framework

Grazie all’intelligenza artificiale (IA), possiamo ora affidare alle macchine attività fino ad oggi svolte esclusivamente dalle persone. Le macchine hanno infatti acquisito capacità di ragionare, apprendere e agire.

L’evoluzione dell’IA continua a sollevare però domande sociali, etiche e giuridiche importantissime e di grande impatto. Ci chiediamo se le tecnologie dell’IA potranno essere usate per il bene degli individui e della società, o saranno invece sfruttate per soddisfare interessi di pochi, a danno di diritti individuali e valori sociali. Ci domandiamo se saranno usate secondo razionalità e giustizia, creando posti di lavoro, o se invece contribuiranno a distruggerci, a annullarci, a sostituirci nei posti di lavoro.

Pensiamo ad esempio alla Legge Hijab e castità ”: così l’Iran ha informato che userà l’IA per identificare e punire le donne dissidenti. L’Iran ha infatti avviato un iter legislativo volto all’approvazione della legge “Hijab e castità” che farà leva sull’uso invasivo dell’IA e del riconoscimento facciale per identificare e punire le donne iraniane che non rispettano gli obblighi imposti dal codice di abbigliamento islamico.

Per questa e molte altre ragioni, sul punto l’unione Europea sta lavorando a svariate soluzioni normative, tra cui l’AI Act: il recente trilogo europeo ha messo in luce la complessità e le sfide intrinseche alla regolamentazione dell’intelligenza artificiale nel contesto europeo , un terreno dove l’innovazione e la sicurezza sembrano essere su due binari paralleli. La necessità di i dentificare e gestire sistemi IA ad alto rischio si scontra con la volontà di evitare una sovra-regolamentazione, specialmente nell’ambito dell’IA generativa, che potrebbe soffocare l’innovazione e la competitività nel settore.

È sempre per la stessa ragione che Autorità Garanti Privacy come quella italiana e francese hanno di recente emesso linee guida molto utili per regolare l’uso dell’intelligenza artificiale.

In Italia, è stato emesso il 10 ottobre 2023 un decalogo che fornisce linee guida per la creazione di servizi sanitari nazionali basati sull’Intelligenza Artificiale . In Francia, è stata avviata il 16 ottobre 2023 dalla CNIL una consultazione sulla creazione di data set per l’IA.

In entrambi i casi, le linee prevedono in particolare, l’obbligo di condurre una valutazione di impatto, fornire informativa, adottare un approccio di privacy e security by design, adottare soluzioni idonee ad evitare la discriminazione algoritmica, implementare misure tecniche ed organizzative adeguate come una ridotta data retention

Insomma, il tema dell’IA è molto caldo e in continua discussione.Ma forse, a tutte queste norme ed a tutte queste linee, si può aggiungere un’altra soluzione che potrebbe contribuire a rendere l’IA utile, ma anche etica, intelligente ma anche controllabile

Una soluzione innovativa e nuova, di cui pochi parlano e che presto prenderà piede, in particolari in settori vocati al trattamento di grandi volumi di dati (si pensi al sanitario, bancario, assicurativo, marketing, etc).

La soluzione si chiama dato sintetico

L’emergente ruolo dei dati sintetici nell’ecosistema dell’Intelligenza Artificiale

L’uso dei c.d. dati sintetici – ossia dati generati artificialmente e non direttamente riconducibili ad individui reali - si è negli ultimi anni imposto all’attenzione degli operatori del settore grazie ad alcune particolari caratteristiche che contribuiscono a candidarli come una risorsa di grande valore e potenziale per affrontare in maniera efficace molteplici sfide legate all’accesso, all’elaborazione e all’utilizzo responsabile del sempre più vasto bacino di dati e informazioni prodotto dalla rapida evoluzione della tecnologia nell’era dell’informazione digitale.

Il concetto di dato sintetico è strettamente connesso al mondo della c.d. IA Generativa, particolare insieme di tecniche afferenti al fenomeno dell’intelligenza artificiale caratterizzate da una fase di training condotta - tramite modelli di machine learning - su enormi insiemi di informazioni, specificamente concepita per generare contenuti come testi complessi, immagini, audio o video.

La flessibilità e la duttilità insite in tale tecnologia ne stanno determinando il successo la rapida diffusione a livello globale, costringendo addirittura il legislatore europeo a modificare la propria proposta di Regolamento sull’Intelligenza Artificiale per garantirne una futura regolamentazione. La nota banca d’affari Goldman Sachs ha pubblicato nel 2023 una ricerca secondo cui l’IA generativa potrebbe determinare un aumento del 7% del PIL globale, incrementando la crescita della produttività di 1,5 punti percentuali in un periodo di 10 anni ed esponendo all’automazione l’equivalente di 300 milioni di posti di lavoro a tempo pieno.

L’IA generativa, in particolare, gioca un ruolo fondamentale nel processo di elaborazione e generazione di set di dati sintetici di qualità, garantendo che questi conservino un’utilità statistica pari a quella dei dati reali e permettendo di superare alcune complessità legate alla scarsità, all’accessibilità e alla tutela normativa posta a protezione dei dati di natura personale.

Nel caso di specie, la IA generativa viene usata per riprodurre dei dati con proprietà statistiche che siano coerenti con quelle osservate nel dataset originale, senza però corrispondere a dati reali effettivamente osservati. Un esempio tangibile è il modo in cui un ospedale può utilizzare l’IA generativa per creare radiografie artificiali - e, dunque, finte - ma realistiche, consentendo lo sviluppo di strumenti diagnostici precisi e superando la rarità dei dati reali di partenza.

Dati sintetici: nuova frontiera dell’I.A.

Ma cosa sono esattamente i dati sintetici?
Si tratta di informazioni generate artificialmente mediante l’impiego di sistemi di IA generativa a partire da dati reali, che emulano a livello statistico le caratteristiche e le proprietà dei dati reali. I dati sintetici sono dunque dati generati artificialmente tramite l’impiego dell’IA. Tali dati vengono creati utilizzando algoritmi e modelli statistici che replicano i modelli, le caratteristiche e le relazioni presenti nei dati del mondo reale.

Nell’era digitale, i dati hanno assunto infatti un ruolo chiave nel processo di innovazione e crescita economica. Ciò è divenuto ancor più vero con il diffondersi dei modelli di machine learning, sempre più affamati di informazioni.

I dati sintetici non sono solo in grado di superare alcune delle costrizioni proprie dei dati reali, ma offrono vantaggi particolarmente significativi nell’ambito dei progetti di IA: essi possono infatti a loro volta essere utilizzati come dataset per il training e il testing di sistemi algoritmici, garantendo una più elevata qualità del set e migliorandone le prestazioni, tutelando la riservatezza dei dati contenuti nel dataset di partenza e evitando di dover dipendere esclusivamente da dati reali.

In particolare, i dati sintetici possono essere impiegati per:
• aumentare la completezza dei dataset: i dati sintetici possono colmare le lacune nei dataset reali e migliorarne la completezza e la precisione complessiva, consentendo un’analisi più efficiente e scalabile;
• mitigare i bias: grazie ai dati sintetici, è possibile bilanciare categorie sottorappresentate nel dataset di partenza, mitigando in tal modo i bias che possono influenzare negativamente il funzionamento di sistemi di IA e garantendone una maggior robustezza e affidabilità, aspetto cruciale soprattutto in applicazioni eticamente sensibili;
• tutelare la riservatezza: i dati sintetici sono realistici - a livello statistico - ma privi di informazioni direttamente riconducibili ad individui esistenti, fornendo un’alternativa più sicura rispetto ai tradizionali metodi di pseudonimizzazione e anonimizzazione dei dati personali e riducendo al contempo il rischio di violazioni della privacy degli interessati.

I campi di applicazione sono quindi infiniti, dalla sanità alla finanza, dal marketing all’intrattenimento, passando all’innovazione di processo o prodotto.

Conclusioni

Con la previsione che entro il 2024 il 60% dei dati utilizzati nei progetti di IA sarà generato sinteticamente (fonte: Gartner), è evidente che i dati sintetici rappresentino una tendenza chiave nel mercato dell’IA, sempre più rilevante per superare le sfide dei dati reali, massimizzare il potenziale dei dati a disposizione di aziende ed enti pubblici, ridurre gli impatti privacy e garantire l’efficienza e l’efficacia dei sistemi di IA, contribuendo a un’innovazione tecnologica etica, sostenibile e responsabile.

______
(*) A cura di
- Nadia Martini, Avvocato, Partner, Head of Data protection & Cyber Security, Rödl & Partner, Direttore Tecnico del corso di Alta Formazione Privacy “DPO Academy”, qualificato CEPAS.
- Nicola Sandon, Avvocato, Senior Associate Data protection & Cyber Security, Rödl & Partner


Per saperne di piùRiproduzione riservata ©