Quattro sentenze fantasma e un conto da 30.000 euro: quando l’uso acritico dell’IA entra in tribunale

Il Tribunale di Siracusa sanziona un avvocato per citazioni giurisprudenziali generate dall’IA. Il TAR Milano trasmette gli atti all’Ordine. Il CCBE aggiorna le linee guida. Ma il vero problema è strutturale: i modelli linguistici non possono smettere di inventare

Quattro sentenze della Cassazione, citate tra virgolette con numeri, sezioni e date. Quattro passaggi che suonavano perfetti — il tono giusto, la struttura giusta, le parole giuste. Nessuna delle quattro è mai esistita.

Il giudice del Tribunale di Siracusa le ha cercate tutte. Ha interrogato il CED della Corte di Cassazione, ha incrociato le banche dati in uso alla magistratura, ha controllato una per una. Risultato: zero corrispondenze. E una condanna da oltre trentamila euro.

L’intelligenza artificiale generativa non sbaglia: fa esattamente quello per cui è stata progettata. Il problema è che nessuno lo dice a chi la usa per scrivere atti giudiziari.

Anatomia di un disastro processuale: cosa è successo a Siracusa

Il 20 febbraio 2026 il Tribunale di Siracusa, Sezione Seconda Civile, ha depositato la sentenza n. 338/2026, a firma del giudice Alfredo Spitaleri. Il caso originario era una causa risarcitoria per inadempimento contrattuale di sublocazione — una società chiedeva 165.000 euro di danni per la risoluzione di un contratto relativo a una palestra polifunzionale. Roba ordinaria, contenzioso da provincia. Ma la sentenza è destinata a fare giurisprudenza per un motivo che con la palestra non c’entra nulla.

Il contenzioso, peraltro, era già stato definito in via sostanziale: la Corte d’Appello di Catania e la Cassazione avevano già stabilito i fatti. L’attrice tentava di recuperare voci di danno dichiarate inammissibili nei gradi precedenti. Una domanda che qualsiasi avvocato minimamente diligente — parole del giudice, non mie — avrebbe saputo essere infondata alla luce dell’orientamento giurisprudenziale consolidato. Fin qui, una causa persa in partenza. Poi è arrivata l’intelligenza artificiale a renderla anche umiliante.

La difesa della parte attrice, nel tentativo di sostenere una tesi sull’inapplicabilità dell’art. 1957 c.c. alla responsabilità ex art. 38 c.c., ha citato quattro sentenze di legittimità: Cass. n. 1216/2000, Cass. n. 8379/2006, Cass. n. 14795/2003 e Cass. n. 4553/2004. Ciascuna era corredata da un passaggio testuale virgolettato, secondo la prassi redazionale che indica una citazione letterale.

Il problema è che quei passaggi non esistono in nessuna di quelle sentenze. Alcune delle pronunce citate esistono, ma trattano materie completamente diverse. I virgolettati, nella loro formulazione autentica, non trovano riscontro in alcuna pronuncia. In altre parole: numeri reali, contenuti inventati. Una firma falsa su carta intestata vera.

Il Tribunale, nella persona del giudice Alfredo Spitaleri, ha compiuto un ragionamento di esclusione degno di un’indagine forense. Ha scartato il malfunzionamento delle banche dati giuridiche professionali: questi strumenti indicizzano provvedimenti autentici e non generano testo, quindi non possono produrre precedenti con numeri e virgolettati integralmente inesistenti. Ha escluso l’errore mnemonico: non si tratta di un numero sbagliato o di una sezione mal attribuita, bensì di massime costruite ex novo, prive di qualsiasi corrispondenza con le pronunce richiamate. Ha escluso perfino l’invenzione deliberata, perché un professionista che fabbricasse consapevolmente quattro precedenti inesistenti si esporrebbe a conseguenze disciplinari sproporzionate rispetto a qualsiasi vantaggio difensivo.

• “L’unica ipotesi residua, e al tempo stesso la più compatibile con la fenomenologia concreta del caso, è che il difensore si sia avvalso di uno strumento di intelligenza artificiale generativa senza sottoporre gli output ottenuti alla doverosa verifica sulle fonti primarie”

Qui il giudice compie un passaggio che meriterebbe di essere scolpito nel marmo di ogni studio legale d’Italia. Scrive che è ormai “fatto notorio” — un’espressione tecnica che indica qualcosa che non ha bisogno di prova perché è di conoscenza comune — che i Large Language Models “non costituiscono banche dati giurisprudenziali da cui estrarre precedenti e citazioni, bensì strumenti di generazione automatica del linguaggio fondati su meccanismi inferenziali di natura statistica e probabilistica”. Il giudice aggiunge: questi sistemi “non sanno né ricordano alcunché, ma si limitano a produrre sequenze di testo statisticamente plausibili”.

Il prezzo dell’incoscienza: 30.206 euro in tre voci

Il Tribunale non si è limitato a rigettare la domanda. Ha applicato una tripla sanzione che funziona come un manifesto programmatico.

Prima voce: 14.103 euro di spese legali in favore della controparte vittoriosa. Seconda voce: altri 14.103 euro a titolo di risarcimento del danno ex art. 96, comma 3, c.p.c. — la norma che punisce la lite temeraria, quella che dice: sapevi o dovevi sapere che stavi sbagliando, e hai fatto perdere tempo a tutti. Terza voce: 2.000 euro in favore della Cassa delle Ammende ai sensi dell’art. 96, comma 4, c.p.c. — una novità introdotta dalla riforma Cartabia, pensata per scoraggiare le azioni pretestuose e risarcire il sistema giudiziario per il “vano funzionamento della macchina giustizia”.

Totale: 30.206 euro. È il prezzo che paga chi delega la propria professionalità a un algoritmo e non si prende il disturbo di verificare se quello che ha scritto è vero.

• Il giudice Spitaleri ha stabilito un principio che cambia le regole del gioco: l’utilizzazione acritica dell’IA generativa, senza verifica delle fonti primarie, integra gli estremi della colpa grave. Non è un’attenuante. È un’aggravante.

Il precedente milanese: il TAR, l’Ordine e la firma che non assolve

Siracusa non è un caso isolato. Quattro mesi prima, il 21 ottobre 2025, il TAR Lombardia aveva depositato la sentenza n. 3348/2025, prima pronuncia della giustizia amministrativa italiana sulle allucinazioni dell’IA in atti giudiziari.

Il caso era più banale, ma il principio non meno importante. Un avvocato aveva impugnato la bocciatura di una studentessa, citando a supporto sentenze che non esistevano o erano completamente estranee alla materia trattata. Il TAR, dopo aver verificato le citazioni, ha concluso che l’unica spiegazione plausibile era l’uso di strumenti di intelligenza artificiale generativa senza alcun controllo umano.

La reazione del TAR milanese è stata diversa da Siracusa nel metodo, ma convergente nella sostanza. Non ha applicato sanzioni economiche paragonabili, ma ha disposto la trasmissione della sentenza all’Ordine degli Avvocati di Milano per le valutazioni disciplinari del caso — un atto che apre un procedimento deontologico potenzialmente ben più grave di una multa.

Il TAR ha richiamato la Carta HOROS, il documento dell’Ordine degli Avvocati di Milano del 2024 sui principi per l’uso consapevole dell’IA in ambito forense, in particolare il Principio 4 sulla centralità della decisione umana. E ha ribadito un concetto che vale come sentenza nella sentenza: la sottoscrizione di un atto processuale attribuisce la responsabilità al sottoscrittore, indipendentemente dal fatto che lo abbia redatto personalmente o avvalendosi di strumenti di intelligenza artificiale. Hai firmato? È tuo. Comprese le bugie.

Le linee guida europee: il CCBE mette nero su bianco

A ottobre 2025 il CCBE — il Consiglio degli Ordini forensi d’Europa, che rappresenta oltre un milione di avvocati europei — ha pubblicato una guida aggiornata sull’uso dell’IA generativa nella professione legale. Un documento di 28 pagine che dice, in estrema sintesi, cinque cose.

Primo: non inserire dati dei clienti nei chatbot senza garanzie contrattuali sulla riservatezza.
Secondo: verifica sempre ogni output, perché l’IA produce “allucinazioni” — il CCBE usa esattamente questa parola, senza virgolette di cortesia.
Terzo: non delegare il giudizio professionale alla macchina, perché l’indipendenza dell’avvocato è un dovere, non un optional.
Quarto: informa il cliente se usi strumenti di IA.
Quinto: non presentare mai all’autorità giudiziaria informazioni false, quale che sia la fonte.

Le conseguenze per chi viola questi principi non sono teoriche. Il CCBE le elenca: procedimenti disciplinari, cause per negligenza professionale, danni ai clienti, perdita di reputazione. La guida cita esplicitamente un noto caso del 2023, quando un avvocato di New York fu sanzionato per aver presentato alla corte federale citazioni giurisprudenziali inesistenti generate da ChatGPT. Era il primo caso al mondo. Tre anni dopo, l’Italia ne ha già almeno cinque: Firenze, Torino, Latina, Milano, Siracusa. La curva non si sta appiattendo.

Perché l’IA inventa sentenze: il difetto è nel progetto

Qui è dove la storia diventa interessante. E dove il problema smette di essere una questione disciplinare per diventare una questione strutturale.

I modelli linguistici di grandi dimensioni — ChatGPT, Claude, Gemini, qualsiasi altro — non funzionano come un motore di ricerca. Non interrogano un database e non restituiscono documenti. Funzionano come macchine di previsione statistica: dato un testo parziale, calcolano quale parola ha la probabilità più alta di venire dopo. Poi la scrivono. Poi calcolano la successiva. E così via, token dopo token, fino alla fine della risposta.

Quando chiedi a un modello linguistico di citare una sentenza della Cassazione, il modello non “cerca” la sentenza. Costruisce una sequenza di parole che assomiglia a come una sentenza della Cassazione appare tipicamente nei testi su cui è stato addestrato. Produce un numero plausibile (Cass. n. 1216/2000 suona convincente, no?), una sezione plausibile, una data plausibile e un contenuto plausibile. Ma plausibile non significa vero. È la differenza tra un romanzo storico ben scritto e un libro di storia.

OpenAI stessa, in un paper di ricerca pubblicato a settembre 2025, ha ammesso che le allucinazioni persistono perché i metodi di valutazione standard premiano la capacità di indovinare rispetto alla capacità di ammettere l’incertezza. È come un test a crocette dove indovinare a caso può darti punti, ma lasciare in bianco ti garantisce zero. I modelli imparano a tirare a indovinare su migliaia di domande — e su base statistica, qualche volta ci prendono. Ma quando sbagliano, lo fanno con la stessa sicurezza con cui azzeccano.

Il paper di OpenAI demolisce alcune convinzioni diffuse. Le allucinazioni non spariranno con modelli più grandi, perché l’accuratezza al 100% è impossibile quando alcune domande del mondo reale sono intrinsecamente senza risposta. Le allucinazioni non sono un misterioso difetto dei modelli moderni, perché comprendiamo i meccanismi statistici attraverso i quali emergono. E soprattutto: le allucinazioni non sono inevitabili, perché i modelli potrebbero dire “non lo so” — ma i sistemi di valutazione attuali li penalizzano quando lo fanno.

C’è un paradosso che nessuno racconta: i modelli più avanzati allucinano meno frequentemente, ma quando allucinano lo fanno in modo più convincente. Meno errori, ma più pericolosi. Non è un bug: è la logica stessa del sistema.

La domanda che nessuno vuole fare

Siracusa e Milano hanno tracciato una linea. Da un lato ci sono i professionisti che usano l’IA come uno strumento tra molti, verificando ogni output con la stessa scrupolosità con cui verificherebbero il lavoro di un praticante al primo giorno. Dall’altro ci sono quelli che copiano e incollano, firmano e sperano.

Il giudice Spitaleri ha scritto che non è “più tollerabile” questo tipo di errore. Non è un’opinione: è un avvertimento. L’IA è entrata nei tribunali italiani senza bussare, e la giurisprudenza sta cercando di chiudere la porta a posteriori. Ma i numeri suggeriscono che la porta è spalancata: secondo un’indagine dell’International Bar Association del settembre 2024, oltre il 40% degli avvocati in Europa utilizza già strumenti di IA generativa nel proprio lavoro quotidiano. Quanti di loro verificano sistematicamente ogni output?

C’è una traiettoria che si sta formando nella giurisprudenza italiana. Da Firenze — che nel marzo 2025 aveva escluso la colpa grave — a Siracusa, che quattro mesi dopo la definisce esplicitamente. Passando per il TAR di Milano, che ha coinvolto l’Ordine professionale. La curva è ascendente. Le sanzioni si stanno inasprendo. La tolleranza si sta azzerando.

Ma la domanda vera è un’altra. Questi sono i casi che scopriamo — quelli in cui le citazioni sono talmente inventate da risultare inesistenti al CED. Quante memorie difensive, in questo momento, contengono citazioni reali con contenuti leggermente alterati? Passaggi che esistono, ma dicono qualcosa di diverso da quello che il modello attribuisce loro? Quelle non le trova nessun database. Per quelle servono avvocati che leggono le sentenze. E se la promessa dell’IA è di non doverle leggere più, siamo dentro un cortocircuito da cui non si esce con una circolare dell’Ordine.

Se la giurisprudenza sta tracciando un perimetro di responsabilità sempre più netto, il tema che emerge – e che travalica il singolo caso – è quello della compatibilità tra sistemi generativi probabilistici e architetture istituzionali fondate sulla tracciabilità della fonte.

ENIA: una nuova speranza

Se la giurisprudenza sta tracciando un perimetro di responsabilità sempre più netto, il tema che emerge – e che travalica il singolo caso – è quello della compatibilità tra sistemi generativi probabilistici e architetture istituzionali fondate sulla tracciabilità della fonte. È su questo crinale che interviene la riflessione della Presidente di ENIA, Valeria Lazzaroli.

“Le pronunce richiamate nell’articolo confermano un presidio deontologico che segna l’irruzione nel dominio giuridico di una questione di ingegneria epistemica.

I Large Language Models sono modelli autoregressivi addestrati a massimizzare la probabilità condizionata del token successivo rispetto a una distribuzione appresa. Il loro criterio di ottimizzazione è la coerenza statistica della sequenza, non la verificabilità ontologica dell’enunciato.

Quando un testo generato entra in un atto processuale, il conflitto è tra due regimi di validazione, ossia quello probabilistico-inferenziale del modello e quello documentale-forense del diritto. Il primo opera su embedding vettoriali e pattern latenti mentre il secondo esige un ancoraggio esplicito a una fonte primaria, identificabile, contestabile ed archiviata in un sistema di evidenze. Confondere questi piani significa introdurre nel processo un oggetto epistemicamente instabile per produrre un enunciato formalmente corretto ma privo di catena di custodia informativa.

Ai fini dell’AI governance, il caso evidenzia una carenza di controllo a livello di ciclo di vita del sistema, laddove, in coerenza con la norma tecnica ISO/IEC 42001:2023, non è stato attivato un adeguato controllo sui rischi di information fabrication né implementato un processo di validazione degli output prima del loro impiego in un contesto ad alto impatto giuridico. L’assenza di un human-in-the-loop qualificato, con obbligo di verifica sulla fonte primaria, trasforma, così, un ausilio redazionale in un moltiplicatore di rischio legale e reputazionale.

E non è certo la GenAI il punto, che indubbiamente, in ambito forense, può supportare tante fasi come l’analisi comparativa, la strutturazione argomentativa e un’esplorazione di scenari interpretativi. Il punto è la mancata segregazione funzionale tra generazione linguistica e attestazione probatoria, perché un modello può suggerire una linea difensiva ma non può certificare l’esistenza di una pronuncia e la firma dell’avvocato, in questo contesto, diventa un atto di validazione epistemica che attesta che ogni citazione è stata ricondotta alla fonte originaria attraverso un controllo indipendente dal sistema generativo. Vi è inoltre un aspetto che merita attenzione, ossia i modelli più avanzati riducono la frequenza dell’errore grossolano, ma aumentano la qualità formale dell’errore residuo.

Questo produce un effetto di affidamento cognitivo con la sofisticazione stilistica che abbassa la soglia di vigilanza dell’operatore e in organizzazioni prive di protocolli interni di AI risk management, il rischio non si manifesta come evento eccezionale, bensì come normalizzazione della plausibilità non verificata.

Le decisioni richiamate nell’articolo affermano, implicitamente, un principio destinato a consolidarsi circa l’utilizzo acritico di sistemi generativi in contesti regolati, configurandosi come una violazione del dovere di diligenza tecnica e non perché la tecnologia sia intrinsecamente inaffidabile, ma perché il suo paradigma operativo è diverso da quello richiesto dall’istituzione giudiziaria.

La maturità digitale di uno studio legale non si misura dalla rapidità con cui adotta strumenti generativi, bensì dalla capacità di integrare tali strumenti in un sistema di controlli, audit e tracciabilità coerente con gli standard internazionali di gestione dell’AI.

Il diritto sta riaffermando un principio antico con strumenti nuovi con la forma che non può sostituire la prova. L’intelligenza artificiale generativa eccelle nella forma e la responsabilità professionale consiste nel ricondurre ogni forma alla sua fonte. Quando questa riconduzione manca, siamo di fronte ad una frattura nel patto fiduciario che sorregge il processo.”.

________

*Valeria Lazzaroli, Presidente di Enia, Fondazione Nazionale per l’Intelligenza Artificiale e Avv. Alberto Bozzo, Responsabile ENIA Connect - Ente Nazionale per l’Intelligenza Artiﬁciale

PER SAPERNE DI PIÙ