Un risultato storico, gli LLM superano il test di Turing

Secondo lo studio pubblicato su Proceedings of the National Academy of Sciences (PNAS), tre sistemi di IA attualmente in uso raggiungono un tasso di successo di almeno il 50% in un test di Turing standard, rendendo gli interrogatori “non più abili del caso” nel distinguere uomo e macchina.

Gli autori scrivono che “GPT‑4.5 è stato giudicato come l’essere umano nel 73% dei casi”, superando sistematicamente i partecipanti umani.

Il test, condotto su popolazioni indipendenti (studenti universitari e lavoratori Prolific), prevedeva conversazioni simultanee di 5 e 15 minuti tra un interrogatore, un partecipante umano e un modello di IA.

Come funziona il test di Turing a tre parti

Il protocollo adottato riprende fedelmente la formulazione originale di Alan Turing:

– un interrogatore dialoga con due interlocutori

– uno è umano, l’altro è un modello di IA

– l’interrogatore deve stabilire chi sia la persona reale

Lo studio ha valutato quattro sistemi:

– GPT‑4.5

– LLaMa‑3.1‑405B

– GPT‑4o

– ELIZA (modello storico degli anni ’60, usato come controllo)

I risultati mostrano che i modelli con prompt “PERSONA”, cioè istruiti a imitare uno stile umano credibile, ottengono prestazioni nettamente superiori.

I risultati principali dello studio PNAS

1. GPT‑4.5-PERSONA supera il 70% di “inganni riusciti”

– 73% di tasso di successo complessivo

– 76% nel campione Prolific

– 69% nel campione universitario

2. LLaMa‑3.1-PERSONA raggiunge il 56%

– Indistinguibile dagli esseri umani nel test standard

– Prestazioni più alte nei partecipanti adulti rispetto agli studenti

3. Senza prompt specifici, i modelli crollano

– GPT‑4.5-NO-PERSONA: 36%

– LLaMa-NO-PERSONA: 38%

– GPT‑4o-NO-PERSONA: 21%

4. Replicazione a 15 minuti: anche GPT‑5 supera il test

– GPT‑5-PERSONA: 59%

– LLaMa‑3.1-PERSONA: 56%

– ELIZA: 17%

Perché gli esseri umani sbagliano?

Lo studio evidenzia che gli interrogatori si basano soprattutto su:

– stile linguistico

– fluidità della conversazione

– risposte socio-emotive

– “sensazioni” o intuizioni non razionali

Le strategie più efficaci, invece, sono risultate:

– dire cose insolite o illogiche

– usare “jailbreak” tipici degli LLM

– verificare la gestione delle domande dirette

Implicazioni per la società e per la regolazione dell’IA

Il superamento del test di Turing da parte degli LLM moderni solleva questioni cruciali:

1. Sicurezza e disinformazione

Modelli capaci di “mascherarsi da persone reali” possono essere usati per:

– ingegneria sociale

– frodi

– manipolazione dell’opinione pubblica

2. Impatti sul lavoro

La capacità di imitare conversazioni umane realistiche può accelerare:

– automazione dei servizi

– sostituzione di ruoli comunicativi

– ridefinizione delle professioni basate sull’interazione

3. Necessità di nuove norme

Il risultato rafforza la necessità di:

– regolazione europea sull’IA

– trasparenza dei sistemi generativi

– watermarking e tracciabilità dei contenuti

Italia: un contesto in evoluzione tra DDL e IA generativa

Il dibattito italiano sull’IA si intreccia con:

– il disegno di legge sulle terapie digitali, che introduce criteri di certificazione e valutazione HTA

– il percorso di recepimento dell’AI Act europeo

– le iniziative nazionali su cybersicurezza e identità digitale

L’indistinguibilità crescente tra uomo e macchina rende urgente definire:

– standard di sicurezza

– protocolli di verifica

– limiti all’uso dell’IA in ambito pubblico e sanitario

Conclusione

Lo studio PNAS 2026 rappresenta una svolta nel dibattito sull’intelligenza artificiale: per la prima volta, modelli linguistici moderni risultano indistinguibili dagli esseri umani in un test di Turing rigoroso.

Un risultato che non misura solo la potenza dei modelli, ma anche la vulnerabilità percettiva degli esseri umani.

In un contesto europeo e italiano in rapida evoluzione normativa, questa evidenza scientifica impone una riflessione profonda su sicurezza, etica e futuro della comunicazione digitale.