Tech Un risultato storico, gli LLM superano il test di Turing Laura Biarella 27 May 2026 AI Secondo lo studio pubblicato su Proceedings of the National Academy of Sciences (PNAS), tre sistemi di IA attualmente in uso raggiungono un tasso di successo di almeno il 50% in un test di Turing standard, rendendo gli interrogatori “non più abili del caso” nel distinguere uomo e macchina. Gli autori scrivono che “GPT‑4.5 è stato giudicato come l’essere umano nel 73% dei casi”, superando sistematicamente i partecipanti umani. Il test, condotto su popolazioni indipendenti (studenti universitari e lavoratori Prolific), prevedeva conversazioni simultanee di 5 e 15 minuti tra un interrogatore, un partecipante umano e un modello di IA. Come funziona il test di Turing a tre parti Il protocollo adottato riprende fedelmente la formulazione originale di Alan Turing: – un interrogatore dialoga con due interlocutori – uno è umano, l’altro è un modello di IA – l’interrogatore deve stabilire chi sia la persona reale Lo studio ha valutato quattro sistemi: – GPT‑4.5 – LLaMa‑3.1‑405B – GPT‑4o – ELIZA (modello storico degli anni ’60, usato come controllo) I risultati mostrano che i modelli con prompt “PERSONA”, cioè istruiti a imitare uno stile umano credibile, ottengono prestazioni nettamente superiori. I risultati principali dello studio PNAS 1. GPT‑4.5-PERSONA supera il 70% di “inganni riusciti” – 73% di tasso di successo complessivo – 76% nel campione Prolific – 69% nel campione universitario 2. LLaMa‑3.1-PERSONA raggiunge il 56% – Indistinguibile dagli esseri umani nel test standard – Prestazioni più alte nei partecipanti adulti rispetto agli studenti 3. Senza prompt specifici, i modelli crollano – GPT‑4.5-NO-PERSONA: 36% – LLaMa-NO-PERSONA: 38% – GPT‑4o-NO-PERSONA: 21% 4. Replicazione a 15 minuti: anche GPT‑5 supera il test – GPT‑5-PERSONA: 59% – LLaMa‑3.1-PERSONA: 56% – ELIZA: 17% Perché gli esseri umani sbagliano? Lo studio evidenzia che gli interrogatori si basano soprattutto su: – stile linguistico – fluidità della conversazione – risposte socio-emotive – “sensazioni” o intuizioni non razionali Le strategie più efficaci, invece, sono risultate: – dire cose insolite o illogiche – usare “jailbreak” tipici degli LLM – verificare la gestione delle domande dirette Implicazioni per la società e per la regolazione dell’IA Il superamento del test di Turing da parte degli LLM moderni solleva questioni cruciali: 1. Sicurezza e disinformazione Modelli capaci di “mascherarsi da persone reali” possono essere usati per: – ingegneria sociale – frodi – manipolazione dell’opinione pubblica 2. Impatti sul lavoro La capacità di imitare conversazioni umane realistiche può accelerare: – automazione dei servizi – sostituzione di ruoli comunicativi – ridefinizione delle professioni basate sull’interazione 3. Necessità di nuove norme Il risultato rafforza la necessità di: – regolazione europea sull’IA – trasparenza dei sistemi generativi – watermarking e tracciabilità dei contenuti Italia: un contesto in evoluzione tra DDL e IA generativa Il dibattito italiano sull’IA si intreccia con: – il disegno di legge sulle terapie digitali, che introduce criteri di certificazione e valutazione HTA – il percorso di recepimento dell’AI Act europeo – le iniziative nazionali su cybersicurezza e identità digitale L’indistinguibilità crescente tra uomo e macchina rende urgente definire: – standard di sicurezza – protocolli di verifica – limiti all’uso dell’IA in ambito pubblico e sanitario Conclusione Lo studio PNAS 2026 rappresenta una svolta nel dibattito sull’intelligenza artificiale: per la prima volta, modelli linguistici moderni risultano indistinguibili dagli esseri umani in un test di Turing rigoroso. Un risultato che non misura solo la potenza dei modelli, ma anche la vulnerabilità percettiva degli esseri umani. In un contesto europeo e italiano in rapida evoluzione normativa, questa evidenza scientifica impone una riflessione profonda su sicurezza, etica e futuro della comunicazione digitale.