Il rifiuto dell’IA, lo studio AgID che aiuta la PA a governare i modelli linguistici

PA e AI. Il nuovo studio del CERT‑AgID rivela che il rifiuto dei modelli di Intelligenza Artificiale non è una semplice regola, bensì una struttura geometrica interna.

Analizzarla consente di orientare le decisioni degli LLM, riducendo i dinieghi ingiustificati e migliorando sicurezza, trasparenza e controllo per la Pubblica Amministrazione.

L’analisi CERT-AgID

Il CERT‑AgID ha pubblicato un’analisi innovativa sul funzionamento del refusal, il meccanismo con cui i modelli linguistici decidono di rifiutare una richiesta. Lo studio mostra che tale comportamento non è un blocco rigido, bensì una forma geometrica nello spazio latente del modello, che può essere studiata, tracciata e modificata per migliorare l’affidabilità delle risposte.

Rifiuto quale struttura geometrica

Per la ricerca, ogni prompt viene trasformato in coordinate matematiche che si distribuiscono in regioni distinte:

area sicura: richieste legittime e non rischiose,
area sensibile: contenuti potenzialmente pericolosi o non conformi,
confine di rifiuto: la zona in cui il modello decide se negare o meno la risposta.

La separazione non è casuale, assume una forma lineare, sorprendentemente semplice da modellare e manipolare.

Come si orienta il rifiuto, l’activation steering

Lo studio evidenzia che è possibile intervenire sulle rappresentazioni interne del modello tramite tecniche di activation steering, modificando leggermente la traiettoria del modello per:

ridurre i rifiuti ingiustificati,
mantenere la protezione contro prompt malevoli,
preservare coerenza e qualità linguistica.

Il risultato è un modello più stabile e prevedibile, senza effetti collaterali sulla generazione del testo.

Una separazione lineare

I test condotti su modelli open‑weight come Mistral‑7B mostrano che:

la distinzione tra richieste innocue e sensibili è quasi perfettamente lineare;
metodi semplici di analisi e intervento funzionano quanto quelli più complessi;
la stabilità del modello rimane elevata anche dopo la modifica delle attivazioni.

Tale linearità apre la strada a strumenti più accessibili per la PA e per i ricercatori.

Implicazioni per la Pubblica Amministrazione

Lo studio ha un impatto diretto sulla governance dell’IA nella PA italiana:

1. Maggiore trasparenza. I modelli open‑weight permettono di analizzare e verificare i meccanismi decisionali interni, garantendo auditabilità e controllo.

2. Protezione dei dati. L’utilzzo di modelli installati su infrastrutture pubbliche evita la trasmissione di dati sensibili verso servizi esterni.

3. Autonomia operativa. La PA può intervenire direttamente sui modelli, adattandoli alle proprie esigenze senza dipendere da provider privati.

4. Governance più solida. La comprensione della geometria del rifiuto consente di progettare sistemi IA più affidabili, sicuri e conformi alle normative.

Rilevanza territoriale

Per le città dove la digitalizzazione dei servizi pubblici è in crescita, studi come questo:

supportano l’adozione di IA trasparenti nei servizi comunali e sanitari;
favoriscono l’impiego di modelli open‑weight per la gestione documentale;
rafforzano la sicurezza informatica degli enti locali.

Perché questo studio è importante

La ricerca CERT‑AgID segna uno step in avanti nella comprensione dei modelli linguistici: mostra che il rifiuto non è un “muro”, bensì una geometria modificabile.

Ciò consente di costruire IA più affidabili, controllabili e adatte ai servizi pubblici, in linea coi principi di trasparenza e tutela dei cittadini.