Intelligenza artificiale: dal Garante privacy alcune indicazioni

L’intelligenza artificiale è l’argomento (catalizzante ma anche polarizzante) del momento: “ne parlano tutti”, e a più livelli, molti sono i gruppi di lavoro, commissioni e seminari a tema, anche il Garante privacy è intervenuto, ma sull’alimentazione degli algoritmi e quindi a garanzia degli utenti, con una serie di osservazioni. Da ClearView ai ChatGPT, Gemini et al., ma tutto cambia per non cambiare?

Intelligenza artificiale: dal Garante privacy le indicazioni per difendere i dati personali dal web scraping

Preliminarmente bisogna ricordare che il Garante Italiano è stato premiato, recentemente, per le sue istruttorie su ChatGPT.

Ovviamente il premio interessa l’impegno profuso, dalla particolare Autorità, nelle attività di indagine sull’Intelligenza artificiale generativa, in generale.

Tale istruttoria ha consentito una maggiore conoscenza verso la tematica rispetto alla protezione dei dati personali, implementandone la consapevolezza, elemento sfidante per il presente (figurarsi per il futuro, ndr! ChatGPT è stato già citato in una sentenza della Cassazione!).

Da aggiungersi è l’aspirata regolamentazione, e trasparenza, degli algoritmi di machine learning.

Infatti, il reale funzionamento degli algoritmi non è esattamente conosciuto.

Elemento, questo, che emerge in ogni report pubblicato (si veda index da Stanford). Per esempio, anche la newsletter periodica (maggio ’24) di Aidia richiama tale “fenomeno”:

nonostante i molti usi dei modelli di deep learning (che sono, ad esempio, a fondamento di Copilot o Gemini), nessuno sa esattamente come funzionino al loro interno. Un nuovo studio di Anthropic, pubblicato recentemente, cerca di indagare proprio quest’aspetto: con quali schemi si attivino le unità delle reti neurali; quali pattern vengano eseguiti da un LLM per rispondere alle richieste ricevute.

Da un lato, tale “ignoranza latente”, è anche ovvia per motivi legati al copyright, quindi a tutela di quelle opere di ingegno che sono i software, le librerie, i “pezzi” di codice.

D’altro canto, bisogna considerare anche le logiche commerciali, e concorrenziali, seguite dalle software house, specie in un momento di hype come questo.

Un esempio di quest’ultimo aspetto potrebbe essere anche la querelle che coinvolge Google e il funzionamento del suo motore di ricerca, interessando la recente esfiltrazione di documentazione riguardante il ranking (il posizionamento) delle pagine consigliate.

Invece, per il primo caso, quindi della violazione della tutela delle opere d’ingegno, vi è da rilevare il coinvolgimento – in prima battuta – proprio di chi quelle Intelligenze Artificiali le addestra.

Scraping, intelligenza artificiale e privacy: esito di un trinomio

Fù il tempo di Clearview AI, di cui s’interessò ampiamente il Garante privacy Francese, CNIL, chiedendo l’interruzione di una “pesca a strascico” on-line dei volti utili all’addestrare il proprio algoritmo di riconoscimento facciale.

Era il 2021, seguì una sanzione. Una delle tante, per quella società.

Nel marzo 2022 anche il Garante Italiano s’interessò a ClearView (docweb 9751362- n.50/2022 reg. prov), quindi l’ICO Britannico (multa di 7.5 mln di sterline a quella società) e il Garante Greco (sanzione da 20 mln di euro).

Il motivo per cui si mossero tali Autorità indipendenti è duplice: assenza di base informativa, considerando l’utilizzo indiscriminato di dati personali; assenza di base giuridica e poi, il principale: la particolare natura del dato utilizzato, caratteristica biometrica, il volto, appunto.

Dal “raschiamento” delle immagini effigianti taluno si è passati a quello dei contenuti. Si pensi anche a librerie ad hoc, come PyMuPDF, scritta in python e utile per estrazione, analisi, conversione e manipolazione da file in formato .pdf.

Questo è il contesto nel quale, nel dicembre 2023, The New York, intenta la prima azione legale contro OpenAI (quindi Vs chatGPT), per violazione del diritto d’autore.

Ma cos’è il web scraping? Tecnica che permette di estrarre i dati, in modo massivo e automaticamente (bot) dai siti web.

Può essere un problema? Beh si!

Per esempio, nel caso di The New York, il motivo del contendere è appunto l’addestramento del famoso chatbot attraverso milioni di articoli provenienti dalla produzione giornalistica di quel giornale.

Se i dati estratti e rielaborati, invece, contengono dati personali, il problema trasla dal piano “diritto d’autore” a quello della “privacy”.

Le indicazioni del Garante Italiano sullo scraping

Intanto si tratta della prima iniziativa a livello europeo, per difendere attivamente i dati personali dalla voracità dei modelli LLM (intanto è nata “Italia”, LLM nazionale sviluppata da CINECA).

Si tratta di indicazioni ai fornitori dei servizi (sostanzialmente i titolari del sito web).

Esempi di dati interessanti lo scraping:

da indirizzi sede aziendale a dati relativi alla stessa (codice fiscale, partita iva), ma per queste vi sono anche altre fonti da utilizzare (agenzia entrate, per esempio).
Dalla pagina “trasparenza”, per esempio si arriva ai curricula di quadri e dipendenti, alla loro foto, ai cellulari e mail aziendali.

Le misure suggerite (non obbligatorie), sono:

monitoraggio traffico di rete;
adottare soluzione tecnologiche per inibire i bot (anche seguendo indicazioni delle stesse società di IA, come intervenire su file robots.txt)
creazione di aree riservate, con accesso previa registrazione account, per tutela dati personali;
utilizzo di clausole specifiche nei termini di utilizzo del sito web.

Il documento tiene in considerazione i contributi ricevuti dall’Autorità, nell’ambito dell’attività conoscitiva deliberata lo scorso dicembre.

A stretto giro anche il Garante Privacy Europeo (EDPB), però…

…Interviene sull’Intelligenza Artificiale, è il 3 giugno u.s.

In concreto il GDPR non avrebbe potuto disciplinare la materia, data la neutralità tecnica che il dispositivo normativo ha, in astratto (probabilmente solo art. 21, in senso assoluto).

Il Garante comunitario quindi percorre la strada delle linee guida, indirizzate alle istituzioni UE, una sorta di promemoria, quindi, sulla necessità di:

Comprendere il funzionamento di IA, considerando che, per generare determinati output, il prompt utilizzato ha bisogno di essere alimentato da LLM;
Comprendere che tali sistemi hanno bisogno di una valutazione di impatto e una propedeutica valutazione dei rischi;
Comprendere che l’interazione con il DPO è oramai “ordinaria routine” (ndr) visto che IA è un asset vero e proprio da considerare. Implementare servizi deve contemperare i diritti con le funzionalità richieste/miglioramenti, in una ottica, continua e sistematica, di trasparenza, un po come sta per accadere alla Camera dei Deputati Italiana, oppure come indicato da INPS.

Anche in questo caso si segnala uno studio propedeutico nel Report of the work undertaken by the ChatGPT Taskforce.

Silvestro Marascio

Intelligenza artificiale: dal Garante privacy alcune indicazioni

Notizie correlate

In attesa di Chat GPT 5, arriva GPT-4o: le novità e perché è già una rivoluzione

WHITE PAPER | Trattamento dati Polizia

Notizie correlate

In attesa di Chat GPT 5, arriva GPT-4o: le novità e perché è già una rivoluzione

Condividi Articolo

In attesa di Chat GPT 5, arriva GPT-4o: le novità e perché è già una rivoluzione

WHITE PAPER | Trattamento dati Polizia

Condividi Articolo

WHITE PAPER | Trattamento dati Polizia

Iscriviti gratuitamente per accedere ai contenuti esclusivi