La dicotomia tra DMA e GDPR. La chimera dell’irreversibilità: rigore tecnico e minimizzazione del rischio nella condivisione dei dati sotto il DMA

di Giuseppe Cassano (Membro del Comitato AgCOM - Autorità per le Garanzie nelle Comunicazioni - per la Intelligenza Artificiale)

Introduzione: L’Articolo 6(11) del DMA e l’esportazione dei dati fuori dal perimetro GDPR Il Digital Markets Act (DMA) introduce un cambio di paradigma imponendo obblighi by-design alle piattaforme digitali di importanza sistemica, designate come “gatekeeper”. Tra le disposizioni di maggiore complessità sistematica, in virtù delle sue interazioni con il General Data Protection Regulation (GDPR), emerge l’Articolo 6(11). Questa norma è volta a sanare l’asimmetria informativa nel mercato dei motori di ricerca, obbligando i gatekeeper a condividere con i concorrenti i dati relativi a interrogazioni (query), posizionamento, clic e visualizzazioni, garantendo condizioni eque, ragionevoli e non discriminatorie.

Tuttavia, sotto il profilo dogmatico e pratico, tale obbligo impone di fatto ai gatekeeper di “esportare” i dati personali al di fuori dell’ambito di applicazione del GDPR attraverso il processo di anonimizzazione. Un’operazione che la dottrina, definisce complessa, specialmente considerando che lo standard giuridico europeo per una corretta anonimizzazione è tuttora oggetto di vivace dibattito.

L’illusione dell’irreversibilità assoluta e la tecnica del k-anonimato Il considerando 61 del DMA postula che i dati debbano considerarsi anonimi qualora vengano alterati in modo “irreversibile”. Come giuristi, dobbiamo accogliere questa nozione con spirito critico: la dottrina ha evidenziato come l’idea di un’irreversibilità assoluta rappresenti un’illusione tecnica, essendo costantemente condizionata da presupposti che variano a seconda dell’ambiente in cui i dati risiedono. Tuttavia Sotto il profilo tecnico e dogmatico, il k-anonimato si configura come un modello di protezione imprescindibile per la salvaguardia della riservatezza degli interessati nei processi di anonimizzazione tecnica dei dati. Tale paradigma opera garantendo che ogni singola interrogazione o record all’interno di un dataset risulti matematicamente indistinguibile da una coorte di almeno altri k-1 record presenti nel medesimo insieme.

L’implementazione del k-anonimato assicura che qualsivoglia combinazione di quasi-identificatori — attributi che, pur non essendo identificativi diretti, possono agevolare la de-anonimizzazione — sia condivisa da un’ampia coorte di almeno k unità. In questo modo, le informazioni subiscono una trasformazione volta a precludere deduzioni sensibili e a blindare l’impronta digitale dei singoli utenti.

L’obiettivo sistematico risiede nel neutralizzare i rischi di re-identificazione, anche a fronte di intrusi motivati e sofisticati. Mediante tale rigore metodologico, il dataset acquisisce la proprietà di k-anonimo, offrendo una garanzia di privacy fondata su solide basi matematiche che ne legittima la circolazione nel mercato digitale.

La Consultazione della Commissione Europea sulle misure proposte per la condivisione di Dati da parte per il motore di ricerca di Google

Al momento la Commissione Europea ha aperto una consultazione pubblica (https://digital-markets-act.ec.europa.eu/dma100209-consultation-proposed-measures-google-search-data-sharing_en)  sulle modalità di condivisione dei dati relativi ai motori di ricerca di Google. A mio avviso la Commissione ha delineato un quadro tecnico che rischia di erodere le tutele di privacy degli interessati nell’Unione Europea. Sebbene l’iniziativa si inserisca nel solco della promozione della contendibilità nei mercati digitali, l’architettura delineata sembra favorire in modo improprio la fruibilità dei dataset a discapito della necessaria severità dei protocolli di anonimizzazione tecnica.

Innanzitutto, i criteri di idoneità proposti dalla Commissione non stabiliscono una soglia tecnica sufficientemente rigorosa per l’accesso al set di dati condivisi. Le entità con risorse computazionali significative — inclusi sviluppatori di IA su larga scala e operatori di motori di ricerca ben finanziati — sono in grado di eseguire sofisticati attacchi di inferenza su dati de-identificati, ricostruendo attributi utente sensibili attraverso il riconoscimento di pattern anche in assenza di identificatori espliciti. Il quadro proposto non richiede ai richiedenti di dimostrare di disporre dell’infrastruttura tecnica necessaria per prevenire tali risultati. Pertanto, l’idoneità dovrebbe essere subordinata alla presentazione di un rapporto di garanzia indipendente, preparato da una terza parte qualificata, che attesti che il richiedente ha implementato adeguate salvaguardie contro la ri-identificazione diretta e l’inferenza indiretta. Senza tale requisito, il quadro non può pretendere credibilmente di proteggere la privacy degli utenti i cui dati vengono condivisi

Considerazioni sulle Misure Proposte per l’Ambito dei Dati

Il set di dati, così come è attualmente definito, include metadati di interazione con una granularità che, a mio avviso, non è giustificata dall’obiettivo dichiarato di consentire la concorrenza nella ricerca. Segnali comportamentali come i movimenti del cursore, i pattern di scorrimento e i gesti touch non sono necessari per l’ottimizzazione degli algoritmi di ranking della ricerca. Sono, tuttavia, altamente efficaci nel generare impronte digitali comportamentali uniche che possono essere collegate ai singoli utenti attraverso sessioni e set di dati. Dal punto di vista della protezione dei dati, l’inclusione di tali segnali nell’obbligo di condivisione è difficile da conciliare con il principio di minimizzazione dei dati sancito dall’Articolo 5(1)(c) del GDPR. Raccomanderei pertanto che l’ambito dell’obbligo sia ristretto ai dati di query e ranking che sono dimostrabilmente necessari per lo scopo perseguito, e che qualsiasi futura espansione dell’ambito dei dati sia soggetta a una documentata valutazione di necessità e proporzionalità.

Considerazioni sulle Misure Proposte per l’Anonimizzazione

Lo standard di anonimizzazione proposto nel quadro attuale si basa su tecniche di filtraggio basate su parole che, a mio avviso, non sono più considerate tecnicamente adeguate nella letteratura della data science. È ben stabilito che gli individui possono essere ri-identificati da set di dati apparentemente anonimi, dove questo rischio aumenta sostanzialmente quando il set di dati è ricco dal punto di vista comportamentale come un log di interazione di ricerca. Sostengo l’applicazione di standard formali di preservazione della privacy — in particolare k-anonimato, e ove appropriato la privacy differenziale — per garantire che il set di dati condivisi non possa essere utilizzato per individuare singoli utenti. Dovrebbe anche essere chiaramente stabilito che i divieti contrattuali di ri-identificazione non costituiscono un sostituto dell’irreversibilità tecnica. Un destinatario che non tenti esplicitamente di smascherare un individuo specifico può nondimeno ricavare insight che violano la privacy attraverso l’inferenza, e ritengo essenziale che il quadro affronti questo rischio a livello tecnico piuttosto che affidarsi unicamente a impegni legali.

Considerazioni sulle Misure Proposte per i Termini di Prezzo

Il modello di prezzo proposto nel quadro attuale è, a mio avviso, inadeguato a riflettere il costo reale della condivisione dei dati di ricerca in modo che sia genuinamente conforme agli standard di privacy applicabili. Un modello basato strettamente sui costi incrementali non tiene conto dell’investimento sostanziale richiesto per progettare, implementare e mantenere continuamente le pipeline di anonimizzazione e l’infrastruttura di monitoraggio necessarie per soddisfare la soglia stabilita dal GDPR. La condivisione responsabile dei dati non è un’operazione tecnica una tantum: richiede una supervisione legale continua, un auditing regolare del comportamento dei destinatari e la capacità di rispondere rapidamente alle minacce emergenti per la privacy. Sostengo pertanto che un compenso equo debba riflettere la piena portata di questi obblighi di gestione del rischio, piuttosto che essere calcolato sulla base dei soli costi marginali di produzione dei dati.

 

Considerazioni sulle Misure Proposte per il Processo di Condivisione

 

Il quadro procedurale che regola la sospensione dell’accesso ai dati non include, a mio parere, meccanismi adeguati per rispondere alle minacce tecniche identificate dopo l’inizio della condivisione. Le condizioni in base alle quali l’accesso può essere interrotto sono attualmente limitate a circostanze amministrative — come l’insolvenza o un cambio di controllo societario — e non si estendono a situazioni in cui si scopre che un destinatario stia combinando il set di dati condivisi con fonti di dati esterne in modi che consentono la ricostruzione dei profili utente individuali. Questo è, a mio avviso, una lacuna significativa. Raccomanderei pertanto l’introduzione di un meccanismo di sospensione basato su basi tecniche, attivato da prove di attacchi di collegamento o altre forme di inferenza post-condivisione, che consenta l’interruzione immediata dei flussi di dati senza pregiudizio per qualsiasi indagine in corso. L’integrità del set di dati condivisi e la privacy degli utenti europei non possono essere adeguatamente protette da un quadro che risponde solo a eventi legali e finanziari pur rimanendo cieco alle minacce tecniche.

In conclusione, l’intersezione tra l’obbligo di condivisione dei dati imposto dall’Articolo 6(11) del DMA e il quadro protettivo del GDPR rivela una tensione strutturale che non può essere risolta con soluzioni meramente superficiali. L’effettiva realizzazione dell’obiettivo di contendibilità dei mercati digitali è subordinata alla capacità di implementare un’anonimizzazione dei dati che sia tecnicamente robusta e dogmaticamente coerente, superando l’illusione di una irreversibilità assoluta. Le criticità emerse riguardo le misure proposte dalla Commissione Europea—dall’insufficienza dei criteri di idoneità all’ambiguità degli standard di anonimizzazione e alla minimizzazione inadeguata dei dati comportamentali—sottolineano l’urgenza di un approccio che subordini l’utilizzabilità del dataset all’imperativo inderogabile della tutela della privacy, come sancito dal principio di minimizzazione. È imprescindibile integrare meccanismi procedurali basati su metriche tecniche (come la sospensione per rischio di ri-identificazione) e modelli di costo che riflettano l’onere reale della gestione continua del rischio. Solo attraverso un rigore tecnico-giuridico sistematico, l’Unione Europea potrà garantire che l’apertura dei mercati non si traduca in una erosione dei diritti fondamentali degli utenti.