Durante l’evento “The confounding problem of private data release” l’esperto ha proposto una possibile soluzione per proteggere i propri dati
L’Era dei Big Data richiede la fruizione di larghi ed estesi set di dati a disposizione di tutti, ma crea il potenziale rischio di violazione della privacy, se quei set di dati combinati insieme ad informazioni in rete, possono essere ricondotti a singoli privati. Le attuali tecniche di anonimizzazione spesso si rivelano inefficaci a proteggere la privacy degli individui, ma sono stati sviluppati approcci specifici per affrontare il problema. Divesh Srivastava, Responsible del Database Research at AT&T Research Labs, è intervenuto all’evento “The confounding problem of private data release” per spiegare questo delicato tema e chiarire le sfide legate ad una sua corretta gestione, proponendo anche la tecnica della “privacy differenziale” come possibile soluzione.
La giornata di approfondimento è stata parte del ciclo di incontri organizzati dal Dipartimento di Ingegneria di Roma Tre con Camera Innova, “Maker Faire di Roma – the European Edition” e con Data Driven Innovation, per trattare temi di interesse tecnologico, industriale, commerciale, finalizzati a rafforzare i rapporti con la realtà produttiva e a contribuire alla crescita e allo sviluppo dell’ecosistema regionale.
Un problema di privacy
Per comprendere le implicazioni legate alla violazione della privacy dei singoli individui, è stato fornito un esempio apparentemente innocuo: la divulgazione di set di dati anonimizzati sulle rotte dei taxi di New York, per permettere le analisi sui flussi di traffico, i tempi di percorrenza e le tariffazioni correlate alle diverse corse degli automezzi. Le implicazioni di carattere discubile si sono palesate, quando qualcuno si è preso la briga di incrociare questi dati utilizzando altre informazioni prese in rete mediante social e servizi web di pubblico accesso ed utilizzo (immagini da telecamere, immagini satellitari, servizi google maps etc). L’incrocio dei dati ha permesso di de-anonimizzare alcune informazioni e sono stati individuati dati riconducibili a personaggi pubblici, ma anche e soprattutto informazioni di carattere personale su individui privati.
In sostanza la divulgazione di set di dati inizialmente anonimizzati non impedisce implicazioni di tipo “sensitive” (sensibile inteso privato n.d.r.) per un utilizzo potenzialmente distorto quale la ricostruzione di abitudini personali, di modalità comportamentali con conseguenti verifiche e valutazioni o anche ritorsioni: ne è un esempio il caso di licenziamenti basati su informazioni di salute di dipendenti reperite da set di dati epidemiologici sulla salute della popolazione. Quindi sebbene vi siano set di dati anonimizzati utilizzati per ricerche e studi per il bene comune (salute, impatti ambientali, traffico), la de-anonimizzare e l’utilizzo dei linking attack ovvero gli attacchi che combinano i set di dati, si possono generare problemi di privacy causando danni alle persone.
Una proposta di risoluzione del problema
Quindi va risolto il problema del “private data release”. Ovviamente una prima ovvia soluzione drastica sarebbe quella di non esternare i propri dati, cosi’ non esisterebbe rischio di divulgazione, ma è abbastanza impensabile poi partecipare alla vita sociale ed ai servizi della comunità e società in cui si svolge la propria vita. E’ necessario un opportuno bilancio fra la privacy e l’uso che si puo’ fare dei set di dati. Esiste un continuo trade off.
La risposta più semplice che per molto tempo è stata utilizzata è l’anonimizzazione o la crittografia mediante codici hash. Ma a causa della interconnessione globale e della disponibilità di servizi web che permettono di verificare fatti, foto, dati è possibile combinare ed identificare con precisione anche dati personali partendo da set di dati “trattati” per impedire l’identificazione puntuale. Inoltre alcuni algoritmi di hashing sono facili da risolvere e i dati diventano agevolmente leggibili. A causa di queste prima difficoltà fu introdotta k-anonymity cioè oscuramento di una parte dei dati (come avviene per i numeri di carta di credito durante la trasmissione dei dati di pagamento n.d.r.) per rendere più complesso o impossibile il “linking attack”.
Nel 2006 si è arrivati alla semantic-anonimity per “mischiare i dati” e impedirne la ricostruzione. Infine sempre nel 2006 è stata proposta la differential privacy che consiste nell’inserire una sorta di “rumore” randomico fra i dati per impedire ancora una volta l’interpretazione del dato singolo mantenendo però il senso compiuto in termini probabilistici sulla massa generale dei dati analizzati come campione rappresentativo. La differential privacy, non è un processo reversibile, ma l’alterazione introdotta non rende inutile il set di dati, a patto che si mantenga una analisi di carattere generale sul campione, analisi che diventa inutile quando un malintezionato volesse effettuare le verifiche su elementi singoli, poichè avrebbe il dilemma di dover comprendere se siano dati veri o alterati.
Ci sono esempi di questo tipo di applicazioni da parte delle big tech company per poter usare i dati senza intaccare la privacy, evitando si possa risalire ai dati originali. Ma dovrebbe essere utilizzata, se possibile, in misura ancora maggiore. Quindi la sfida per il futuro sarà quella di modellizzare i dati verso una privacy robusta, ma che permetta ancora di analizzare e ragionare sui dati.
In chiusura l’esperto ha sottolineato come ancora le persone non si rendono conto dell’uso dei loro dati e come l’idea della “one click privacy” sia ancora lontana. Per questo motivo se il lavoro sul private data release mediante differential privacy, rende ottimisti, il bilanciamento da tenere presente è sempre quello di tenere conto dell’uso dei dati ma anche della privacy.
L’intervista
Il dott. Srivastava ci ha concesso una breve intervista per approfondire ulteriormente il suo pensiero:
Come si può evitare di diventare paranoici in relazione al problema del “private data release”?
Non bisogna assumere posizioni estreme e drastiche, ma è necessario utilizzare il buon senso valutando attentamente il trade off e scegliendo la soluzione migliore. Come singoli individui vi sono persone paranoiche anche oggi e indipendentemente dall’ ambito digitale. Per molte di queste persone se non si fa nulla, non si sbaglia mai e quindi non ci si espone mai, ma credo che sia necessario un approccio equilibrato. Naturalmente si potrebbe usare la strategia di mentire per scoraggiare usi illeciti dei propri dati, ma questo porterebbe ad altri tipi di implicazioni nell’uso lecito di quelle stesse informazioni (si pensi alle forme di pagamento mediante carta di credito. Fornita correttamente permette di pagare on line, fornita errata certamente non consente frodi, ma nemmeno di assolvere al pagamento stesso n.d.r.)
Come si possono responsabilizzare coloro che rilasciano data set pur se anonimizzati, perchè sentano la responsabilità nella distribuzione di dati e si preoccupino di proteggerli in modo appropriato da manomissioni?
Credo sia importante un approccio incentrato sulla completa trasparenza: nell’uso dei dati, verso quali entità, in che modalità. E inoltre si dovrebbero usare combinazioni di approcci: trasparenza, protezione in termini di sicurezza informatica ma anche mezzi legali e normativi e in questo senso il GDPR è un primo passo che invita a riflettere, anche sul significato da attribuire alla parola privacy.