Problemy związane z anonimizacją danych na przykładzie przejazdów NYC Taxi

#1

Anonimizacja danych nie jest prostym problemem. Efektem tego procesu powinno być uniemożliwienie ustalenia tożsamości osoby powiązanej z danym rekordem. O ile można wyznaczyć kroki pozwalające zanonimizować pojedynczy dataset, to nie ma reguły dla datasetów, które można linkować z innymi. Przy masie informacji jaka już istnieje w sieci BigData bywa nie tylko buzzword, a rzeczywistością oznaczającą, że prawie każdą daną można powiązać z inną, co w efekcie może być dużym zagrożeniem dla prywatności.

Na wniosek o informację publiczną (FOIA request) zostały jakiś czas temu udostępnione zanonimizowane przejazdy taksówkowe w Nowym Jorku. Szybko okazało się, że przeprowadzona anonimizacja nie była wystarczająca, a najnowsze doniesienia przesuwają poprzeczkę na jeszcze wyższy poziom.

Zachęcam do lektury i komentowania: