Czy warto udostępniać dane anonimowe?
Dyrektor szpitali HM poinformował niedawno, że udostępnił środowisku naukowemu 2157 anonimowych kartotek medycznych pacjentów z Covid-19 leczonych w tych szpitalach.
![Datos anonimizados](/sites/default/files/styles/image_1000/public/content/image/2020/06/17/1/datos-anonimizados.png?itok=WUT8_wOG)
To dobra inicjatywa, która jednak skłania nas do zadania sobie kilku pytań:
- Czy anonimowość danych osobowych lub poufnych jest rzeczywiście gwarancją zapewnienia prywatności.
- Czy publikowanie anonimowych baz danych jest dziś najlepszym sposobem, aby pomóc społeczności naukowej w opracowaniu dokładnych modeli uczenia maszynowego w celu przyspieszenia badań (w tym przypadku) biomedycznych.
Anonimowa baza danych jest podatna na tzw. atak reidentyfikacyjny, który polega na próbie odnalezienia powiązania pomiędzy rzekomo anonimowymi rekordami i rekordami innej powiązanej bazy danych lub źródła danych w celu uzyskania z nich poufnych informacji. Na przykład, dwóm badaczom z Uniwersytetu Teksańskiego udało się odtajnić oceny filmów wystawione przez użytkowników Netflix w bazie danych opublikowanej przez firmę na potrzeby konkursu mającego na celu poprawę systemu rekomendacji. Zastosowana technika opiera się na prostym pomyśle: w bazie danych filmów, przy ogromnej ilości pól, nie ma wielu użytkowników, którzy oceniają te same filmy w ten sam sposób, a ponieważ oceny użytkownika są unikatowe lub prawie unikatowe, zidentyfikowanie tego użytkownika za pomocą niewielkiej ilości dodatkowych informacji uzyskanych z innego źródła może nie być trudne.
W artykule wyjaśniono, że w wysokowymiarowej bazie danych, takiej jak Netflix, prawdopodobieństwo odtajnienia rekordu jest znacznie większe, podczas gdy ilość wymaganych do tego informacji pomocniczych jest drastycznie zmniejszona, a ponadto pozwala to algorytmom odtajnienia być odpornym na zakłócenia lub nieprawidłowe informacje pomocnicze. Wykazali to poprzez powiązanie ocen Netflix z bazą danych IMDb, gdzie wielu użytkowników Netflix wprowadziło oceny oglądanych filmów i udało im się prześledzić profile użytkowników IMDb, często z ich prawdziwymi nazwiskami, z ich (teoretycznie prywatnymi) ocenami w Netflix, a było to możliwe nawet jeśli użytkownik zamieścił bardzo niewiele ocen w IMDb i tylko w przybliżeniu przypominały one oceny tego samego użytkownika w Netflix.
MPC-Learning to projekt współfinansowany przez GMV, w ramach obszaru R+D+I, oraz przez Ministerstwo Gospodarki i Cyfryzacji, skupiający się na technikach matematycznych umożliwiających wykonywanie obliczeń numerycznych bez konieczności udostępniania danych.
W dziedzinie medycyny, popularnym przypadkiem było ujawnienie danych i historii medycznej gubernatora stanu Massachusetts, kiedy to studentka MIT, Latanya Sweeney, wpadła na pomysł porównania anonimowej bazy danych medycznych z listami wyborców w Cambridge w tym sstanie. Spis zawierał m.in. nazwisko, adres, kod pocztowy, datę urodzenia i płeć ówczesnych 54000 lokalnych wyborców, w podziale na siedem kodów pocztowych. Dzięki połączeniu tych informacji z danymi z anonimowej bazy danych, studentka mogła z łatwością odnaleźć historię medyczną gubernatora: Tylko sześć osób w Cambridge miało tę samą datę urodzenia, z których troje było mężczyznami, a tylko jedna, gubernator, mieszkała pod tym kodem pocztowym. Artykuł „The 'Re-Identification' of Governor William Weld's Medical Information” analizuje tę sprawę i uzasadnia, że identyfikacja była możliwa, ponieważ gubernator jest osobą publiczną, która przybywała w szpitalu — fakt ogólnie znany (zasłabł na imprezie publicznej, a zdjęcia były dostępne we wszystkich sieciach telewizyjnych). Łatwo jest jednak założyć, że ta sama procedura posłużyłaby znalezieniu informacji o znajomym lub kimś, kto udostępnia w Internecie zbyt wiele danych osobowych.
Czy powinniśmy zatem powstrzymać się od wykorzystywania anonimowych danych do badań naukowych?
Prawdopodobnie nie, albo jeszcze nie. W chwili obecnej nie wydaje się, aby ponowna identyfikacja mogła być przeprowadzana na masową skalę we wszystkich rejestrach jakiejkolwiek anonimowej bazy danych. Chociaż istnieje wiele badań, które przedstawiają przypadki ponownej identyfikacji w pewnych okolicznościach, nikt nie twierdzi, że możliwość ta jest nadmierną ceną do zapłacenia w obliczu wielkich postępów naukowych, na jakie pozwala wymiana anonimowych medycznych baz danych. Daje nam to jednak powody, by sądzić, że jeśli chcemy udostępnić nasze zbiory danych w celu przyspieszenia badań, musimy starannie wybrać technikę anonimizacji i mimo to prywatność może nadal nie być zagwarantowana lub nasza baza danych może po prostu nie nadawać się do anonimowej publikacji. Pomimo tego, w przyszłości mogą pojawić się nowe techniki, które ujawnią wszystkie lub część informacji, które chcieliśmy ukryć.
![Gobierno de España](/sites/default/files/inline-images/gobierno-de-espaa_0.png)
Dlatego być może nadszedł czas, aby rozważyć inne alternatywy dla udostępniania danych. Pomysł ten, oprócz anonimizacji, motywuje następująca kwestia: Czy nie byłoby lepiej, gdyby zamiast każdego szpitala, grupy, jednostki itp. publikującego swoją anonimową bazę danych, przejść do scenariusza współpracy, w którym wszystkie te jednostki są zintegrowane w federacyjną sieć nauczania? Federacyjne uczenie jest modelem rozproszonego przetwarzania danych mającym na celu ochronę prywatności i poufności danych, który polega na przeniesieniu modeli (uczenie maszynowe) do miejsca, w którym dane są przetwarzane zamiast pracować z jednym scentralizowanym zbiorem danych. Przyczyniłoby się to nie tylko do przezwyciężenia niedociągnięć w zakresie anonimizacji baz danych i przezwyciężenia przeszkód prawnych w udostępnianiu danych klinicznych, ale również umożliwiłoby dostęp do większej ilości danych (tj. nie tylko do 2157 rejestrów klinicznych udostępnianych przez szpitale MH), a tym samym uzyskanie dokładniejszych modeli.
Ze względu na takie przypadki oraz na własne doświadczenie GMV w kontaktach z klientami, GMV zawsze uważała, że prywatność danych to kwestia, którą należy uwzględnić. Dlatego też GMV bierze aktualnie udział w projekcie MPC-Learning: Bezpiecznie uczenie maszynowe i chronione za pomocą udostępniania tajnych danych. MPC-Learning to projekt współfinansowany przez GMV, w ramach obszaru R+D+I, oraz przez Ministerstwo Gospodarki i Cyfrzyacji, skupiający się na technikach matematycznych umożliwiających wykonywanie obliczeń numerycznych bez konieczności udostępniania danych.
Aby uzyskać więcej informacji, kliknij MPC-Learning, alternatywa GMV
Autorzy: Luis Porras Díaz i Juan Miguel Auñón