Czy warto udostępniać dane anonimowe?

Dyrektor szpitali HM poinformował niedawno, że udostępnił środowisku naukowemu 2157 anonimowych kartotek medycznych pacjentów z Covid-19 leczonych w tych szpitalach.

Opieka zdrowotna

To dobra inicjatywa, która jednak skłania nas do zadania sobie kilku pytań:

Czy anonimowość danych osobowych lub poufnych jest rzeczywiście gwarancją zapewnienia prywatności.
Czy publikowanie anonimowych baz danych jest dziś najlepszym sposobem, aby pomóc społeczności naukowej w opracowaniu dokładnych modeli uczenia maszynowego w celu przyspieszenia badań (w tym przypadku) biomedycznych.

Anonimowa baza danych jest podatna na tzw. atak reidentyfikacyjny, który polega na próbie odnalezienia powiązania pomiędzy rzekomo anonimowymi rekordami i rekordami innej powiązanej bazy danych lub źródła danych w celu uzyskania z nich poufnych informacji. Na przykład, dwóm badaczom z Uniwersytetu Teksańskiego udało się odtajnić oceny filmów wystawione przez użytkowników Netflix w bazie danych opublikowanej przez firmę na potrzeby konkursu mającego na celu poprawę systemu rekomendacji. Zastosowana technika opiera się na prostym pomyśle: w bazie danych filmów, przy ogromnej ilości pól, nie ma wielu użytkowników, którzy oceniają te same filmy w ten sam sposób, a ponieważ oceny użytkownika są unikatowe lub prawie unikatowe, zidentyfikowanie tego użytkownika za pomocą niewielkiej ilości dodatkowych informacji uzyskanych z innego źródła może nie być trudne.

W artykule wyjaśniono, że w wysokowymiarowej bazie danych, takiej jak Netflix, prawdopodobieństwo odtajnienia rekordu jest znacznie większe, podczas gdy ilość wymaganych do tego informacji pomocniczych jest drastycznie zmniejszona, a ponadto pozwala to algorytmom odtajnienia być odpornym na zakłócenia lub nieprawidłowe informacje pomocnicze. Wykazali to poprzez powiązanie ocen Netflix z bazą danych IMDb, gdzie wielu użytkowników Netflix wprowadziło oceny oglądanych filmów i udało im się prześledzić profile użytkowników IMDb, często z ich prawdziwymi nazwiskami, z ich (teoretycznie prywatnymi) ocenami w Netflix, a było to możliwe nawet jeśli użytkownik zamieścił bardzo niewiele ocen w IMDb i tylko w przybliżeniu przypominały one oceny tego samego użytkownika w Netflix.

MPC-Learning to projekt współfinansowany przez GMV, w ramach obszaru R+D+I, oraz przez Ministerstwo Gospodarki i Cyfryzacji, skupiający się na technikach matematycznych umożliwiających wykonywanie obliczeń numerycznych bez konieczności udostępniania danych.

W dziedzinie medycyny, popularnym przypadkiem było ujawnienie danych i historii medycznej gubernatora stanu Massachusetts, kiedy to studentka MIT, Latanya Sweeney, wpadła na pomysł porównania anonimowej bazy danych medycznych z listami wyborców w Cambridge w tym sstanie. Spis zawierał m.in. nazwisko, adres, kod pocztowy, datę urodzenia i płeć ówczesnych 54000 lokalnych wyborców, w podziale na siedem kodów pocztowych. Dzięki połączeniu tych informacji z danymi z anonimowej bazy danych, studentka mogła z łatwością odnaleźć historię medyczną gubernatora: Tylko sześć osób w Cambridge miało tę samą datę urodzenia, z których troje było mężczyznami, a tylko jedna, gubernator, mieszkała pod tym kodem pocztowym. Artykuł „The 'Re-Identification' of Governor William Weld's Medical Information” analizuje tę sprawę i uzasadnia, że identyfikacja była możliwa, ponieważ gubernator jest osobą publiczną, która przybywała w szpitalu — fakt ogólnie znany (zasłabł na imprezie publicznej, a zdjęcia były dostępne we wszystkich sieciach telewizyjnych). Łatwo jest jednak założyć, że ta sama procedura posłużyłaby znalezieniu informacji o znajomym lub kimś, kto udostępnia w Internecie zbyt wiele danych osobowych.

Czy powinniśmy zatem powstrzymać się od wykorzystywania anonimowych danych do badań naukowych?

Prawdopodobnie nie, albo jeszcze nie. W chwili obecnej nie wydaje się, aby ponowna identyfikacja mogła być przeprowadzana na masową skalę we wszystkich rejestrach jakiejkolwiek anonimowej bazy danych. Chociaż istnieje wiele badań, które przedstawiają przypadki ponownej identyfikacji w pewnych okolicznościach, nikt nie twierdzi, że możliwość ta jest nadmierną ceną do zapłacenia w obliczu wielkich postępów naukowych, na jakie pozwala wymiana anonimowych medycznych baz danych. Daje nam to jednak powody, by sądzić, że jeśli chcemy udostępnić nasze zbiory danych w celu przyspieszenia badań, musimy starannie wybrać technikę anonimizacji i mimo to prywatność może nadal nie być zagwarantowana lub nasza baza danych może po prostu nie nadawać się do anonimowej publikacji. Pomimo tego, w przyszłości mogą pojawić się nowe techniki, które ujawnią wszystkie lub część informacji, które chcieliśmy ukryć.

Dlatego być może nadszedł czas, aby rozważyć inne alternatywy dla udostępniania danych. Pomysł ten, oprócz anonimizacji, motywuje następująca kwestia: Czy nie byłoby lepiej, gdyby zamiast każdego szpitala, grupy, jednostki itp. publikującego swoją anonimową bazę danych, przejść do scenariusza współpracy, w którym wszystkie te jednostki są zintegrowane w federacyjną sieć nauczania? Federacyjne uczenie jest modelem rozproszonego przetwarzania danych mającym na celu ochronę prywatności i poufności danych, który polega na przeniesieniu modeli (uczenie maszynowe) do miejsca, w którym dane są przetwarzane zamiast pracować z jednym scentralizowanym zbiorem danych. Przyczyniłoby się to nie tylko do przezwyciężenia niedociągnięć w zakresie anonimizacji baz danych i przezwyciężenia przeszkód prawnych w udostępnianiu danych klinicznych, ale również umożliwiłoby dostęp do większej ilości danych (tj. nie tylko do 2157 rejestrów klinicznych udostępnianych przez szpitale MH), a tym samym uzyskanie dokładniejszych modeli.

Ze względu na takie przypadki oraz na własne doświadczenie GMV w kontaktach z klientami, GMV zawsze uważała, że prywatność danych to kwestia, którą należy uwzględnić. Dlatego też GMV bierze aktualnie udział w projekcie MPC-Learning: Bezpiecznie uczenie maszynowe i chronione za pomocą udostępniania tajnych danych. MPC-Learning to projekt współfinansowany przez GMV, w ramach obszaru R+D+I, oraz przez Ministerstwo Gospodarki i Cyfrzyacji, skupiający się na technikach matematycznych umożliwiających wykonywanie obliczeń numerycznych bez konieczności udostępniania danych.

Aby uzyskać więcej informacji, kliknij MPC-Learning, alternatywa GMV

Autorzy: Luis Porras Díaz i Juan Miguel Auñón

Dodaj komentarz

Drukuj