És convenient compartir dades anonimitzades?
El director d'HM Hospitales ha anunciat fa poc que han posat a disposició de la comunitat científica 2.157 històries clíniques anonimitzades de pacients de COVID-19 tractats en els seus hospitals.
Una bona iniciativa que, tanmateix, ens porta a plantejar-nos un parell de qüestions:
- Si l’anonimització de dades personals o confidencials és realment una garantia per assegurar-ne la privacitat.
- Si publicar bases de dades anonimitzades és, actualment, la millor manera de contribuir al fet que la comunitat científica elabori models d’aprenentatge automàtic precisos per avançar en la recerca (en aquest cas) biomèdica.
Una base de dades anonimitzada és susceptible de patir el que es coneix com un atac de reidentificació, que consisteix a intentar traçar els registres suposadament anònims als registres d’una altra base o font de dades relacionada per extreure’n la informació confidencial. Per exemple, dos investigadors de la Universitat de Texas se les van enginyar per desanonimitzar les valoracions de pel·lícules que havien fet els usuaris de Netflix en una base de dades publicada per la companyia per a una competició dirigida a millorar el seu sistema de recomanació. La tècnica utilitzada es basava en una idea senzilla: en la base de dades de les pel·lícules, amb una enorme quantitat de camps, no hi ha gaires usuaris que puntuïn igual les mateixes pel·lícules, i ja que les valoracions d’un usuari són úniques o gairebé úniques, no hauria de ser gaire difícil identificar aquest usuari amb només una mica d’informació auxiliar obtinguda d’una altra font.
L’article explica que, en una base de dades d’alta dimensionalitat com la de Netflix, augmenta enormement la probabilitat de desanonimitzar un registre, mentre es redueix dràsticament la quantitat d’informació auxiliar requerida per fer-ho, i, a més, permet que els algoritmes de desanonimització siguin robustos davant pertorbacions o informació auxiliar incorrecta. Ho van demostrar creuant les valoracions a Netflix amb la base de dades IMDb, en què molts usuaris de Netflix havien introduït també valoracions de pel·lícules que havien vist, i van aconseguir traçar perfils d’usuaris d’IMDb, sovint amb els seus noms reals, a les seves valoracions (teòricament privades) a Netflix, i això era possible fins i tot encara que l’usuari hagués publicat a IMDb molt poques valoracions i aquestes només s’assemblessin aproximadament a les que el mateix usuari havia fet a Netflix.
MPC-Learning és un projecte cofinançat per GMV, dins de l’àrea d'R+D+I, i pel Ministeri d’Afers Econòmics i Transformació Digital, i es focalitza en tècniques matemàtiques capaces de fer càlcul numèric sense necessitat de compartir dades.
En l’àmbit mèdic, un cas popular va ser la revelació de les dades i l’historial clínic del governador de l’estat de Massachusetts, quan a una estudiant del MIT, Latanya Sweeney, se li va acudir creuar una base de dades mèdiques anonimitzades amb el cens de votants de la localitat de Cambridge, en aquell mateix estat. El cens contenia, entre altres coses, el nom, adreça, codi postal, data de naixement i sexe dels llavors 54.000 votants de la localitat, que estaven distribuïts en set codis postals. Combinant aquesta informació amb els registres de la base de dades anonimitzada, l’estudiant va ser capaç de trobar l’historial mèdic del governador amb facilitat: Només sis persones a Cambridge compartien la seva data de naixement, de les quals tres eren homes i només una, el governador, vivia en el seu codi postal. L’article “The 're-Identification' of Governor William Weld’s Medical Information” revisa aquest cas, tot i que matisa que la reidentificació va ser possible perquè el governador era un personatge públic que va patir un període d’hospitalització conegut per tothom (es va desmaiar en un acte públic i les imatges van circular per totes les cadenes de TV). No obstant això, és fàcil suposar que el mateix procediment serviria per trobar la informació d’una persona coneguda o d’algú que comparteixi massa informació personal a internet.
Per tant, hauríem de renunciar a utilitzar dades anonimitzades per a la recerca científica?
Probablement no, o encara no. Avui dia, no sembla que la reidentificació es pugui fer de manera massiva sobre tots els registres de qualsevol base de dades anonimitzada, i, tot i que hi ha multitud d’estudis que presenten casos de reidentificació en determinades circumstàncies, ningú no diria que aquesta possibilitat sigui un preu excessiu que cal pagar davant els grans avenços científics que permet l’intercanvi de bases de dades mèdiques anonimitzades. Tanmateix, sí que ens dona l'oportunitat per pensar que si volem compartir els nostres conjunts de dades per avançar en una recerca, hem d’escollir acuradament la tècnica d’anonimització, i que tot i així és possible que la privacitat no estigui garantida, o que directament la nostra base de dades no sigui apta per publicar-la anonimitzada. I malgrat tot, pot ser que en el futur hi hagi noves tècniques que revelin tota la informació que hem volgut ocultar o una part.
Per això, potser ha arribat el moment de plantejar-se apostar per altres alternatives per compartir dades; una idea que, al marge de l’anonimització, ve reforçada per la qüestió següent: No seria millor que en lloc de publicar cada hospital, grup, entitat, etc. la seva base de dades anonimitzada, anem cap a un escenari de cooperació en el qual totes aquestes entitats s’integrin en una xarxa d’aprenentatge federat? L’aprenentatge federat és un model de computació distribuït orientada a preservar la privacitat i la confidencialitat de les dades, que consisteix a portar els models (d’aprenentatge automàtic) on hi ha les dades, en lloc de treballar amb un únic conjunt d’informació geogràfica centralitzat. Això no només serviria per salvar l’obstacle de les deficiències que pot presentar l’anonimització d’una base de dades i resoldre els impediments legals de compartir dades clíniques, sinó que una col·laboració d’aquest tipus entre diverses organitzacions permetria disposar de més dades (és a dir, no només les 2.157 històries clíniques que comparteix HM Hospitales) i, per tant, obtenir models més precisos.
A causa de casos com aquests, i a l'experiència de GMV amb els seus clients, GMV sempre ha considerat la privacitat de les dades com un punt que cal tenir en compte. Tant és així que, actualment, GMV participa en el projecte MPC-Learning: aprenentatge automàtic segur i protegit mitjançant compartició de secrets. MPC-Learning és un projecte cofinançat per GMV, dins de l’àrea d'R+D+I, i pel Ministeri d’Afers Econòmics i Transformació Digital, i es focalitza en tècniques matemàtiques capaces de fer càlcul numèric sense necessitat de compartir dades.
Fes clic aquí per a més informació sobre MPC-Learning, l’alternativa de GMV
Autors: Luis Porras Díaz i Juan Miguel Auñón