UQuery, aprofitant tota la informació clínica en benefici dels pacients
La quantitat de dades que generem ha crescut a un ritme exponencial durant els últims anys, i un dels principals contribuents a aquest fenomen és el sector sanitari. Tanmateix, cada vegada una proporció més gran d’aquesta informació és no estructurada, com són els textos. Resulta difícil que una màquina comprengui i extregui valor de manera automàtica a partir d’aquests, ja que el llenguatge humà és molt complex. Per salvar aquest escull, hi entren en joc les tecnologies de processament de llenguatge natural.
Aplicant aquesta tecnologia, i amb l’assessoria mèdica d’Azierta, GMV ha aconseguit l’estructuració de dades textuals sanitàries per facilitar l’anàlisi i l’explotació d’informació clínica de pacients amb carcinoma de cèl·lules renals (CCR), perseguint oferir-los tractaments personalitzats. Això no hauria estat possible sense la inestimable col·laboració de Joaquín Carballido Rodríguez, cap del Servei d’Urologia de l’Hospital Universitari Puerta de Hierro de Madrid d’on són procedents les dades de gairebé 600 pacients amb neoplàsies malignes renals recopilades al llarg de deu anys. Els formularis, informes i notes mèdiques s’han pogut interpretar i explotar amb tecnologies de processament natural de GMV i el coneixement del doctor i investigador Eduardo Ródenas i el seu equip.
El desenvolupament ha constat de 3 fases clarament diferenciades. Durant la primera, s’ha generat una ontologia del carcinoma de cèl·lules renals, que permet representar el coneixement pertinent sobre aquest àmbit mitjançant la definició d’entitats rellevants –símptomes, proves mèdiques, tractaments, etc.– i les interaccions entre aquestes. Es va definir, així mateix, una sèrie de conceptes rellevants els valors dels quals poden resultar d’interès (ex. escala ECOG o el nombre de plaquetes en sang).
En la segona fase, es va fer l’extracció de coneixement útil a partir dels textos, per a la qual cosa l’equip de GMV s’ha basat en uQuery, una eina de disseny propi orientada al processament del llenguatge natural. Gràcies a aquesta, es van localitzar en les dades els conceptes i patrons prèviament definits, i van poder abordar-se problemàtiques comunes associades al tractament de llenguatge natural, com són la gestió del gènere o de les negacions, molt comunes en textos mèdics. Durant aquesta fase es va buscar també assignar un context temporal a les troballes, de manera que aquestes poguessin ser ordenades posteriorment de manera cronològica. Això va implicar un dels grans reptes del projecte, sobretot per les particularitats de molts textos mèdics, com són la narració esquemàtica o la barreja de contextos temporals. Finalment, l’última va consistir a posar de relleu els resultats obtinguts mitjançant una sèrie de visualitzacions que van permetre reconstruir la cronologia de la malaltia del pacient i analitzar-la de manera més intuïtiva.
El treball realitzat buscava ampliar el coneixement global sobre el comportament dels CCR i aprofundir en la patologia per millorar l’atenció als pacients amb aquests tumors. Amb aquest projecte, GMV i Azierta, aplicant tecnologia de llenguatge natural, han proporcionat als especialistes de l’Hospital Puerta de Hierro informació de gran valor sobre: els procediments diagnòstics aplicats durant la fase d’estudi; el seu curs evolutiu al llarg d’aquests anys, l’abordatge de les diferents pautes terapèutiques en funció de les comorbiditats descrites pel mateix pacient i el seu estil de vida, entre altres coses. Amb Uquery, l’eina de processament del llenguatge natural de GMV, s’ha analitzat i explotat la informació clínica de pacients amb carcinoma de cèl·lules renals, fet que ha permès construir la cronologia de la seva malaltia i poder dur a terme nous abordatges clínics.
Autor: Paloma López de Arenosa Barbeito. Científica de Dades de la Divisió d’Intel·ligència Artificial i Big Data de GMV.