Pot guanyar la intel·ligència artificial un concurs de postals nadalenques?
Moltes empreses i organitzacions convoquen concursos de postals nadalenques entre els fills dels seus empleats, i GMV no n’és una excepció.
Tanmateix, enguany, el Departament d’Intel·ligència Artificial i Big Data (BDA) de GMV va fer un petit experiment: participar en el concurs amb una felicitació generada per un sistema d’intel·ligència artificial sense, per descomptat, coneixement del jurat. Seríem capaços d’enganyar el jurat, fent-la passar per una targeta creada per un nen? Guanyaria el concurs? Quines lliçons podríem treure de tot això?
Creant i entrenant GrinchGAN
GrinchGAN és el sistema desenvolupat per GMV per donar resposta al repte anterior. Es basa en les GAN (Generative Adversarial Networks o xarxes generatives antagòniques, en català), la idea fonamental de les quals consisteix a posar dues xarxes neuronals a competir entre si. D’una banda, una xarxa G, anomenada generadora, produeix imatges a partir de soroll, que transmet a una altra xarxa D, anomenada discriminadora, que prova de distingir si la imatge que rep és real o generada per G.
Mitjançant la repetició d’aquest procés, les dues xarxes aprenen l'una de l’altra, i obtenen d’aquesta manera un generador capaç de crear mostres totalment noves d’aparença realista, sense copiar ni barrejar les imatges d’entrenament originals. D’altra banda, el discriminador aprèn a distingir cada vegada millor les imatges reals de les generades, i força el generador a millorar els seus resultats. Aquesta idea es mostra esquematitzada en la il·lustració 1
Per desenvolupar l’experiment, s’han obtingut imatges d’entrenament de Google Images, i és suficient una mostra d’uns 800 arbres (alguns exemples es poden veure en la part superior esquerra de la il·lustració 3). Una vegada entrenada la GAN, aconseguim obtenir imatges de resolució raonable i prou semblants a arbres. Amb les imatges obtingudes, vam fer una selecció manual de les que semblaven més prometedores (part superior dreta de la il·lustració 3) i, d’aquestes, vam seleccionar la que ens semblava que podria obtenir millors resultats. Amb aquesta imatge, ja que un dels requisits és que la felicitació incorpori el logo de GMV, vam optar per escriure’l a mà amb Paint.
El pas final, al qual devem que el resultat sigui de qualitat tan alta i amb aparença de dibuix, és la utilització de la Neural Style Transfer (transferència neuronal d’estil, en català). Aquesta tècnica té per objectiu extreure l’estil i el context de dues imatges, origen i destinació, per traslladar l’estil de la imatge d’origen a la de destinació, mantenint el context d’aquesta. En la il·lustració 2 es mostra un esquema del funcionament de la tècnica. En el nostre cas, hem triat com a origen una imatge d’una edició anterior del concurs (part baixa central de la il·lustració 3) i el nostre arbre com a destinació. Separem així l’estil de l’origen (colors, textures) del context (mans) i reemplacem l’estil en la destinació, mantenint el context (arbre, logo). D’aquesta manera, obtenim la felicitació de la part central esquerra de la il·lustració 3.
I el guanyador és...
El resultat de l’experiment ha estat summament interessant, ja que cap dels jutges no va sospitar que la imatge fos fictícia, amb la qual cosa podríem afirmar que la nostra imatge generada pot competir en igualtat de condicions amb dibuixos fets per nens i, a més, que és indistingible per a un humà.
No obstant això, encara queden algunes qüestions per resoldre.
- D’una banda, la resolució, tot i que no és dolenta, és insuficient per omplir un foli A4 sense perdre qualitat.
- D'altra banda, un dels comentaris del jurat va ser que els agradaria veure el dibuix original. Això porta uns quants maldecaps, ja que no tenim la possibilitat d’imprimir la imatge amb les textures pròpies d’una imatge dibuixada amb, per exemple, aquarel·les, i per tant se’n limita la credibilitat.
Les bones notícies són que, malgrat que al jurat li agradava el dibuix, hi percebia una cosa “diferent”, que ni el mateix jurat no aconseguia explicar. O no vam filar prou fi o el dibuix d’un nen encara pot emocionar més que el de la intel·ligència artificial. Però, malgrat les limitacions exposades, la imatge va quedar en el segon lloc de la seva categoria, i va deixar clar que, ben aviat, el Grinch podria robar-los el concurs nadalenc als nens de GMV amb tan sols un ordinador i paciència.
Tot i que ens hauria agradat guanyar el concurs, l’ètica personal i professional ens imposaven certs límits que no vam voler superar. Si bé és veritat que el jurat desconeixia l’origen de la nostra targeta de felicitació, sí que vam informar la persona responsable del concurs perquè n’estigués al corrent. Lluny de prohibir-nos l’experiment, ens va animar i ens va felicitar per això. Però en tot moment estava pendent per si calia desqualificar la targeta (en cas d’haver estat escollida la guanyadora en la seva categoria).
Això, que en principi sembla un experiment innocent, ens hauria de fer reflexionar sobre el futur a curt i mitjà termini de la intel·ligència artificial, que és capaç de construir hipertrucatges cada vegada més realistes, influir en l’electorat en campanyes polítiques, i fins i tot publicar notícies falses generades amb IA. Cal regular la IA? Es pot publicar qualsevol model al públic general? Una discussió molt interessant sobre el tema en el domini dels models de llenguatge (GPT-2) es pot veure aquí.
Continuarem innovant.
Autor: Antón Makarov
[1] https://medium.com/analytics-vidhya/intuitive-explanation-of-gan-93de2dbcce85
[2] https://becominghuman.ai/creating-intricate-art-with-neural-style-transfer-e5fee5f89481