L’evolució de la IA en el món dels videojocs i la seva transferència al món real
L’aplicació de la IA al gaming no és res nou i ha evolucionat molt des dels inicis dels videojocs.
En els inicis, els adversaris executaven simplement un conjunt de regles més o menys bàsiques i, avui dia, es tracten de sistemes extremadament complexos que són capaços de fer milions de càlculs en un segon per determinar la millor estratègia que cal seguir per derrotar el jugador humà.
El cim d’aquesta evolució es pot establir el 2017 quan el programa AlphaZero de DeepMind va ser notícia quan va aprendre a jugar i conquerir el shogi (escacs japonesos) i el Go utilitzant l’aprenentatge de reforç profund (RL profund).
En el cas d’AlphaZero, el més nou que es pot destacar és l’ús, precisament, de l’aprenentatge per reforç. Es tracta d’una tècnica en la qual no tenim una “etiqueta de sortida” (entenc el concepte d’etiqueta com una classificació del resultat obtingut), per la qual cosa no és de tipus supervisat, en què un humà va dirigint l’aprenentatge, i si bé aquests algoritmes aprenen per si mateixos, tampoc no són de tipus no supervisat, on s’intenta classificar grups tenint en compte alguna distància entre mostres. En contrast, en el món real disposem de múltiples variables que en general s’interrelacionen i que depenen d’altres casos de negoci i donen lloc a escenaris més grans on prendre decisions.
Mentre que en els models d’aprenentatge supervisat (o no supervisat) com ara xarxes neuronals, arbres, knn, etc., s’intenta “minimitzar la funció cost”, reduir l’error. En canvi, en l’RL s’intenta “maximitzar la recompensa“. I això pot ser, malgrat cometre errors o de no ser òptims. D’aquesta manera, RL proposa un nou enfocament per fer que la nostra màquina aprengui, per a això, postula els 2 components següents:
- L’Agent: serà el nostre model que volem entrenar i que aprengui a prendre decisions.
- Ambient: serà l’entorn on interactua i “es mou” l’Agent. L’ambient conté les limitacions i regles possibles a cada moment.
Entre ells hi ha una relació que es retroalimenta i té els nexes següents:
- Acció: les possibles accions que pot prendre en un moment determinat l’Agent.
- Estat (de l’ambient): són els indicadors de l’ambient de com estan els diversos elements que el componen en aquell moment.
- Recompenses (o càstigs!): arran de cada acció presa per l’Agent, podrem obtenir un premi o una penalització que orientaran l’Agent en si ho està fent bé o malament.
Les aplicacions en el món real són ben diverses i interessants, per exemple, en braços mecànics on en lloc d’ensenyar instrucció per instrucció a moure’s, podem deixar que faci intents “a ulls clucs” i anar recompensant quan ho fa bé. També pot utilitzar-se en ambients que interactuen amb el món real, com en un altre tipus de maquinària industrial i per al manteniment predictiu, però també en l’ambient financer, per exemple per decidir com conformar una cartera d’inversió sense intervenció humana.
En aquest sentit, relacionat en certa manera amb els sistemes de conducció autònoma i simulació, Sony ha publicat noves actualitzacions en el seu agent d’IA per a Gran Turisme (GT Sophy) que és capaç de vèncer els millors jugadors del món. Aquest tipus d’agents representen un exemple extrem i d’estat de l’art dels sistemes d’IA, ja que els conductors han d’executar maniobres tàctiques complexes per passar o bloquejar els oponents mentre operen els seus vehicles en els seus límits d’operació.
GT Sophy va rebre entrenament utilitzant tècniques d’RL anteriorment descrites i inclou algoritmes d’aprenentatge d’última generació i escenaris de capacitació desenvolupats per Sony AI, utilitzant Gran Turisme Sport, un simulador de conducció real, i aprofitant la infraestructura de jocs en núvol de SIE per a l’entrenament a gran escala.
Aquest tipus de sistemes d’IA amb entrenament en entorns simulats contribueixen en l’assentament de la simulació com a sistema d’entrenament per a aplicacions de gran complexitat com és la conducció autònoma, on la IA té un paper predominant en els sistemes de control i que, sens dubte, poden ser extrapolats a altres entorns com són l’industrial, financer i mèdic.
Autor: Ángel Cristóbal Lázaro