La evolución de la IA en el mundo de los videojuegos y su transferencia al mundo real

La aplicación de la IA al gaming no es nada nuevo y ha evolucionado mucho desde los inicios de los videojuegos.

En los inicios los adversarios ejecutaban simplemente un conjunto de reglas más o menos básicas y hoy en día, se tratan de sistemas extremadamente complejos que son capaces de realizar millones de cálculos en un segundo para determinar la mejor estrategia a seguir para derrotar al jugador humano.

El culmen de esta evolución se puede establecer en 2017 cuando el programa AlphaZero de DeepMind fue noticia cuando aprendió a jugar y conquistar el shogi (ajedrez japonés) y el Go utilizando el aprendizaje de refuerzo profundo (RL profundo).

En el caso de AlphaZero, lo más novedoso que se puede destacar es el uso, precisamente, del aprendizaje por refuerzo. Se trata de una técnica en la que no tenemos una “etiqueta de salida” (entiendo el concepto de etiqueta como una clasificación del resultado obtenido), por lo que no es de tipo supervisado, en los que un humano va dirigiendo el aprendizaje, y si bien estos algoritmos aprenden por sí mismos, tampoco son de tipo no supervisado, en donde se intenta clasificar grupos teniendo en cuenta alguna distancia entre muestras. En contraste, en el mundo real contamos con múltiples variables que por lo general se interrelacionan y que dependen de otros casos de negocio y dan lugar a escenarios más grandes en donde tomar decisiones.

Mientras que en los modelos de Aprendizaje Supervisado (o no supervisado) como redes neuronales, árboles, knn, etc, se intenta “minimizar la función coste”, reducir el error. En cambio en el RL se intenta “maximizar la recompensa“. Y esto puede ser, a pesar de cometer errores o de no ser óptimos. De esta manera RL propone un nuevo enfoque para hacer que nuestra máquina aprenda, para ello, postula los siguientes 2 componentes:

El Agente: será nuestro modelo que queremos entrenar y que aprenda a tomar decisiones.
Ambiente: será el entorno en donde interactúa y “se mueve” el agente. El ambiente contiene las limitaciones y reglas posibles a cada momento.

Entre ellos hay una relación que se retroalimenta y cuenta con los siguientes nexos:

Acción: las posibles acciones que puede tomar en un momento determinado el Agente.
Estado (del ambiente): son los indicadores del ambiente de cómo están los diversos elementos que lo componen en ese momento.
Recompensas (ó castigos!): a raíz de cada acción tomada por el Agente, podremos obtener un premio ó una penalización que orientarán al Agente en si lo está haciendo bien ó mal.

Las aplicaciones en el mundo real son muy diversas e interesantes, por ejemplo, en brazos mecánicos en donde en vez de enseñar instrucción por instrucción a moverse, podemos dejar que haga intentos “a ciegas” e ir recompensando cuando lo hace bien. También puede usarse en ambientes que interactúan con el mundo real, como en otro tipo de maquinaria industrial y para el mantenimiento predictivo, pero también en el ambiente financiero, por ejemplo para decidir cómo conformar una cartera de inversión sin intervención humana.

En este sentido, relacionado en cierta manera con los sistemas de conducción autónoma y simulación Sony ha publicado nuevas actualizaciones en su agente de IA para Gran Turismo (GT Sophy) el cual es capaz de vencer a los mejores jugadores del mundo. Este tipo de agentes representan un ejemplo extremo y de estado del arte de los sistemas de IA ya que los conductores deben ejecutar maniobras tácticas complejas para pasar o bloquear a los oponentes mientras operan sus vehículos en sus límites de operación.

GT Sophy recibió entrenamiento utilizando técnicas de RL anteriormente descritas e incluye algoritmos de aprendizaje de última generación y escenarios de capacitación desarrollados por Sony AI, utilizando Gran Turismo Sport, un simulador de conducción real, y aprovechando la infraestructura de juegos en la nube de SIE para el entrenamiento a gran escala.

Este tipo de sistemas de IA con entrenamiento en entornos simulados contribuyen en el asentamiento de la simulación como sistema de entrenamiento para aplicaciones de gran complejidad como es la conducción autónoma, donde la IA tiene un papel predominante en los sistemas de control y que sin duda pueden ser extrapolados a otros entornos como son el industrial, financiero y médico.

Autor: Ángel Cristóbal Lázaro

Añadir nuevo comentario

Not show on Home

Inactiu

Imprimir