A evolução da IA no mundo dos jogos de computador e a sua transferência para o mundo real

A aplicação da IA ao gaming não é nada novo e evoluiu muito desde os inícios dos jogos de computador.

No seu início, os adversários executavam simplesmente um conjunto de regras mais ou menos básicas e, hoje em dia, são sistemas extremamente complexos, capazes de realizar milhões de cálculos num segundo para determinar a melhor estratégia a seguir para derrotar o jogador humano.

O pico desta evolução pode estabelecer-se em 2017 quando o programa AlphaZero da DeepMind foi notícia quando aprendeu a jogar e conquistar o shogi (xadrez japonês) e o Go utilizando a aprendizagem de reforço profundo (RL profundo).

No caso de AlphaZero, o mais novo que se pode destacar é o uso, precisamente, da aprendizagem por reforço. Trata-se de uma técnica na qual não temos uma “etiqueta de saída” (entendo o conceito de etiqueta como uma classificação do resultado obtido), pelo que não é de tipo supervisionado, em que um humano vai dirigindo a aprendizagem e, apesar de estes algoritmos aprenderem por si mesmos, também não são de tipo não supervisionado, onde se tenta classificar grupos tendo em conta alguma distância entre amostras. Em contraste, no mundo real contamos com inúmeras variáveis que, no geral, se interrelacionam e que dependem de outros casos de negócio, dando lugar a cenários maiores onde tomar decisões.

Pelo contrário, nos modelos de Aprendizagem Supervisionada (ou não supervisionada) como redes neuronais, árvores, knn, etc., tenta-se “minimizar a função custo”, reduzir o erro. Contudo, no RL tenta-se “maximizar a recompensa“. E isto pode ser, apesar de cometer erros ou de não ser ótimo. Desta maneira, o RL propõe um novo enfoque para fazer com que a nossa máquina aprenda. Para isso, postula os seguintes 2 componentes:

O Agente: será o nosso modelo que queremos treinar e que aprenda a tomar decisões.
Ambiente: será o contexto onde o agente interage e se “move”. O ambiente contém as limitações e regras possíveis em cada momento.

Entre eles há uma relação que se retroalimenta e que conta com os seguintes nexos:

Ação: as possíveis ações que o Agente pode tomar num momento determinado.
Estado (do ambiente): são os indicadores do ambiente de como estão os diversos elementos que o compõem nesse momento.
Recompensas (ou castigos!): devido a cada ação tomada pelo Agente, poderemos obter um prémio ou uma penalização que orientarão o Agente sobre se está a fazer bem ou mal.

As aplicações no mundo real são muito diversas e interessantes. Por exemplo, nos braços mecânicos, em vez de mostrar a mover-se instrução a instrução, podemos deixar que faça tentativas “às cegas” e vamos recompensando quando o faz bem. Também se pode usar em ambientes que interagem com o mundo real, como noutro tipo de maquinaria industrial e para a manutenção preditiva, mas também no ambiente financeiro, como por exemplo para decidir como conformar uma carteira de investimento sem intervenção humana.

Neste sentido, relacionado de certa maneira com os sistemas de condução autónoma e simulação Sony publicou novas atualizações no seu agente de IA para Gran Turismo (GT Sophy) o qual é capaz de vencer os melhores jogadores do mundo. Este tipo de agentes representa um exemplo extremo e de estado da arte dos sistemas de IA, uma vez que os condutores devem executar manobras táticas complexas para passar ou bloquear os oponentes enquanto operam os seus veículos nos seus limites de operação.

GT Sophy recebeu treino utilizando técnicas de RL anteriormente descritas e inclui algoritmos de aprendizagem de última geração e cenários de capacitação desenvolvidos pela Sony AI, utilizando Gran Turismo Sport, um simulador de condução real, e aproveitando a infraestrutura de jogos na nuvem da SIE para o treino a grande escala.

Este tipo de sistemas de IA com treino em contextos simulados contribui para o assentamento da simulação como sistema de treino para aplicações de grande complexidade como é a condução autónoma, onde a IA tem um papel predominante nos sistemas de controlo e que, sem dúvida, podem ser extrapolados a outros contextos como são o industrial, financeiro e médico.

Autor: Ángel Cristóbal Lázaro

Adicionar novo comentário

Not show on Home

Inactiu

Imprimir