Pode a inteligência artificial ganhar um concurso de postais natalícios?
Muitas empresas e organizações realizam concursos de postais natalícios entre os filhos dos seus empregados, e a GMV não é uma exceção.
No entanto, este ano o departamento de Inteligência Artificial e a Big Data (BDA) da GMV fizeram uma pequena experiência: participar no concurso com um postal de Natal gerado por um sistema de Inteligência Artificial sem conhecimento do júri, claro. Seríamos capazes de enganar o júri, fazendo-o passar por um cartão criado por uma criança? Ganharia o concurso? Que lições poderíamos retirar de tudo isto?
Criar e treinar o GrinchGAN
O GrinchGAN é o sistema desenvolvido pela GMV para dar resposta ao desafio anterior. Baseia-se nas GAN (Generative Adversarial Networks ou Redes Generativas Antagónicas, em português), cuja ideia fundamental consiste em colocar duas redes neuronais a competir entre si. Por um lado, uma rede G, chamada geradora, produz imagens a partir de ruído, que transmite a outra rede D, chamada discriminadora, que tenta distinguir se a imagem que recebe é real ou gerada por G.
Mediante a repetição deste processo, as duas redes aprendem uma da outra obtendo, deste modo, um gerador capaz de criar amostras totalmente novas de aparência realista, sem copiar nem misturar as imagens de treino originais. Por outro lado, o discriminador aprende a distinguir, cada vez melhor, as imagens reais das geradas, forçando o gerador a melhorar os seus resultados. Esta ideia apresenta-se esquematizada na Ilustração 1
Para desenvolver a experiência, obtiveram-se imagens de treino do Google Images, sendo suficiente uma amostra de umas 800 árvores (alguns exemplos podem ver-se na parte superior esquerda da Ilustração 3). Uma vez treinada a GAN, conseguimos obter imagens de resolução razoável e suficientemente parecidas com árvores. Com as imagens obtidas, fizemos uma seleção manual das que pareciam mais prometedoras (parte superior direita da Ilustração 3) e, dessas, selecionámos a que nos parecia que poderia obter melhores resultados. Com esta imagem, dado que um dos requisitos é que a felicitação incorpore o logótipo da GMV, optámos por escrever à mão com Paint.
A etapa final, à qual devemos que o resultado seja de tão alta qualidade e com aparência de desenho, é a utilização do Neural Style Transfer (Transferência Neuronal de Estilo, em português). Esta técnica tem como objetivo extrair o estilo e o contexto de duas imagens, origem e destino, para trasladar o estilo da imagem de origem à de destino, mantendo o contexto desta. Na Ilustração 2 mostra-se um esquema do funcionamento da técnica. No nosso caso, escolhemos como origem uma imagem de uma edição anterior do concurso (parte inferior central da Ilustração 3) e a nossa árvore como destino. Separamos, assim, o estilo da origem (cores, texturas) do contexto (mãos) e substituímos o estilo no destino, mantendo o contexto (árvore, logótipo). Deste modo, obtivemos o cartão de felicitações da parte central esquerda da Ilustração 3)
E o vencedor é...
O resultado da experiência foi muito interessante; uma vez que nenhum dos juízes suspeitou que a imagem fosse fictícia, com o qual poderíamos afirmar que a nossa imagem gerada pode competir em igualdade de circunstâncias com desenhos feitos por crianças e, além disso, que é indistinguível para um humano.
No entanto, ainda ficam algumas questões por resolver.
- Por um lado, a resolução, apesar de não ser má, é insuficiente para preencher uma folha A4 sem perder qualidade.
- Por outro, um dos comentários do júri foi que gostariam de ver o desenho original. Isto traz as suas próprias dores de cabeça, uma vez que não temos a possibilidade de imprimir a imagem com as texturas próprias de uma imagem desenhada com, por exemplo, aguarelas limitando, por isso, a credibilidade.
As boas notícias são que, apesar de o júri ter gostado do desenho, percebia alguma coisa “diferente”, que nem o próprio júri conseguia explicar. Ou a composição não foi suficientemente fina, ou o desenho de uma criança ainda pode emocionar mais que o da inteligência artificial. Mas, apesar das limitações expostas, a imagem ficou no segundo posto da sua categoria, deixando claro que dentro de muito pouco tempo, o Grinch poderia roubar o concurso natalício às crianças da GMV com tão-somente um computador e paciência.
Embora nós tivéssemos gostado de ganhar o concurso, a ética pessoal e profissional impunham-nos certos limites que não quisemos ultrapassar. Apesar de ser verdade que o júri desconhecia a origem do nosso cartão de felicitações, informámos a pessoa responsável pelo concurso para que estivesse ao corrente. Longe de nos proibir a experiência, animou-nos e felicitou-nos por isso. Mas o procedimento ficou sempre pendente para o caso de ser necessário desqualificar o cartão (no caso de ser escolhido como vencedor na sua categoria).
Isto, que em princípio parece uma experiência inocente, deveria fazer-nos refletir sobre o futuro a curto e médio prazo da inteligência artificial, que é capaz de construir Deep Fakes cada vez mais realistas, influenciar o eleitorado em campanhas políticas e, até mesmo, publicar notícias falsas geradas com IA. É preciso regular a IA? Pode publicar-se qualquer modelo ao público geral? Uma discussão muito interessante sobre o tema no domínio dos modelos de linguagem (GPT-2) pode ver-se aqui.
Continuaremos a inovar.
Autor: Antón Makarov
[1] https://medium.com/analytics-vidhya/intuitive-explanation-of-gan-93de2dbcce85
[2] https://becominghuman.ai/creating-intricate-art-with-neural-style-transfer-e5fee5f89481