Visão | Investigadores ensinam IA a criar manipulações de imagens de rostos

Investigadores ensinam IA a criar manipulações de imagens de rostos

Uma equipa da Hyperconnect de Seul ensinou um sistema de Inteligência Artificial a criar pequenos clips de vídeo manipulados, com base em apenas uma fotografia ou ilustração estática

Exame Informática

O sistema desenvolvido pela equipa de investigadores da Hyperconnect pressupõe apenas o uso de uma webcam, um rosto que irá servir de “guia” e uma fotografia ou imagem estática do rosto que se quer manipular. Com base nestes três elementos, e num mecanismo de Inteligência Artificial e aprendizagem de máquina, o sistema consegue fazer com que a imagem alvo seja animada e replique os movimentos do rosto que está a servir de guia e que estão a ser captados pela webcam. O MarioNETte promete resultados mais realistas e próximos da realidade do que as ferramentas semelhantes que existem no mercado.

O Venturebeat explica que se trata mais de uma ferramenta de reanimação e representação, que tem como objetivo sintetizar um rosto que imita o movimento de um outro (o driver). O MarioNETte inclui algumas funcionalidades que o tornam melhor do que a concorrência: um bloco de atenção à imagem, um alinhamento alvo e um transformador de paisagem. Estas três características fazem com que o modelo replique o posicionamento correto, seja mitigada a presença de artefactos ou distorções e que a manipulação seja feita com o pano de fundo em atenção, não causando quaisquer desvios.

O MarioNETte foi testado usando duas fontes de fotos e vídeos de celebridades, a VoxCeleb1 e a CelebV. Os modelos e as bases foram treinados em milhares de imagens provenientes destas fontes. Em termos empíricos, esta solução ultrapassou os modelos semelhantes, exceto o PSNR. Depois, foi pedido a 100 voluntários que escolhessem as melhores imagens (de duas apresentadas) com base na sua qualidade e realismo, com as sugestões da MarioNETte a baterem a concorrência.

Este trabalho pode abrir portas a videografos para animarem de forma barata as suas figuras, sem grande necessidade de equipamento de monitorização de movimentos. Por outro lado, pode ser usado para o “mal”, para a criação de videos deepfake com vista a enganar a população.