Uma equipa de investigadores da Universidade de Tecnologia de Nanyang, em Singapura, desenvolveu um programa capaz de criar, “rostos falantes”, ou seja, vídeos 3D de uma pessoa com expressões faciais realistas e sincronizados com um clip de áudio. O programa, designado por DIRFA – e que em português significa “Diversas mas Realistas Animações Faciais” – é baseado em inteligência artificial e requer, apenas, uma fotografia e uma faixa áudio. “Especificamente, o DIRFA modelou a probabilidade de uma animação facial, como uma sobrancelha levantada ou um nariz enrugado, com base no áudio de entrada. Esta modelação permitiu ao programa transformar a entrada de áudio em sequências de animações faciais diversas, mas altamente realistas, para orientar a geração de rostos falantes”, explicou Lu Shijian, um dos autores envolvidos no estudo.
A equipa de investigadores quis criar “rostos falantes” que exibissem uma sincronização precisa entre os movimentos dos lábios, expressões faciais e movimentos naturais da cabeça ao áudio fornecido. Isto deve-se ao facto de o áudio ter, tipicamente, uma maior associação aos movimentos naturais dos lábios, mas pouca ligação às expressões faciais e posições da cabeça.
O DIRFA foi treinado utilizando mais de um milhão de clips audiovisuais de mais de 6 mil pessoas. Dados recolhidos de uma base informática de acesso aberto – The VoxCeleb2 Dataset – de forma a que o programa tivesse capacidade para prever pistas do discurso humano e conseguisse associá-las às diferentes expressões faciais e movimentos de cabeça. Uma novidade que distingue este programa de outros semelhantes por mostrar avanços relativamente aos métodos anteriores, incapazes de combinar as diferentes posições da cabeça e emoções faciais. “A fala apresenta uma multiplicidade de variações. Os indivíduos pronunciam as mesmas palavras de forma diferente em diversos contextos, englobando variações na duração, amplitude, tom e muito mais. Além disso, para além do seu conteúdo linguístico, o discurso transmite informações ricas sobre o estado emocional do orador e fatores de identidade como o sexo, a idade, a etnia e até traços de personalidade. A nossa abordagem representa um esforço pioneiro na melhoria do desempenho do ponto de vista da aprendizagem da representação áudio na IA e na aprendizagem automática”, referiu Wu Rongliang, um dos investigadores envolvidos no estudo.
Os especialistas esperam que o mecanismo do novo programa – publicado na revista científica Pattern Recognition – possa levar a novas aplicações em várias indústrias e áreas, incluindo à área de cuidados de saúde. Um possível exemplo da sua aplicação é o auxílio a pessoas com deficiências faciais ou na fala, uma vez que pode ajudá-las a transmitir os seus pensamentos e emoções através de representações digitais e, assim, melhorar a sua capacidade de comunicação. “O impacto do nosso estudo poderá ser profundo e de grande alcance, uma vez que revoluciona o domínio da comunicação multimédia ao permitir a criação de vídeos altamente realistas de pessoas a falar, combinando técnicas como a IA e a aprendizagem automática”, explicou Shijian.
Futuramente, os investigadores da Universidade de Nanyang pretendem aperfeiçoar as expressões faciais já existentes no programa do DIRFA, adicionando-lhe mais conjuntos de dados que incluam expressões faciais e clips de áudio de voz mais variados. “Experiências exaustivas mostram que o DIRFA pode gerar rostos falantes com movimentos labiais precisos, expressões faciais vivas e poses naturais da cabeça. No entanto, estamos a trabalhar para melhorar a interface do programa, permitindo que certos resultados sejam controlados. Por exemplo, o DIRFA não permite que os utilizadores ajustem uma determinada expressão, como mudar uma carranca para um sorriso”, esclareceu Rongliang.