O novo modelo de difusão text-to-video da Google chama-se Lumiere e pretende criar vídeos com movimento e coerência, realistas, a partir de descrições de vídeo, numa tarefa que tem sido desafiadora para os sistemas de Inteligência Artificial.
O algoritmo descrito num estudo publicado nesta semana usa a arquitetura Space-Time U-Net para gerar toda a duração temporal do vídeo, numa só passagem, o que aumenta a coerência e fluidez face aos sistemas convencionais, explica a publicação Maginative.
Os investigadores que desenvolveram o modelo explicam que este pode vir a ser usado em cenários de imagem-para-vídeo, na pintura e máscara de certas áreas dos vídeos com base em comandos de texto, aplicar efeitos de movimento ou paragem, aumentando o estilo das criações e aplicar filtros em diferentes dimensões.
Uma limitação dos modelos atuais na aplicação do movimento prende-se com o facto de lidarem apenas com alguns fotogramas previstos e os outros serem mais ambíguos. Este modelo lida com a duração completa do vídeo de uma só passagem, o que permite contornar essa limitação e aplicar o movimento de forma mais fluída.
Veja aqui o vídeo de apresentação do estudo, publicado no YouTube.