O novo modelo de Inteligência Artificial da Nvidia dedica-se ao domínio do som e consegue, segundo a empresa, gerar sons e evocar experiências a partir de comandos de texto. Para tal, o utilizador precisa apenas de apresentar uma descrição em texto, o mais completa possível. O sistema é capaz de produzir efeitos ou faixas sonoras completas, transformar a voz de uma pessoa, mudar-lhe o sotaque ou alterar a tonalidade para mais zangada ou mais calma.
O Fugatto (Foundational Generative Audio Transformer Opus 1) consegue isolar as vozes ou instrumentos numa música, alterar melodias e produzir faixas completamente novas, afirma a tecnológica. No documento técnico que a Nvidia publicou estão elencadas as fontes das bibliotecas de sons usadas para treinar o modelo, que inclui um catálogo da BBC, entre outras.
Veja o vídeo
Os investigadores recorreram a um conjunto de dados com milhões de amostras de áudio e criaram depois as instruções que “expandem consideravelmente o âmbito de tarefas que o modelo consegue executar”, avança o The Verge.
Apesar de já existirem geradores de áudio semelhantes, como da Stability AI, da OpenAI, da Google DeepMind, da ElevenLabs ou da Adobe, este é o primeiro a alegar conseguir produzir sons nunca dantes ouvidos. Ainda não há qualquer indicação de quando é que a Nvidia vai disponibilizar esta ferramenta publicamente.