O VoCo tem de primeiro ouvir cerca de 20 minutos de discurso de um utilizador. Depois, apresenta todo o texto escrito numa caixa. O utilizador depois pode mover as palavras de um lado para outro, apagar fragmentos ou digitar novos termos e ouvir os resultados finais. No caso de ser uma palavra que não tenha sido dita originalmente, o sistema desconstroi o discurso em pequenos fonemas e cria-a, imitando a cadência, o stress e o tom de voz, explica o ArsTechnica.
No vídeo que encontra nesta página, ao minuto 04:30 percebe-se a tentativa de construção da expressão “three times” que não se encontra no original. Apesar de soar um pouco sintético, a criação não é má de todo.
A Adobe anunciou que integrou algumas ferramentas de marca de água e de deteção para poder identificar se o áudio foi criado com este programa ou se se trata de um original, para evitar casos de fraudes ou de apropriações indevidas.
Por agora, o VoCo é um protótipo e ainda não se sabe se chegará ao mercado.
Veja a apresentação feita durante o Adobe Max 2016, publicada no YouTube.