O VALL-E pode ser usado para aprender um tom de voz específico e consegue sintetizar áudio fidedigno, a dizer qualquer coisa, preservando o tom emocional da voz original. Os criadores pretendem usar o modelo para aplicações de elevada qualidade que precisem de soluções de texto-para-discurso, para edição de diálogo e para criação de conteúdos áudio, quando usados em combinação com outros modelos de IA como o GPT-3 (geração artificial de texto).
O modelo agora apresentado é descrito como um “codec neural para um modelo de linguagem” e foi construído com base na tecnologia EnCodec, anunciada pela Meta em outubro. Os codecs do VALL-E geram áudio codificado discreto com base em comandos de texto e acústicos, explica o ArsTechnica. O sistema analisa como soa qualquer voz e desconstrói essa informação em componentes designados por tokens e usa modelos de treino de dados para comparar o que ‘sabe’ sobre esta voz e como pode aplicar esse conhecimento a ‘dizer’ outras palavras e frases.
A Microsoft treinou este modelo com uma biblioteca chamada LibriLight, compilada pela Meta, e que contém discursos de mais de sete mil oradores, com mais de 60 mil horas de discursos em inglês. Para conseguir o feito de replicar a voz com uma amostra de apenas de três segundos, a voz original tem de ser bastante semelhante a uma destas vozes com que o modelo foi treinado.
O documento de apresentação da Microsoft salienta que “uma vez que o VALL-E pode ser usado para sintetizar discursos que mantêm a identidade do orador, acarreta riscos para um potencial mau uso, como a réplica de voz ou fazer-se passar por alguém. Para mitigar estes riscos, é possível construir um modelo de deteção que discrimina se um clipe de áudio foi sintetizado pelo VALL-E. Vamos também colocar em prática os Princípios de IA da Microsoft no desenvolvimento posterior dos modelos”.
Pode consultar a página do GitHub deste projeto aqui.