O estudo Conditional LTSM-GAN for Melody Generation from Lyrics foi publicado no Arxiv.org pela equipa de investigadores de Tóquio. Os cientistas descrevem um sistema de aprendizagem de máquina que cria músicas “condicionadas” por letras de música. O intuito é que as melodias tenham alguma relação e reflitam o estado de espírito transmitido pelas palavras da canção.
Os investigadores explicam que as notas musicais têm dois atributos: o tom, a propriedade perceptual do som que organiza a música numa escala relacionada com a frequência, e a duração, que representa o tempo durante a qual o tom é tocado. As sílabas alinham-se com as melodias nos ficheiros MIDI de faixas de música, com colunas a representar uma sílaba e a correspondente nota, duração e outros parâmetros.
Este estudo descreve a utilização de uma rede neural recorrente capaz de aprender dependências a longo prazo (LTSM) e uma rede GAN, de Generative Adversarial Network. Da relação e co-trabalho entre estas duas redes surge a capacidade de criar as melodias com base na interpretação da palavra escrita, noticia o VentureBeat.
O trabalho de investigação contemplou a análise de um conjunto de dados com 12197 ficheiros MIDI, todos com alinhamento entre letra e melodia, que foram cortados para sequências de 20 notas. A partir daí, foram analisadas 20934 sílabas únicas e 20628 palavras e extraídas as batidas por minuto para cada ficheiro.
«A geração de melodias a partir de letras na música ainda não está bem explorada (…) Ao tirar partido de técnicas de aprendizagem profunda para a geração de melodias, estamos numa área de investigação muito interessante, com o objetivo de entender as atividades humanas de criação de música», escrevem os autores.