A novidade anunciada pela Meta a 25 de outubro permite abrir caminho a chamadas de áudio e reprodução de música de elevada qualidade, mesmo em ligações mais lentas. O feito é possível devido à compressão do som poder ser feita para ficheiros até 10 vezes mais pequenos do que os MP3 a 64 kbps e sem perda de qualidade.
O trabalho desenvolvido por Alexandre Défossez, Jade Copet, Gabriel Synnaeve e Yossi Ada, da Meta AI, é descrito como um sistema de três partes, treinado para comprimir os ficheiros para um tamanho determinado e tem o título de High Fidelity Neural Audio Compression (Compressão Neuronal de Áudio de Alta Fidelidade, em tradução livre).
Em primeiro lugar, o codificador transforma os dados não comprimidos para uma representação de menor taxa de amostragem. O módulo seguinte comprime a representação para o tamanho idealizado, mantendo registo das informações mais importantes que vão ser depois usadas para reconstruir o ficheiro original. Por fim, o descodificador avança para transformar os dados comprimidos em áudio, em tempo real e usando uma rede neuronal num único CPU, explica o ArsTechnica.
O método de utilizar uma rede neuronal não é inédito, mas a equipa da Meta AI explica que é a primeira vez que tal é feito para tratar de áudio estéreo a 48 kHz, ligeiramente melhor que os CDs a 44,1 kHz, tipicamente usado para transmitir som pela Internet.
Os cenários de utilização avançados pela equipa que criou o método passam por chamadas com um som de melhor qualidade e melhor qualidade de música, mesmo em condições de pouca rede. Por outro lado, a equipa explica também que a novidade vai permitir melhores experiências no metaverso, sem aumentar os requisitos de largura de banda.
Leia a explicação completa no blogue oficial da Meta AI.