O método usado pela equipa da Google é audiovisual e foca-se principalmente em isolar vozes em vídeos. O objetivo é replicar a forma como o cérebro humano se porta numa festa e nos faz tentar isolar o som que está a sair da boca de uma pessoa que está a falar connosco, separando-o do ambiente de fundo.
O utilizador só precisa de ter uma faixa de áudio única num vídeo. Depois, seleciona quem pretende ouvir de forma isolada e o algoritmo é capaz de proceder à separação. A Google, segundo o ArsTechnica, explica que a componente do vídeo é muito importante, uma vez que o sistema foca-se no movimento dos lábios de quem está a falar para identificar melhor a voz e criar um registo de discurso preciso.
A equipa afirma ter analisado mais de cem mil vídeos de discursos e conversas no YouTube e de ter extraído quase duas mil horas de segmentos com discuso isolado.
A tecnologia pode ser usada, por exemplo, para melhorar o reconhecimento de voz nos Google Glass ou no sistema Google Home. Veja alguns exemplos do sistema em ação.