Sabia que Comirnaty é o nome oficial da vacina da Pfizer? Ou será que também lhe devemos chamar da BioNTech? Talvez ambas? Podemos apelidá-la de BNT162b2? Estes são cenários de pesquisa apenas para uma vacina e apenas na perspetiva de um cidadão português. A Google identificou 800 formas diferentes de como pessoas de 50 idiomas pesquisam pelas 17 vacinas da Covid-19. Mas a notícia não é tanto a descoberta em si, mas a forma como lá chegou: a tecnológica precisou de apenas “horas” para descobrir algo que antes precisaria de “semanas”. E tudo graças ao MUM, que faz a sua estreia no maior motor de busca do mundo.
O MUM (Multitask Unified Model ou modelo unificado multitarefa, em tradução livre) foi oficialmente apresentado há um mês como sendo o futuro do Google enquanto motor de busca. E a sua aplicação à forma como as pessoas pesquisam pelas vacinas da Covid-19 é a primeira grande utilização pública. O objetivo é simples: agregar todas as formas de como as pessoas podem pesquisar pelas vacinas para que, independentemente da pesquisa, sejam sempre direcionadas para fontes de informação fidedignas.
A alteração que permitiu reduzir de forma drástica o tempo necessário para encontrar as palavras-chave é simples no conceito: a equipa da área de pesquisas da Google criou uma tarefa de extração de informação relacionada com as vacinas da Covid-19 e gerou centenas de potenciais nomes que os utilizadores poderiam usar nas suas pesquisas. Tendo esta base, foi uma questão de analisar as pesquisas feitas para identificar todas as variantes que os utilizadores estavam efetivamente a usar.
“Pensámos no MUM como um grande marco histórico na nossa jornada para entender a linguagem. Ter um entendimento muito bom da linguagem é crucial para as pesquisas”, disse Pandu Nayak, vice-presidente de pesquisa da Google, num evento para a imprensa no qual a Exame Informática participou.
O grande segredo do MUM é a sua capacidade multitarefa, multilíngue e multimodal: multitarefa pois consegue realizar várias tarefas de processamento de linguagem natural – como classificação, ordenação, extração de informação, entre outras – ao mesmo tempo, o que acelera a sua aprendizagem; multilíngue porque é capaz de treinar em 75 idiomas diferentes em simultâneo, o que permite transferir conhecimento de idiomas nos quais há uma grande abundância de informação para idiomas nos quais há pouca informação disponível; e multimodal, porque além de poder ser treinado com base em texto, também pode ser treinado com base em imagens.
Além disso, o MUM é uma rede neural aprofundada construída com base em transformadores, um mecanismo de Inteligência Artificial (IA) que não analisa apenas as palavras que constituem a pesquisa do utilizador, faz também uma correlação entre a posição dessas palavras, relacionando cada palavra com as palavras que surgem antes e depois. O resultado é uma maior capacidade de interpretação de linguagem natural e, por consequência, uma maior eficácia na devolução de resultados de pesquisa.
Um aspeto curioso: a Google diz que não treina o MUM com a informação que está disponível em toda a web pública, mas num subconjunto da web pública “de alta qualidade”, explicou Pandu Nayak. “Há partes da web enviesadas, com conteúdo de baixa qualidade e conteúdo explícito, e não queremos que o MUM aprenda dessa parte. Não resolve todos os problemas, mas ajuda bastante”, acrescentou o responsável.
De olhos no futuro
Apesar da redução drástica no tempo necessário para construir resultados de pesquisa fidedignos com base num tópico que além de novo é complexo, esta demonstração pública do MUM está ainda muito longe do conceito de ‘super motor de busca’ que a Google mostrou no seu evento para programadores. Mas esse foi outro dos temas abordados por Pandu Nayak na apresentação – o MUM não é uma atualização que vai chegar do dia para a noite, é uma atualização gradual que a Google pretende aplicar no motor de busca.
A curto prazo, o MUM será aplicado em utilizações específicas, como no caso das vacinas da Covid-19, para gerar mais e melhores resultados para os utilizadores em tópicos específicos. “Isto é um exemplo de uma série de utilizações que vamos ver nos próximos meses, à medida que as equipas usam o MUM para melhorar as pesquisas”, sublinha o vice-presidente da tecnológica.
A médio prazo, é a componente multimodal que deverá sobressair. Por ser capaz de analisar imagens e relacionar imagens com texto, o MUM vai aumentar a capacidade de pesquisa visual do Google. Uma imagem de umas botas, por exemplo, poderá devolver não só resultados de botas semelhantes, mas também dizer se o ângulo de apoio daqueles botas é o indicado para a tarefa que o utilizador deseja. “Dá-nos muita confiança de que podemos fazer algo assim. É um projeto de médio prazo, mas estamos otimistas de que teremos um novo tipo de experiência multimodal”, acrescentou Pandu Nayak.
E só a longo prazo é que deverá ser concretizado o ‘sonho’ que a Google vendeu no evento de programadores: fazendo uma única pergunta ao motor de busca, temos uma resposta quase tão completa como se a tivéssemos feito a um especialista na matéria. “[Atualmente] Tens de partir a tua pesquisa em diferentes questões para ires a diferentes sites. (…) As pessoas têm necessidades complexas e formular pesquisas nem sempre é fácil. O MUM é a tecnologia que nos pode ajudar a fazer isso para conseguirmos responder a estas necessidades complexas”.
Mas o vice-presidente da Google também deixou claro: o objetivo não é tornar o Google num sistema de “respostas únicas a questões complexas”. “Não acho que isso seja muito útil. Estamos comprometidos em disponibilizar links para as páginas web, estas necessidades complexas precisam de informação aprofundada, vamos continuar a ligar os utilizadores ao conteúdo na web como temos feito no passado”.
A tecnológica endereça assim uma preocupação que surgiu nas últimas semanas de que, se o Google responder a quase tudo e com um elevado nível de profundidade, então os utilizadores deixarão de ter motivos para visitar muitas das páginas web que existem atualmente.
E para quando esta versão do Google ‘em esteróides’? “Não é [um projeto a] 20 anos, se fosse, ficaria muito desiludido”, atirou Pandu Nayak.