O modelo GPT-3 da OpenAI, revelado em junho, estabeleceu um novo ‘manual’ para o segmento de geração de linguagem natural em texto, mostrando que aumentar o tamanho da rede neural e os dados de treino resultava num aumento do desempenho em várias tarefas relacionadas com linguagem. Agora, a DeepMind propõe uma nova forma de aumentar o desempenho, sem ter de aumentar o tamanho dos modelos.
A equipa começou por construir a sua versão de um modelo de linguagem, o Gopher, 60% maior do que o GPT-3. Depois, os investigadores desenvolveram um modelo mais pequeno, com a capacidade de procurar informação numa base de dados e que consegue ter um desempenho equiparado ao do Gopher e ao de outros modelos, explica o Singularity Hub. O modelo mais pequeno, RETRO, de Retrieval-Enhanced Transformer, assenta num transformador (como outros modelos de linguagem), mas tem também a capacidade de pesquisar numa base de dados com mais de dois biliões de textos para procurar por passagens semelhantes ao que está a ser escrito para conseguir realizar previsões de forma mais rápida.
A equipa revela que o RETRO, com sete mil milhões de parâmetros, consegue ter uma performance melhor do que o Jurassic-1, com 178 mil milhões de parâmetros e até do que o Gopher, com 280 mil milhões de parâmetros em algumas tarefas.
Esta abordagem exige menos treino para os algoritmos operarem e a capacidade de pesquisa ajuda o modelo a ‘explicar’ melhor como chega a determinadas conclusões. Outra grande vantagem é que os transformadores já existentes podem ser ajustados para trabalharem com uma base de dados, bastando para isso voltar a treinar uma pequena secção da rede.
A equipa da DeepMind vai continuar a trabalhar para desenvolver esta abordagem, mas para já parece ser claro de que nem sempre maior é melhor, no que à Inteligência Artificial diz respeito.