Exame Informática

Google apresenta Gemini 2.0. O que muda no modelo de IA?

A Google revelou o Gemini 2.0, o novo modelo de Inteligência Artificial mais capaz, dedicado à era dos agentes e que tira partido de avanços na multimodalidade

Exame Informática

É com uma mensagem assinada pelo diretor executivo Sundar Pichai que a Google anuncia a chegada do Gemini 2.0, a mais recente versão do modelo de Inteligência Artifical da gigante de Mountain View que, segundo o responsável está preparada para a “nova era de agentes”.

“Com novos avanços na multimodalidade – como saída de imagem e áudio nativa – e uso de ferramentas nativas, tal irá permitir construir novos agentes de IA, o que nos vai aproximar da nossa visão de um assistente universal”, afirma Sundar Pichai em comunicado.

O Gemini 2.0 surge numa versão experimental chamada Flash, um modelo de trabalho de baixa latência e desempenho melhorado na vanguarda da tecnologia da Google em escala. O Gemini 2.0 Flash baseia-se no sucesso do 1.5 Flash, o modelo mais popular até agora entre programadores, com um desempenho superior e tempos de resposta igualmente rápidos, chegando mesmo a superar o 1.5 Pro em alguns testes importantes. O modelo suporta entradas multimodais, como imagens, vídeos e áudio, oferecendo também suporte a saídas multimodais, como imagens geradas nativamente misturadas com texto e áudio multilingue de texto para fala direcionável.

Veja o vídeo

Para ajudar os programadores a criar aplicações mais dinâmicas e interativas, a Google lança uma nova API Multimodal Live que tem entrada de áudio e streaming de vídeo em tempo real e capacidade de usar várias ferramentas combinadas.

O Gemini Flash 2.0 já está disponível como modelo experimental para programadores através da API Gemini no Google AI Studio e Vertex AI. A disponibilidade geral será em janeiro, juntamente com mais tamanhos do modelo. Para os utilizadores, já é possível aceder a uma versão otimizada para chat do Flash Experimental 2.0 no menu suspenso de modelos nas versões desktop e web mobile, chegando em breve à aplicação móvel Gemini.

Novas experiências com o Gemini 2.0

Revelado durante o evento Google I/O, o projeto Astra ambiciona criar um um assistente de IA universal. O projeto ainda está em desenvolvimento, com a empresa a avançar com vários testes. A mais recente versão tem por base o Gemini 2.0 que, segundo a Google, tem permitido melhorias em múltiplas áreas, incluindo no diálogo, nas formas de utilização, na ‘memória’ e na latência.

A tecnológica explica que está a trabalhar não só para levar as funcionalidades desenvolvidas para produtos já lançados, como a aplicação Gemini, mas também para novos formatos, como óculos inteligentes. Em breve, a Google tenciona expandir o seu programa de testes, passando a incluir mais pessoas e a experimentar o projeto Astra em protótipos de óculos.

Veja mais sobre o projeto Astra no vídeo

A par do projeto Astra, a Google está a apostar em mais iniciativas na área dos agentes com IA que recorrem ao Gemini 2.0. O projeto Mariner, por exemplo, é descrito como um protótipo de investigação inicial concebido para explorar “o futuro da interação entre humanos e agentes”, começando pelo browser. A solução será capaz de “entender e raciocinar sobre informações” no navegador online, de pixels a elementos da web, incluindo texto, código, imagens e formulários, e de usar esses dados para concluir tarefas pelo utilizador através de uma extensão para o Chrome.

Já o Jules é um “agente de código experimental” com IA que está a ser desenvolvido para ajudar programadores, podendo ser integrado num fluxo de trabalho do GitHub. A Google detalha que a solução poderá resolver problemas, assim como desenvolver planos e executá-los sob a direção e supervisão de um programador.

Mas não é tudo: a tecnológica também está a desenvolver agentes através do Gemini 2.0 para ajudar os gamers a navegarem pelos mundos virtuais dos videojogos. Com base no Genie 2, uma das soluções criadas pela Google DeepMind, estes agentes podem “raciocinar sobre o jogo com base apenas na ação no ecrã e oferecer sugestões sobre o que fazer a seguir com conversas em tempo real”, explica a empresa.