A Google anunciou uma nova vaga de atualizações ao Gemini 2.5, o modelo de inteligência artificial mais avançado da empresa até à data, elevando ainda mais o patamar em áreas como raciocínio complexo, multimodalidade e interatividade. Depois de ter lançado o Gemini 2.5 Pro em março e ter antecipado funcionalidades para programadores na conferência I/O, a gigante tecnológica traz agora melhorias tanto ao modelo Pro como à versão Flash, focando-se na performance, segurança e experiência de desenvolvimento.
Com um contexto de um milhão de tokens (unidades de texto como palavras ou partes de palavras que a IA usa para processar linguagem) e integração com o LearnLM (o conjunto de modelos criados com especialistas em educação), o Gemini 2.5 Pro tornou-se líder não apenas nos benchmarks académicos, mas também nos rankings WebDev Arena e LMArena, onde supera os concorrentes em tarefas de codificação e preferências humanas em diversos cenários.
A grande novidade agora é o modo Deep Think, uma funcionalidade experimental que permite ao modelo explorar múltiplas hipóteses antes de responder, reforçando as capacidades de raciocínio. Por enquanto, esta funcionalidade estará disponível apenas para testers de confiança através da Gemini API, enquanto decorrem avaliações adicionais de segurança.
Gemini 2.5 Flash mais rápido e eficiente
A versão Flash do Gemini 2.5, pensada para tarefas de alta velocidade e menor custo computacional, também recebeu uma atualização significativa. Agora é mais eficiente — reduzindo o uso de tokens em 20 a 30% — e apresenta melhor desempenho em raciocínio, multimodalidade, codificação e gestão de contexto longo. Está disponível para todos na app Gemini e será lançado oficialmente em produção a partir de junho no Google AI Studio e Vertex AI.
Interações mais humanas com áudio nativo
Outra das grandes novidades é a introdução de saída de áudio nativa, permitindo interações mais naturais e expressivas com os modelos Gemini. Os utilizadores podem ajustar o tom, o sotaque e o estilo da voz — por exemplo, pedindo uma narração dramática. Além disso, o novo sistema de texto-para-fala com múltiplos locutores suporta mais de 24 línguas e mudanças de idioma em tempo real, captando até sussurros e emoções subtis.
Funcionalidades como diálogo afetivo (em que o modelo deteta emoções na voz do utilizador), áudio proativo (que filtra ruído de fundo) e a integração da capacidade de “pensar” no Live API estão também em fase experimental.
Segurança e controlo melhorados
Com o crescimento das funcionalidades, a segurança foi uma prioridade. O Gemini 2.5 implementa agora novas salvaguardas contra injeções indiretas de prompts — ataques onde comandos maliciosos são disfarçados em dados — aumentando significativamente a proteção do modelo durante o uso de ferramentas.
Pensado para programadores: transparência e integração com ferramentas abertas
A experiência para programadores também foi reforçada. O Gemini 2.5 Pro e Flash passam a incluir resumos que organizam os raciocínios do modelo com cabeçalhos, passos e decisões, o que facilita a compreensão.
Além disso, a funcionalidade de thinking budgets permite agora controlar a quantidade de tokens usados para pensar antes de responder, ajudando a equilibrar custo, latência e qualidade — uma funcionalidade inicialmente lançada com o Flash e agora expandida ao Pro.
Há também suporte nativo para o Model Context Protocol (MCP) na Gemini API, facilitando a integração com ferramentas open-source e permitindo a construção de aplicações mais inteligentes e autónomas.