O Google RT-2 (de Robotics Transformer 2) é “o primeiro do modelo VLA, de vision-language-action”, conta Vincent Vanhoucke, que lidera a unidade de robótica da DeepMind. A Google pretende desenvolver robôs capazes de executar tarefas rapidamente e de forma mais eficiente, com recurso a tecnologias como as que se encontram nos chatbots da OpenAI e da própria Google.
Estes robôs são treinados com base em textos e imagens encontrados online, como acontece com o ChatGPT ou com o Bard e pretende-se que sejam capazes de concretizar ações diretamente.
Vanhoucke conta que é mais difícil usar este método de treino nos robôs do que nos chatbots, uma vez que estes precisam de compreender mesmo todos os elementos envolventes para poder executar as tarefas que lhe forem comandadas. Onde um chatbot apenas precisa de absorver grandes volumes de texto e ser capaz de os reorganizar de forma percetível, um robô precista de perceber o mundo que o rodeia. A Cnet dá o exemplo de que uma coisa é reconhecer uma maçã, outra coisa é conseguir distinguir uma maçã Red Delicious de uma bola vermelha e pegar no objeto correto.
Os métodos de treino atuais para um robô levar o lixo à rua, por exemplo, passam por ter de ensinar o que é lixo (o que envolve muitos parâmetros), ensinar os movimentos de se baixar, apanhar, levantar o braço, dobrar de novo, identificar o caixote do lixo, mover o braço robótico e largar o pedaço. No RT-2, a Google alega que este processo é mais rápido, com recurso da conjuntos de imagens encontrados online.
Durante a demonstração feita ao The New York Times, o RT-2 foi capaz de identificar rapidamente um brinquedo em forma de dinossauro, quando se lhe pediu para identificar uma espécie extinta no meio de outros ou de pegar num carro brinquedo da Volkswagen e colocá-lo junto a uma bandeira da Alemanha.
Além do investimento na Inteligência Artificial (termo repetido 140 vezes pelos responsáveis da Google na sessão de abertura de duas horas da Google I/O), a empresa pretende também apostar na robótica, segmento que deve valorizar de 30 mil milhões de dólares para os 60 mil milhões em 2030.