Carolina Parada, responsável de robótica da Google DeepMind, anunciou o lançamento de dois novos modelos de Inteligência Artificial que irão ajudar a trazer mais destreza a robôs e permitir-lhes executar um vasto leque de tarefas do mundo real. Os modelos conseguem perceber o contexto que os rodeia e gerar as instruções para a execução das tarefas.
O primeiro modelo é o Gemini Robotics, assente no Gemini 2.0, e tira partido de três áreas consideradas fundamentais para a robótica mais avançada: generalidade, interatividade e destreza. O modelo consegue entender o mundo que o rodeia e traduzir para comandos o que precisa de ser executado, incluindo tarefas precisas como dobrar um papel ou remover a tampa de uma garrafa. Os avanços conseguidos “permitem construir robôs mais capazes, mais responsivos e que são mais robustos às alterações no ambiente”, conta Carolina Parada.
O segundo modelo que foi anunciado é o Gemini Robotics-ER (de embodied reasoning) que a empresa descreve como um modelo de linguagem visual avançada que consegue “entender o nosso mundo complexo e dinâmico”. Por exemplo, a executiva da Google explicou que este modelo permite preparar uma lancheira com vários itens, percebendo o que está disposto na mesa, saber como agarrar os objetos, como abrir a lancheira e colocar todos os elementos. O modelo está desenhado para permitir aos criadores de robôs ligarem-no aos controladores que gerem os movimentos das máquinas.
Um outro responsável da Google, Vikas Sindhwani conta que, no que toca a segurança, a empresa está a apostar numa abordagem por camadas, adicionando que os modelos Gemini Robotics-ER estão treinados para avaliar se uma potencial ação pode ou não ser executada de forma segura no cenário, explica o The Verge.
A DeepMind está a colaborar com a Apptronik para desenvolver a próxima geração de robôs humanoides e já cedeu o acesso a estes modelos a parceiros como a Agile Robots, Agility Robotics, Boston Dynamics e Enchanted Tools.