Os sistemas atuais de geração de modelos 3D a partir de texto, como o DreamFusion da Google, requerem atualmente muitas horas de processamento e recorrem a várias unidades de processamento gráfico (GPU). A OpenAI anuncia o Point-E, que faz o mesmo, mas em menos tempo e precisando apenas de uma GPU. A startup explica que o Point-E consegue gerar modelos 3D em apenas um ou dois minutos, recorrendo a uma ‘nuvem’ de pontos.
A modelação 3D é usada atualmente em várias situações, desde efeitos em filmes ou jogos, ou aplicações de Realidade Virtual ou Realidade Aumentada. Até a NASA, a Google e a Meta usam este tipo de soluções para alimentar diferentes cenários, como o mapeamento das crateras na Lua ou no metaverso. Hoje em dia, a criação de imagens tridimensionais fotorrealistas exige muito tempo e computação, mesmo com os avanços trazidos pela Nvidia ou pela Epic Games, com a RealityCapture. Assim, as soluções de texto-para-imagem conseguiram conquistar o seu espaço, com a derivação texto-para-3D a também ganhar popularidade.
O Point-E funciona, em espírito, como o DALL-E 2 da OpenAI, o DeepAI, o Lensa da Prisma Lab ou o Stable Diffusion da HuggingFace. “O nosso modelo de imagem-para-3D é treinado num conjunto de dados mais pequeno de pares (imagens e 3D)”, explica a OpenAI, citada pelo Engadget. A equipa liderada por Alex Nichol detalha que “para produzir um objeto 3D a partir de um comando de texto, primeiro produzimos uma amostra de imagem usando o modelo de texto-para-imagem, depois fazemos uma amostra de um objeto 3D condicionada pela amostra de imagem. Ambos os passos podem ser realizados em poucos segundos e não requerem processos de otimização dispendiosos”.
Estes modelos de difusão foram treinados com milhões de outros modelos 3D convertidos para um formato padrão e a equipa assume que o desempenho é pior em alguns aspetos do que as soluções de topo, mas destaca que os resultados são conseguidos numa fração do tempo.
O código para o Point-E está disponível no GitHub.