A Nvidia criou uma imagem tridimensional (3D) de ‘uma pequena rã azul sentada num nenúfar’ usando nada mais do que uma simples descrição de texto e o novo algoritmo Magic3D. O sistema inteligente conseguiu interpretar as descrições de texto e completar este modelo 3D em apenas 40 minutos, prometendo mudar a forma como são criadas cenas de efeitos especiais para filmes ou mesmo como são desenvolvidos os videojogos.
O Magic3D surge como uma resposta da Nvidia ao DreamFusion, anunciado pela Google em setembro, e que usa um modelo texto-para-imagem para gerar, em primeiro lugar, uma imagem 2D que depois é otimizada para volumetria com a NeRF (ou Neural Radiance Field). De acordo com os investigadores da Nvidia citados pelo ArsTechnica, o Magic3D usa um método que gera objetos 3D duas vezes mais rápido do que a solução da Google.
A Nvidia explica que o Magic3D demonstrou coerência, ou seja, foi capaz de manter e propor o mesmo sujeito, mesmo através de várias gerações distintas. Para já não foi divulgado qualquer código do Magic3D e não se conhecem os planos para que a Nvidia venha a tornar esta ferramenta pública.
Esta é uma nova abordagem que segue uma tendência do mercado: só em 2022 vimos surgir modelos texto-para-imagem como o DALL-E ou o Stable Diffusion, bem como soluções mais rudimentares de texto-para-vídeo da Google ou da Meta.
O Magic3D permite a qualquer utilizador criar modelos 3D, sem ter necessidade de formação especial e a Nvidia pretende que a tecnologia seja usada para acelerar o desenvolvimento de vídeos e jogos em Realidade Virtual, além de tentar colocá-la em uso para filmes ou televisão.