A Google apresentou o Imagen, um algoritmo de Inteligência Artificial que promete rivalizar com o DALL-E, o atual líder nos conversores de texto para imagens. Este tipo de geradores é uma tendência na Inteligência Artificial e consiste num sistema capaz de ler descrições em texto que lhe são alimentadas e, a partir daí, produzir imagens o mais fiéis possível, desde quadros a óleo, imagens geradas por computador ou representações realistas.
Até agora, o líder do segmento tem sido o DALL-E, da OpenAI, que tem vindo a produzir resultados com aspeto inacabado ou meio esborratados. A Google, durante a apresentação do Imagen, foi mostrando as imagens que acompanham este artigo, entre outras, que parecem ter um aspeto muito mais concretizado e realista.
No entanto, é preciso ter em consideração que se trata da apresentação pública, pelo que os investigadores devem ter feito alguma seleção e optado apenas por mostrar os melhores resultados, com a entrega média a ficar provavelmente um pouco abaixo. Ainda assim, a Google defende que o Imagen supera o DALL-E 2, baseando-se num benchmark criado para este projeto pela própria empresa, o DrawBench. Esta métrica assenta numa lista de 200 comandos de texto que a equipa da Google introduziu em vários destes geradores e com o resultado final a ser avaliado por humanos. A solução da Google venceu genericamente as preferências dos utilizadores, noticia o The Verge.
Há ainda que combater o problema da discriminação e estereotipagem que este tipo de algoritmos pode vir a perpetuar, com a Google a explicar que “o elevado volume de dados necessários para os modelos texto-para-imagem […] levou os investigadores a depender bastante em conjuntos de dados vastos, a maior parte das vezes imprecisos e não catalogados […] as auditorias mostram que estes conjuntos de dados tendem a refletir os estereótipos sociais, pontos de vista opressivos e ofensivos ou nocivos de outra forma e associados à marginalização de grupos identitários”.
Não se prevê, para já, que o Imagen seja tornado público, para evitar as más utilizações, tal como o DALL-E da OpenAI também não o é.