O diretor-geral de soluções para centros de dados da AMD, Forrest Nord, confirmou em entrevista que a empresa foi abordada para o desenvolvimento de um cluster com umas impressionantes 1,2 milhões de unidades de processamento gráfico (GPU). Em conversa com a publicação The Next Platform, o executivo foi questionado sobre o maior cluster de treino para ferramentas de Inteligência Artificial que pode ser construído e, primeiro, não referiu um número específico, mas depois acabou por confirmar mesmo que 1,2 milhões de GPU é possível de se colocar numa única máquina.
Atualmente, as máquinas destinadas a este fim têm alguns milhares de GPU ligadas por conectores de alta velocidade e dispersos em vários servidores. Construir algo com 1,2 milhões de GPU parece, até aqui, pouco prático, devido às exigências de latência, energia e a inevitabilidade de falhas de hardware.
À escala dos supercomputadores da atualidade, o Tom’s Hardware lembra que estas máquinas têm de mitigar falhas de hardware a cada poucas horas. Se a escala aumentar para as 1,2 milhões de unidades, é bastante provável que as falhas aconteçam com muito maior frequência. Por outro lado, o desafio passa também por conseguir uma instalação que forneça energia suficiente para alimentar esta supermáquina. Para uma comparação, o supercomputador mais rápido da atualidade, o Frontier, tem ‘apenas’ 37.888 GPU.
Forrest Nord considera que é necessário montar uma máquina com esta capacidade para poder levar as soluções de IA para o próximo nível. Nesta fase, o projeto está ainda a ser equacionado, não se sabendo se é exequível ou quando é que pode vir a ser real.