A Apple revela que os dados de treino dos modelos Apple Intelligence Foundation Language Models estão a ser processados por hardware especializado da Google, nomeadamente os aceleradores TPUv4 e TPUv5, e não com unidades gráficas da Nvidia como tem sido habitual com outras tecnológicas. Os modelos AFM (de Apple Foundation Models), quer do lado do servidor, quer do lado do dispositivo, foram desenhados para funcionar online e offline.
O modelo AFM de servidor foi treinado com 8192 chips TPUv4, com o pré-treino a passar por um processo triplo, começando com 6,3 biliões de tokens, continuando com 1 bilião e depois com um contexto com cem mil milhões de tokens. Segundo a Apple, os modelos foram treinados com informações recolhidas pelo Applebot web crawler e com bases de dados de “elevada qualidade”, noticia o Tom’s Hardware.
Já a versão AFM-on-device, ou seja, com o processamento a ser feito no lado do dispositivo, o modelo foi otimizado para ter o melhor desempenho, treinado com um modelo de três mil milhões de parâmetros que vieram dos 6,4 mil milhões de parâmetros usados para treinar a versão de servidor. Para o AFM-on-device, a Apple usou uma parte dos 2048 chips TPUv5p.
Todos estes detalhes foram confirmados pela Apple num relatório pormenorizado que foi tornado público e no qual se consegue perceber mais sobre as técnicas e tecnologias usadas para treinar os modelos do Apple Intelligence. Nos testes internos, estes modelos terão tido resultados de desempenho acima de outros modelos concorrentes em diversas tarefas.