Chamemos-lhe o ‘furacão’ DeepSeek. Ninguém conhecia, de repente passou, levando consigo quase um bilião de dólares de valor em bolsa das maiores empresas do mundo, e para trás deixa um rasto de ‘danos’ que vai demorar algum tempo até que as ‘vítimas’ possam recuperar totalmente dele. A tecnológica chinesa saltou para a ribalta do competitivo mundo da Inteligência Artificial e não foi por acaso.
O que torna, afinal, a DeepSeek e os respetivos modelos de IA tão badalados? Porque, é importante sublinhar, foram os principais visados pelo sucesso da empresa – a OpenAI e a Nvidia – os primeiros a admitirem que os modelos da empresa são “impressionantes” e um “excelente avanço de IA”.
Existe um conjunto de fatores que torna a DeepSeek num caso peculiar no segmento da Inteligência Artificial. Para começar, o facto de ser uma empresa chinesa. Isto significa que, em condições normais, a tecnológica não tem acesso aos mais recentes e mais avançados chips de processamento para tarefas de IA da Nvidia, devido aos bloqueios comerciais dos EUA, o que a coloca em desvantagem teórica quando comparado com outras grandes empresas de IA, como a OpenAI, a Anthropic, a Meta ou até mesmo a europeia Mistral.
Pode parecer um pormenor numa história maior, mas não é. Esta limitação de hardware obrigou a tecnológica a ser criativa do ponto de vista do software. E é desta criatividade que surgem as características que tornam os modelos da DeepSeek tão diferenciadores, sublinha a publicação Stratechery.
Os modelos da DeepSeek que estão a fazer furor – DeepSeek-V3 e DeeSeek-R1 – pertencem à chamada categoria dos grandes modelos de linguagem (LLM), que são capazes de interpretar e gerar texto com uma qualidade próxima à dos humanos em diferentes tópicos. Mas é preciso recuar uma geração, até ao DeepSeek-V2, para perceber os ‘ingredientes’ secretos.
Foi no DeepSeek-V2 que a tecnológica chinesa introduziu o conceito de Mixture of Experts (MoE no acrónimo em inglês, mistura de especialistas em tradução livre). Nas versões anteriores deste modelo (e de outros, como o GPT-3.5 da OpenAI), o modelo era todo ativado durante o processo de treino e de inferência (na prática, quando aplica a aprendizagem na resolução de problemas). Aquilo que as empresas começaram a perceber é que não é necessário ‘acordar’ todo o modelo de IA para executar uma grande parte das tarefas. Aquilo que o MoE permite fazer é ‘dividir’ o modelo por diferentes áreas de especialidade. Com o DeepSeek-V2, a startup chinesa criou não só caminhos de resposta especializada, mas também caminhos de resposta partilhados. Assim, um determinado pedido ativava um grupo mais pequeno de parâmetros, enquanto outro pedido ativava outro conjunto de parâmetros.
A empresa introduziu ainda outra novidade, chamada de DeepSeekMLA, ou multi-head latent attention (atenção latente múltipla, em tradução livre), que na prática permite reduzir de forma significativa a quantidade de memória que o modelo precisa na fase de inferência.
Estes foram os passos que permitiram à tecnológica, numa primeira fase, criar um LLM mais otimizado e eficiente. E com base nestes desenvolvimentos, a empresa conseguiu ainda melhores resultados de eficiência quando lançou, em dezembro de 2024, o modelo DeepSeek-V3.
Segundo dados da tecnológica, o modelo V3 tem 671 mil milhões de parâmetros, mas cada ‘especialista’ apenas ativa 37 mil milhões de parâmetros para responder aos diferentes comandos do utilizador. O que significa que é necessário muito menos poder de computação para responder aos pedidos dos utilizadores, o que torna a utilização global destes modelos mais acessível para a empresa.
Segundo a publicação técnica partilhada pela DeepSeek, treinar o modelo V3 ‘só’ precisou de 2788 mil horas de computação em gráficas Nvidia H800, o que a um custo de dois dólares por hora, significa um custo total de 5,5 milhões de dólares, cerca de cinco milhões de euros ao câmbio atual, para treinar o modelo.
Importa sublinhar aqui que este custo, apresentado pela própria DeepSeek, tem por base apenas o treino do modelo DeepSeek-V3 e não considera, por exemplo, todo o investimento que foi necessário para desenvolver o DeepSeek-V2, que está em grande medida na base da geração seguinte.
Mas segundo a análise da publicação Stratechery, esta poderá não ser a única razão para os custos inferiores dos modelos da DeepSeek.
O caso do modelo DeepSeek-R1
Se o modelo V3 começou a levantar ondas logo no final de dezembro de 2024, quando foi lançado, foi o lançamento mais recente do modelo DeepSeek-R1 que completou a transformação da startup no tal ‘furacão’. Nos testes de desempenho existentes para modelos de IA, o modelo chinês conseguiu resultados semelhantes aos modelos de referência da OpenAI (GPT-4o) e da Anthropic (Claude Sonnet-3.5).

O R1 pertence à categoria dos chamados LLM de raciocínio, isto é, que estão estruturados de forma diferente para produzir resultados de melhor qualidade em áreas como a programação, a matemática e a lógica. É como se o modelo ‘pensasse’ mais, melhor, para responder ao pedido do utilizador. E também aqui a DeepSeek aplicou uma estratégia que lhe permitiu obter resultados otimizados.
Em vez de usar técnicas de aprendizagem por reforço com feedback humano (RLHF), a técnica que tornou o ChatGPT tão popular, por cruzar a aprendizagem automática com dados oriundos de treinadores humanos, a DeepSeek decidiu usar apenas e só técnicas de aprendizagem por reforço (reinforcement learning). Mas em vez de atribuir uma única recompensa ao modelo pela resposta certa, atribuiu uma segunda, associada à escolha correta do melhor processo de ‘raciocínio’.
Isto fez com que o DeepSeek-R1 passasse mais tempo não só a criar a resposta, mas também a reavaliar a própria abordagem inicial ao problema. Mais do que instruir o modelo sobre a melhor forma de resolver o problema, deram-lhe os incentivos certos para que o descobrisse sozinho.
A publicação Stratechery sublinha que o uso de aprendizagem por reforço, apenas e só, pode lançar o segmento da Inteligência Artificial para um cenário de “descolagem” em termos de rapidez de evolução – de forma simplificada, os modelos de IA estão a ensinar-se a si próprios sobre como resolver problemas.
Processo de destilação
No mundo da Inteligência Artificial existe uma técnica chamada de destilação. Consiste no treino de um modelo de IA mais pequeno, mas com base num modelo de IA maior. Isto permite, na prática, que o modelo mais pequeno consiga aproximar-se da forma de funcionamento (e dos resultados) do modelo mais avançado, mas sendo muito mais eficiente em termos de computação e memória.
Mas para que o modelo mais pequeno possa ser treinado, é necessário criar o modelo grande. A OpenAI faz isto nos seus modelos. Por exemplo, o GPT-4 Turbo é uma destilação do GPT-4. Mas é possível (ainda que teoricamente ilegal) extrair informação de como os grandes modelos funcionam, sem ser necessário ter acesso interno a esse modelo – via interfaces de programação de aplicações (API) ou dos próprios serviços disponibilizados publicamente (a forma como o ChatGPT responde a um pedido nosso inclui ‘migalhas’ sobre a forma como essa informação foi estruturada).
Não existem provas provadas de que a DeepSeek tenha usado a técnica de destilação relativamente aos chamados modelos de fronteira de empresas como a OpenAI ou a Meta, mas existem suspeitas nesse sentido, como foi recentemente noticiado.
Por outro lado, a DeepSeek disponibiliza os modelos em código aberto, o que significa que qualquer pessoa e empresa pode pegar na base do trabalho da DeepSeek para criar os seus próprios modelos de IA. Uma abordagem que não sendo isolada (a Meta disponibiliza o modelo Llama também em open source), não é exatamente a regra das grandes empresas de Inteligência Artificial do momento.
Importa sublinhar que todas as técnicas aqui descritas não são exclusivas da DeepSeek. São, em grande medida, usadas também pelas restantes empresas de Inteligência Artificial que estão a desenvolver os chamados modelos de fronteira (nome dado aos modelos de IA mais avançados). O que nos leva novamente à questão da otimização: a diferença é que a DeepSeek fez tudo isto com constrangimentos de hardware, o que por sua vez fez com que o custo de desenvolvimento (e de operação) do sistema seja muito mais baixo do que os rivais.
E foi este momento de ‘afinal, é possível fazer semelhante com muito menos?’ que lançou, na semana passada, os mercados bolsistas numa forte quebra, por colocar numa nova perspetiva as reais necessidades de grandes empresas e projetos de IA. Ou como é dito na Stratechery, “simplesmente pagar mais à Nvidia não é o único caminho para criar melhores modelos de IA”.
Todos estes ingredientes permitiram à DeepSeek criar modelos que são semelhantes em desempenho aos modelos de referência da OpenAI (GPT-4o) e da Anthropic (Claude Sonnet-3.5).
A luta pelo domínio tecnológico da Inteligência Artificial segue dentro de momentos.