Exame Informática | Rastreadores de Inteligência Artificial disparam consumo da Wikipedia

Rastreadores de Inteligência Artificial disparam consumo da Wikipedia

A Wikimedia revelou que o tráfego de downloads de conteúdos da Wikipedia aumentou 50% desde janeiro de 2024. O aumento não se deve a mais leitores humanos, mas sim ao comportamento de rastreadores de Inteligência Artificial

Exame Informática

O consumo de artigos da Wikipedia, a visualização de vídeos e os downloads de ficheiros da Wikimedia Commons está a atingir valores recorde. O aumento não se deve a mais leitores humanos, mas sim à atuação de rastreadores de Inteligência Artificial, ou seja, programas automatizados desenhados para ‘vasculhar’ as imagens, vídeos e artigos de várias fontes para obter dados para treinar os modelos generativos.

Os crawlers, como são conhecidos, podem mesmo levar a um deteriorar das condições de acesso para os outros utilizadores, especialmente em alturas de maior interesse público, levando a um acesso mais lento ou com falhas. “O volume de tráfego gerado pelos bots não tem precedente e apresenta riscos e custos elevados”, afirma a Wikimedia.

A fundação explica que está preparada para os padrões de consumo de utilizadores humanos, reservando caches de conteúdos no centro de dados mais próximo dos utilizadores quando deteta um pico de procura. Artigos que deixem de ser procurados passam a estar mais distantes, mas ao serem pesquisados, é necessário o consumo de mais recursos, logo mais custos, para os poderem apresentar. Os rastreadores são ‘agnósticos’ aos padrões humanos e tendem a procurar em massa, solicitando mesmo páginas mais obscuras que custam mais dinheiro e recursos para serem mostradas, explica o Engadget.

A Wikimedia estima que 65% do consumo de tráfego registado vem de bots e explica que tem uma equipa dedicada a bloquear estes rastreadores antes que estes abrandem os acessos para os restantes utilizadores.

A fundação explica que apesar de o seu conteúdo ser gratuito, a infraestrutura tem custos e está agora à procura de novas formas sustentáveis para os programadores e utilizadores poderem continuar a aceder aos conteúdos, lidando ao mesmo tempo com os rastreadores da IA.