Jessica Rumbelow e Matthew Watkins são dois investigadores do grupo SERI-MATS e descobriram que há comandos que conseguem ‘avariar’ o algoritmo da OpenAI ChatGPT. Estes cientistas estavam a analisar o conjunto de tokens do ChatGPT e descobriram mais de cem combinações como ‘SolidGoldMagikarp’, ‘StreamberBot’ e ‘TheNitromeFan’ que levam o algoritmo a ter comportamentos imprevistos e, em alguns casos, pode mesmo chegar a ser ofensivo. Numa versão antiga do ChatGPT, quando lhe pediram para repetir a expressão ‘StreamerBot’, o algoritmo respondeu ‘És um parvo’.
A publicação Motherboard testou estas combinações e, ao pedir que o sistema repetisse ‘TheNitromeFan’, o algoritmo respondeu com a expressão ‘182’. Quando lhe perguntaram o que era o TheNitromeFan, o sistema respondeu ‘182 é um número, não uma pessoa. É comummente usado como referência para o número propriamente dito’.
Os investigadores explicam que “o que pensamos que aconteceu na verdade é que a tokenização, o tipo de análise de frequência que é usado para gerar os tokens para o modelo, foi treinada com dados em bruto, que incluiu bastantes coisas estranhas do Reddit, cargas que estão nos bastidores e que não são normalmente visíveis. Quando o modelo é treinado, os dados que são usados são mais curados, pelo que não aparece tanta coisa estranha. Assim, talvez o modelo nunca tenha visto estes tokens e não sabe o que fazer com eles”, afirma Rumbelow.
Watkins, por sua vez, escreveu que “acabei de descobrir que vários destes tokens anómalos do GPT são nomes de utilizadores de pessoas que estão (competitivamente? Colaborativamente?) a contar para o infinito num fórum do Reddit”. Estes nomes de utilizador estão todos numa subreddit chamada r/counting que tem mais de cinco milhões de entradas.
A causa para a ‘avaria’ do ChatGPT quando sujeito a estes nomes ainda não é conhecida, mas há a teoria de que algo tenha corrido menos bem entre o modelo de treino e a verdadeira aplicação do sistema em cenários reais. “Estamos interessados em perceber porque os modelos se comportam de forma imprevisível e particularmente alarmante quando foram explicitamente treinados de outra forma”, afirma Rumbelow.