Andrew Barto e Rich Sutton, professores universitários, venceram o mais prestigiado galardão da área da Informática, o Prémio Turing, graças ao desenvolvimento de técnicas de aprendizagem por reforço, nas quais os algoritmos executam tarefas e aprendem com a experiência, mediante o feedback negativo ou positivo. A técnica pioneira ajuda os sistemas modernos de Inteligência Artificial, como o ChatGPT, a aprenderem e tornou-se popular em 2016 quando a DeepMind usou a aprendizagem por reforço para construir o AlpahGo, um programa capaz de jogar um complexo e subtil jogo de tabuleiro.
Desde então, este trabalho foi usado em diversos setores de atividade, desde o design de centros de dados, passando pelas finanças e pelo desenho de chips. Também na robótica trouxe sucesso, com as máquinas a aprenderem a executar tarefas através de tentativa e erro. Mais recentemente, as soluções são aplicadas ao treino de grandes modelos de linguagem (LLM) e trazem grandes resultados aos programas de chatbot, tornando-os capazes de ‘raciocinar’.
Sutton, no entanto, salienta que os métodos atuais têm humanos a orientar os LLM e a definir metas, em vez de ser o algoritmo a aprender puramente com a sua exploração: “A grande divisão é se [a IA] está a aprender com as pessoas ou se está a aprender com a sua própria experiência”, cita a Wired. No entanto, avanços mais recentes, como aqueles que foram feitos pela DeepSeek, têm por base apenas a aprendizagem por reforço.
Jeff Dean, vice-presidente da Google e que pertence à Association for Computing Machinery, responsável pelos Prémios Turing, afirma que o trabalho da dupla “foi essencial para o progresso da IA nas últimas décadas. As ferramentas que desenvolveram permanecem como pilar central do crescimento da IA e permitiram grandes avanços”.
Parte da inspiração para o trabalho de Sutton e Barto vem da biologia e da psicologia, nomeadamente de estudos que mostravam que o comportamento animal é formatado pelos estímulos. A dupla procurou aplicar as mesmas linhas orientadoras para a computação, incluindo ajudas para tornar o reforço de aprendizagem mais prático, métodos de graduação de políticas, uma forma nuclear para o algoritmo se comportar e diferenças temporais de aprendizagem que permitem a um modelo aprender continuadamente.