Vitória do AlphaGo transmitida na TV
Foto de Im Hun-jung/Yonhap/AP via Getty Images
Em março de 2016, o sistema de inteligência artificial DeepMind AlphaGo do Google chocou o mundo. Numa impressionante série de cinco jogos de Go, um antigo jogo de tabuleiro chinês, a IA derrotou o melhor jogador do mundo, Lee Sedol – um momento transmitido pela televisão para milhões de pessoas e saudado por muitos como um momento histórico no desenvolvimento da inteligência artificial.
Chris Maddisonhoje professor de inteligência artificial na Universidade de Toronto, ele era aluno de mestrado na época e ajudou a lançar o projeto. Tudo começou quando Ilya Sutskever, que mais tarde fundou a OpenAI, contatou…
Alex Wilkins: Como surgiu a ideia do AlphaGo?
Chris Maddison: Ilya (Sutskever) me deu o seguinte argumento sobre por que deveríamos trabalhar no Go. Ele disse: Chris, você acha que quando jogadores experientes olham para um tabuleiro de Go, eles podem escolher a melhor jogada em meio segundo? Se você acha que pode, isso significa que você pode aprender uma política boa o suficiente para escolher a melhor jogada usando uma rede neural.
A razão é que meio segundo é quanto tempo leva para o seu córtex visual fazer uma passagem para frente (uma rodada de processamento), e já sabemos pelo ImageNET (uma importante competição de reconhecimento de imagem de IA) que somos muito bons em prever coisas que requerem apenas um movimento para frente do seu córtex visual.
Eu acreditei nesse argumento, então decidi ingressar no (Google Brain) como estagiário no verão de 2014.
Como o AlphaGo cresceu a partir daí?
Quando entrei, havia outra pequena equipe na DeepMind com quem eu iria trabalhar, nomeadamente Aja Huang e David Silver, que já haviam começado a trabalhar no Go. Basicamente era minha responsabilidade começar a construir a rede neural. Foi um sonho.
Tentamos muitas abordagens diferentes, e muitas das abordagens iniciais que tentamos falharam. Por fim, fiquei frustrado e tentei a coisa mais estúpida e simples, que era tentar prever o próximo movimento que um especialista em uma determinada posição no tabuleiro faria, treinando uma rede neural em uma grande coleção de jogos especializados. E acontece que essa abordagem foi o que realmente nos fez crescer.
No final do verão, tivemos uma pequena partida com Thore Graepel, do DeepMind, que se considera um bom jogador de Go, e minha rede o venceu. A DeepMind então começou a acreditar que isso seria algo real e começou a investir recursos para que isso acontecesse e a construir uma grande equipe para que isso acontecesse.
Quão difícil é derrotar Lee Sedol?
Lembro-me que no verão de 2014 praticamente tínhamos um retrato de Lee Sedol na mesa ao nosso lado. Não sou jogador de Go, mas sim Aja (Huang). Cada vez que eu construía uma nova rede, ela ficava um pouco melhor, e eu me voltava para Aja e dizia: OK, estamos um pouco melhores, quão próximos estamos de Lee Sedol? E Aja se virava para mim e dizia: Chris, você não entende. Lee Sedol é uma pedra de Deus.
Você deixou a equipe AlphaGo antes de um grande evento. Por que?
David (Silver) disse que queremos mantê-lo e realmente levar este projeto para o próximo nível e, pensando bem, essa foi provavelmente uma das decisões estúpidas que tomei, recusei. Eu disse que achava que precisava focar no meu doutorado, eu era um acadêmico. Voltei ao meu doutorado e tenho prestado consultoria sobre o projeto desde então. Tenho um pouco de orgulho em dizer que demoraram um pouco para vencer minha rede neural. Mas no final das contas, o artefato que interpreta Lee Sedol é resultado de um enorme esforço de engenharia e de uma grande equipe.
Como era a atmosfera em Seul quando o AlphaGo venceu?
Estar em Seul naquela época é difícil de expressar em palavras. Foi muito emocionante. Foi muito intenso. Surge um sentimento de ansiedade. Você entra com confiança, mas nunca se sabe. É como um jogo de esportes. Estatisticamente, você é o melhor jogador, mas nunca sabe como isso vai acabar. Lembro-me de estar no hotel onde estávamos jogando e olhando pela janela. Estamos em um nível alto o suficiente para que você possa contemplar um dos principais cruzamentos da cidade. Notei que havia um telão, como o da Times Square, mostrando nosso jogo. E então olhei para a calçada e as pessoas estavam alinhadas olhando para as telas. Já ouvi números como centenas de milhões de pessoas na China assistindo ao primeiro jogo, mas lembro-me daquele momento em que pensei, meu Deus, realmente paramos o Leste Asiático.
Qual a importância do AlphaGo para IA em geral?
Muita coisa mudou superficialmente no mundo dos grandes modelos de linguagem (LLM), eles agora são muito diferentes do AlphaGo, mas na verdade existem linhas de tecnologia subjacentes que não mudaram.
Portanto, a primeira parte do algoritmo é treinar uma rede neural para prever o próximo movimento. Os LLMs atuais começam com o que chamamos de pré-treinamento para prever a próxima palavra, a partir de um grande corpus de textos humanos encontrados principalmente na internet.
Para a segunda etapa do AlphaGo, pegamos informações do corpus humano compactado nesta rede neural e as ajustamos usando aprendizado por reforço, para ajustar o comportamento do sistema em direção ao objetivo de vencer o jogo.
Quando você aprende a prever o próximo movimento com um especialista, ele está tentando vencer, mas isso não é a única coisa que explica o próximo movimento. Talvez eles não entendam qual é a melhor jogada, talvez tenham cometido um erro, então você precisa alinhar todo o sistema com o seu verdadeiro objetivo, que no caso do AlphaGo é vencer.
Em grandes modelos de linguagem, o mesmo acontece após o pré-treinamento. A rede não estava alinhada com a forma como queríamos usá-la, então realizamos uma série de etapas de aprendizado por reforço que alinharam a rede com nossos objetivos.
De certa forma, não mudou muita coisa.
O que isso nos diz sobre onde podemos esperar o sucesso da IA?
Isto tem consequências em termos daquilo em que escolhemos focar. Se você está preocupado em progredir em questões importantes, os principais obstáculos com os quais você deve se preocupar são se você tem dados suficientes para fazer o pré-treinamento e se tem os sinais de recompensa para fazer o pós-treinamento. Se você não tiver esses ingredientes, nenhuma quantidade de inteligência – você sabe, esse algoritmo versus aquele algoritmo – irá ajudá-lo.
Você sente simpatia por Lee Sedol?
Lee Sedol se tornou seu ídolo durante o verão de 2014, uma conquista inatingível. De repente, estar ali pessoalmente, assistir ao jogo, o estresse, a ansiedade, a percepção de que seu oponente valia muito mais do que ele imaginava, foi estressante. Você não quer colocar alguém nessa posição. Quando perdeu o jogo, ele pediu desculpas à humanidade e disse: “Este foi um fracasso meu, não seu”. Isso é realmente trágico.
Também existe um costume no Go de revisar a partida com o adversário. Existem vitórias ou derrotas, mas você analisa o jogo no final, desenrola o jogo e explora variações entre si. Lee Sedol não pôde fazer isso porque AlphaGo não era humano, então ele pediu a seus amigos que viessem revisar a partida, mas não foi a mesma coisa. Há algo de doloroso nisso.
Mas não aprecio toda a narrativa homem versus máquina em torno do jogo, porque uma equipe de pessoas construiu o AlphaGo. Foi a tentativa de uma tribo de construir um artefato que pudesse alcançar superioridade no jogo humano. No final, é o artefato onde vão todo o nosso sangue, suor e lágrimas.
Você acha que ainda há lugar para os humanos no mundo porque a IA é capaz de completar mais trabalho do pensamento humano?
Aprendemos mais sobre o jogo Go, e se achamos que o jogo é lindo, é isso que fazemos, e a IA pode nos ensinar mais sobre essa beleza, há muitas coisas boas nisso. Existe uma diferença entre metas e objetivos. O objetivo do jogo Go é vencer, mas esse não é o único objetivo – um dos objetivos é se divertir. Os jogos de tabuleiro não são destruídos pela presença da IA; o xadrez é uma indústria em crescimento. Continuamos a apreciar a intriga e as conquistas humanas do esporte.
Tópico:



