Em abril, autores e editores de livros protestaram contra o uso de livros protegidos por direitos autorais pela Meta para treinar IA
Notícias ao vivo de Vuk Valcic/Alamy
Bilhões de dólares estão em jogo enquanto os tribunais dos EUA e do Reino Unido decidem se as empresas de tecnologia podem legalmente treinar seus modelos de inteligência artificial em livros protegidos por direitos autorais. Autores e editores entraram com inúmeras ações judiciais sobre o assunto e, num novo desenvolvimento, os investigadores demonstraram que pelo menos um modelo de IA não só utiliza livros populares nos seus dados de formação, mas também memoriza o seu conteúdo literalmente.
Muitas disputas em andamento giram em torno de saber se os desenvolvedores de IA têm o direito legal de usar obras protegidas por direitos autorais sem primeiro solicitar permissão. Pesquisas anteriores descobriram que muitos dos grandes modelos de linguagem (LLMs) por trás dos populares chatbots de IA e outros programas generativos de IA foram treinados no conjunto de dados “Books3”, que contém quase 200.000 livros protegidos por direitos autorais, incluindo muitos livros piratas. Os desenvolvedores de IA que treinam seus modelos neste material argumentam que não estão infringindo a lei porque o LLM cospe novas combinações de palavras com base em seu treinamento, transformando em vez de replicar o trabalho protegido por direitos autorais.
Mas agora, os pesquisadores testaram vários modelos para ver quantos dados de treinamento eles podem produzir literalmente. Eles descobriram que muitos modelos não retinham o texto exato dos livros em seus dados de treinamento – mas um modelo Meta memorizou quase todo um livro específico. Se um juiz decidir contra a empresa, os pesquisadores estimam que isso poderia deixar a Meta responsável por pelo menos US$ 1 bilhão em danos.
“Isso significa, por um lado, que os modelos de IA não são apenas ‘máquinas de plágio’, como alguns sugeriram, mas também significa que eles fazem mais do que apenas aprender relações comuns entre palavras”, disse Mark Lemley na Universidade de Stanford, na Califórnia. “E o facto de as respostas variarem de modelo para modelo e de livro para livro significa que é muito difícil estabelecer regras jurídicas claras que se apliquem em todos os casos.”
Lemley defendeu anteriormente o Meta em um caso de direitos autorais de IA generativa chamado Kadrey v Meta Platforms. O autor cujo livro foi usado para treinar o modelo de IA da Meta entrou com uma ação coletiva contra a gigante da tecnologia por violação de direitos autorais. O caso ainda está sendo ouvido no Distrito Norte da Califórnia.
Em janeiro de 2025, Lemley anunciado ele abandonou a Meta como cliente, embora continue confiante de que a empresa deverá vencer o caso. Emil Vázquezum porta-voz da Meta disse que “o uso justo de material protegido por direitos autorais é fundamental” para o desenvolvimento dos modelos de IA da empresa. “Discordamos das afirmações do Requerente e o registro completo conta uma história diferente”, disse ele.
Neste novo estudo, Lemley e seus colegas testaram a capacidade de memorização de uma IA em livros, dividindo um trecho de um livreto em duas partes – o início e o fim – e verificando se o modelo solicitado com o início responderia com o final. Por exemplo, eles compartilharam uma citação do trabalho de F. Scott Fitzgerald O Grande Gatsby sendo o início “Eles são pessoas descuidadas, Tom e Daisy – eles destroem coisas e criaturas e depois recuam” e o final “voltando ao seu dinheiro ou à sua imprudência grosseira, ou seja lá o que for que os manteve juntos, e deixando outra pessoa limpar a bagunça que eles fizeram”.
Com base em suas descobertas, os pesquisadores estimaram a probabilidade de cada modelo de IA completar a citação literalmente. Em seguida, eles comparam essas probabilidades com a probabilidade do modelo de fazê-lo aleatoriamente.
Os trechos incluem trechos de texto de 36 livros protegidos por direitos autorais, incluindo títulos populares, como obras de George RR Martin. Uma Guerra dos Tronos e Sheryl Sandberg Incline-se. Os pesquisadores também examinaram trechos de livros escritos pelos demandantes no caso Kadrey v Meta Platforms.
Os pesquisadores realizaram esses experimentos em 13 modelos de IA de código aberto, incluindo modelos desenvolvidos e lançados pela Meta, Google, DeepSeek, EleutherAI e Microsoft. A maioria das empresas, exceto a Meta, não respondeu aos pedidos de comentários e a Microsoft se recusou a comentar.
O teste revelou que o modelo Llama 3.1 70B Meta havia memorizado a maior parte do primeiro livro de JK Rowling Harry Potter série, também O Grande Gatsby e romances distópicos de George Orwell 1984. A maioria dos outros modelos memorizou apenas poucos desses livros, incluindo o livro de amostra escrito pelo demandante. Meta se recusou a comentar os resultados.
Os pesquisadores estimam que um modelo de IA que viole direitos autorais em apenas 3% do conjunto de dados do Books3 poderia resultar em danos legais de quase US$ 1 bilhão – e possivelmente até mais, com base nos lucros do desenvolvedor de IA associados à violação.
A técnica poderia ser uma “boa ferramenta forense” para identificar a extensão da memória de uma IA, disse ele Randy McCarthy no escritório de advocacia Hall Estill em Oklahoma. Mas isto não determina se as empresas podem treinar legalmente os seus modelos de IA em obras protegidas por direitos de autor através das regras de “uso justo” dos EUA, uma doutrina jurídica que permite a utilização não autorizada de obras protegidas por direitos de autor em algumas circunstâncias.
McCarthy observa que as empresas de IA normalmente admitem treinar seus modelos em material protegido por direitos autorais. “A questão é: eles têm o direito de fazer isso?” ele perguntou.
Por outro lado, no Reino Unido, as descobertas mecânicas podem ser “muito significativas do ponto de vista dos direitos de autor”, disse Roberto Terra no escritório de advocacia Howard Kennedy em Londres. A lei de direitos autorais do Reino Unido segue o conceito de “negociação justa”, que oferece exceções muito mais restritas à violação de direitos autorais do que a doutrina de uso justo dos EUA. Portanto, um modelo de IA que memorize livros piratas provavelmente não se qualificará para a isenção, disse ele.
Tópico:
- inteligência artificial/
- lei