O Reddit está processando as empresas SerApi, OxyLabs, AWMProxy e Perplexity por extrair dados dos resultados de pesquisa e usá-los sem licença. tempos de Nova York relatório. O novo processo segue uma ação legal contra a startup de IA Anthropic por supostamente usar conteúdo do Reddit para treinar seu chatbot Claude.
A partir de 2023, o Reddit começará a cobrar das empresas que buscam acesso a postagens e outros conteúdos para ganhar dinheiro com dados que podem ser usados para treinar IA. A empresa também assinou acordos de licenciamento com empresas como Google e OpenAI, e até construiu seu próprio respondedor de IA para aproveitar o conhecimento das postagens dos usuários. Como a coleta de resultados de pesquisa de conteúdo do Reddit pode ajudar a evitar esses pagamentos, a empresa está buscando indenização monetária e uma liminar permanente para impedir a empresa de vender material do Reddit anteriormente copiado.
Algumas das empresas nas quais o Reddit está se concentrando, como SerApi, OxyLabs e AWMProxy, não são exatamente famosas, mas todas coletam dados de resultados de pesquisa e os vendem como parte essencial de seus negócios. Pode ficar mais claro que a Perplexidade está incluída no processo. As empresas de IA precisam de dados para treinar os seus modelos e já foram apanhadas a copiar e regurgitar material sem pagar taxas de licenciamento. Isso inclui ignorar o protocolo robots.txt, que é uma forma de os sites comunicarem que não desejam que seu material seja copiado.
por cópia terno O Reddit já enviou uma ordem de cessar e desistir ao Perplexity para parar de copiar postagens sem licença, disse uma fonte ao Engadget. Embora a empresa alegasse que não usava dados do Reddit, ela continuou a citar a plataforma nas respostas do seu chatbot. O Reddit disse que foi capaz de provar que o Perplexity estava usando conteúdo copiado do Reddit criando “postagens de teste” que “só podem ser rastreadas pelo mecanismo de busca Google e não são acessíveis em nenhum lugar da Internet”. Em poucas horas, consegui reproduzir o conteúdo da postagem por meio de uma consulta ao mecanismo de resposta do Perplexity.
“A única maneira pela qual a Perplexity poderia obter tal conteúdo do Reddit e usá-lo em seu ‘mecanismo de resposta’ seria a Perplexity e/ou seus co-réus vasculharem o Google (resultados de pesquisa) em busca de tal conteúdo do Reddit e então integrar rapidamente esses dados em seu mecanismo de respostas”, alega o processo.
Quando questionado sobre comentários, Perplexity forneceu a seguinte declaração:
Embora a Perplexity ainda não tenha entrado com uma ação judicial, sempre lutaremos ativamente pelo direito dos usuários de acessar de forma livre e justa o conhecimento público. Ao fornecer respostas factuais com IA precisa, mantemos uma abordagem responsável e baseada em princípios e não toleraremos ameaças à abertura e ao interesse público.
O novo processo é consistente com a postura agressiva que o Reddit adotou para proteger seus dados, incluindo a limitação das velocidades de bots desconhecidos e rastreadores da web em 2024 e a limitação do acesso que a Wayback Machine do Internet Archive tem ao site em agosto de 2025. A empresa também procurou definir novos termos para como os sites são rastreados, adotando o padrão Real Simple Licensing, que adiciona termos de licença ao robots.txt.