Cloudflare se tornou o mais recente gigante da infraestrutura web a entrar em colapso no espaço de um mês, substituindo sites inteiros, incluindo X, ChatGPT, Spotify, Canva e até mesmo interrupções de rastreamento do downDetector, por mensagens de erro por horas esta manhã. Esta é a mais recente de uma série de interrupções que Mehdi Daoudi, CEO e cofundador da plataforma de monitoramento de desempenho da Internet Catchpoint, disse que deveria servir como um “alerta” para as empresas.
“Todos colocam os ovos na mesma cesta e ficam surpresos quando algo dá errado”, disse Daoudi. “Cabe às empresas garantir que tenham redundância e resiliência.”
A interrupção ocorre depois que problemas que afetam o Microsoft Azure e o Amazon Web Services ocorreram no espaço de apenas uma semana, resultando em grandes áreas da Internet que dependem de grandes provedores para manter seus sites fora do ar. Cloudflare também oferece suporte à maior parte da Internet. Ela mantém sites online com sua rede de distribuição de conteúdo, ao mesmo tempo que oferece vários outros serviços, incluindo proteção contra ataques DDoS e DNS. Ano passado, a empresa disse cerca de 20% da web passa pela rede da Cloudflare. A empresa também atende 35% das empresas Fortune 500, além de “milhões” de outros clientes.
O rápido desempenho e o histórico de segurança da Cloudflare fazem dela uma escolha popular para sites em todo o mundo, mas esta última interrupção chama a atenção para o quão concentrada a indústria de infraestrutura web se tornou. Depois que uma interrupção da AWS interrompeu o aplicativo de mensagens seguras Signal, a presidente do serviço, Meredith Whittaker, disse que a empresa não teve escolha a não ser usar um grande provedor de serviços em nuvem para executá-lo. “O baralho inteiro, praticamente, pertence a 3-4 jogadores”, escreveu ele.
“Mesmo pequenos desvios podem ter consequências enormes.”
Mas mesmo que as empresas dependam apenas de alguns fornecedores de infraestrutura web, a última série de interrupções deixa claro que precisam de um plano de backup. “Quedas de energia acontecerão aqui e continuarão a acontecer com mais frequência. O raio da explosão continuará a aumentar”, disse Daoudi. Borda. “A questão é: o que você faz a respeito?”
Embora a Microsoft e a AWS atribuam suas interrupções a problemas relacionados ao DNS – um sistema que traduz nomes de domínio de sites em endereços IP – a Cloudflare rastreou a interrupção até um único arquivo. “A causa raiz dessa interrupção foi um arquivo de configuração criado automaticamente para gerenciar o tráfego de ameaças”, disse o porta-voz da Cloudflare, Jackie Dutton. “O arquivo cresceu além do tamanho de entrada esperado e provocou uma falha no sistema de software que gerencia o tráfego de vários serviços da Cloudflare.”
Pode parecer implausível que um problema de arquivo como esse possa afetar grande parte da Internet, mas para uma empresa tão grande como a Cloudflare, isso pode acontecer. “Quando você opera uma infraestrutura na escala da Cloudflare, mesmo pequenos desvios podem ter consequências enormes”, disse Rob Lee, chefe de IA e pesquisa do SANS Institute. Borda. “A plataforma foi construída para ser rápida, portanto, qualquer coisa que atrase ou interrompa a tomada de decisões pode acontecer rapidamente. Em um ambiente de alto desempenho, atrasos de milissegundos podem causar uma parada completa no tráfego.”
De acordo com Lee, arquivos de configuração como o que Cloudflare descreve “impulsionam políticas de segurança de roteamento, decisões de balanceamento de carga e como o tráfego é distribuído globalmente”. Se o tamanho do arquivo aumentar repentinamente, “isso pode provocar análise mais lenta, problemas de memória, contenção de CPU ou falhas lógicas nos sistemas que dependem dele”, acrescentou Lee.
A AWS também culpou a “automação defeituosa” por desencadear uma série de problemas que levaram às recentes interrupções generalizadas – o tipo de erros que certamente acontecerão novamente. “Você vai reclamar disso toda vez que Cloudflare espirrar?” Daoudi disse. “Ou você vai construí-lo?”



