News
Uma falha crítica no sistema de gestão de API da Google Cloud, ocorrida a 12 de junho, provocou uma interrupção global dos serviços, afetando milhões de utilizadores devido a um erro de código no Service Control
16/06/2025
Uma falha crítica no sistema de gestão de API da Google Cloud provocou, no passado dia 12 de junho, uma interrupção global de serviços que se prolongou por cerca de sete horas, afetando milhões de utilizadores em todo o mundo. O incidente teve origem no Service Control, sistema responsável pela autorização de pedidos de API e aplicação de políticas de quotas, essencial ao funcionamento dos serviços da Google. A falha ocorreu devido a uma exceção de ponteiro nulo no código deste serviço, após a introdução de uma política com campos em branco não intencionais nas tabelas regionais do Spanner. A falha foi desencadeada por uma atualização efetuada a 29 de maio, que visava reforçar as verificações de quotas, mas que não incluía mecanismos robustos de tratamento de erros nem estava protegida por sinalizadores de recurso. “Sem esse tratamento, o ponteiro nulo causou a falha do código”, explicou a Google no relatório oficial do incidente. A equipa de Engenharia de Fiabilidade de Sites (SRE) identificou o erro em apenas dez minutos e implementou um kill switch ao fim de 40 minutos para desativar o código defeituoso. A maioria das regiões recuperou em cerca de duas horas. Durante a fase de recuperação, a sobrecarga de pedidos simultâneos ao Spanner desencadeou um “efeito manada”, agravado pela ausência de mecanismos adequados de backoff exponencial aleatório no Service Control. A Google foi forçada a limitar a criação de novas tarefas e a redirecionar tráfego para bases de dados multirregionais, a fim de aliviar a pressão sobre a infraestrutura. Entre os serviços mais afetados estiveram o Google Compute Engine, BigQuery, Cloud Storage e outras soluções críticas usadas por empresas em operações digitais diárias. |