O Nó Gargalo Identificado Antes que o Tráfego Chegue
Centralidade de Betweenness
Para cada par de nós em um gráfico, existe um caminho mais curto entre eles. A centralidade de betweenness de um nó N = a fração de todos os caminhos mais curtos que passam por N.
Um nó com alta centralidade de betweenness está no caminho entre muitos outros pares. Se ele demorar, muitos fluxos demoram. Se ele falhar, muitos fluxos quebram.
Leitura arquitetural: nós com alta centralidade de betweenness são os que cada revisão arquitetural deve prestar atenção especial. Eles são gargalos, pontos de falha única (SPOFs) e componentes de capacidade em um. Eles tendem a ser:
- O provedor DNS (entre cada cliente e cada serviço)
- O proxy de entrada (entre cada cliente e cada back-end)
- A primária do banco de dados (entre cada back-end e cada leitura)
- O serviço de autenticação (entre cada usuário e cada ação autorizada)
Detecção sem medição: a topologia do gráfico identifica sozinha os nós com alta centralidade de betweenness. Você não precisa de dados de tráfego; você precisa do diagrama de arquitetura. Um nó que esteja entre muitos outros pares é criticamente estrutural.
Consequência operacional: nós com alta centralidade de betweenness merecem investimento desproporcional em (1) espaço de capacidade, (2) redundância, (3) observabilidade e (4) planilhas de resposta a incidentes.
O Menor Corte Desconecta a Menor Fatia
Teorema do Corte Mínimo em Termos Fáceis de Compreender
O corte mínimo entre dois nós em um gráfico = o menor número de edges (ou nós) que você deve remover para desconectá-los.
Leitura operacional: os limites de corte mínimo limitam o raio de explosão com o pior caso. Se o corte mínimo entre 'clients' & 'database' for 1 borda (uma única proxy), então a perda dessa borda desconecta todos os clientes do banco de dados. Se o corte mínimo for 5, você precisa perder 5 componentes simultaneamente para desconectar totalmente; azar, mas limitado.
Projeto para raio de explosão: aumente o corte mínimo em todas as fronteiras importantes. Múltiplos proxies; múltiplos nós de cache; múltiplos caminhos de rede entre DCs. Cada adição eleva o corte mínimo em 1.
O padrão de bulkhead em termos de gráfico: particione recursos em sub-gráficos separados que não compartilham nenhum corte mínimo entre si. Uma falha dentro de um sub-gráfico não pode se propagar aos outros porque as bordas não existem.
Conjuntos de diâmetro definem a distância de propagação de falhas
Diâmetro do gráfico = o caminho mais longo mais curto entre qualquer dois nós.
Propagação de falhas: quando um nó falha & as tentativas de fluxo são devolvidas, eles tocam nós upstream até a distância de diâmetro. Um sistema de diâmetro-3 (cliente -> proxy -> backend -> DB) significa que uma falha no DB afeta 3 camadas upstream em uma tempestade de retenção.
Implicação: diâmetro mais curto = contenção de falhas mais rápida, mas também mais concentração de nós. Cada design tem seu equilíbrio.
Compute Min-Cut for a Real Architecture
An architecture: 1 DNS, 1 CDN, 3 reverse proxies, 12 backend replicas, 1 DB primary.
Auditoria de Modo de Falha via Métricas de Gráfico
Síntese
Agora você pode identificar nós de alta betweenness, calcular o corte mínimo em todas as fronteiras e estimar a distância de propagação de falhas via diâmetro.
Aplique todos os três.
Um sistema: 50 pontos de extremidade do cliente -> 1 DNS -> 2 POPs do CDN -> 4 proxies reversos -> 16 réplicas de backend -> { cluster de banco de dados (1 primário + 2 de reserva), cluster Redis (5 nós), 3 APIs externas }.
Notas de Acompanhamento
Notas de Acompanhamento
Esta geometria-de aula reinterpreta a aula principal Modos de Falha e Raio de Explosão usando métricas de gráficos (betweenness, min-cut, diâmetro).
A última companheira, geometry_of_observability_and_capacity, trata de células Voronoi para a captura dos POPs do CDN, o chão do triângulo de latência com a velocidade da luz e a curva de fila revisitada na camada do proxy.
Bem feito.