El Nodo Botella Identificado Antes de Llegar el Tráfico
Centralidad de Entreidad
Para cada par de nodos en un gráfico, hay un camino más corto entre ellos. La centralidad de entreidad de un nodo N = la fracción de todos los caminos más cortos que pasan por N.
Un nodo con alta centralidad de entreidad está en el camino entre muchos otros pares. Si se ralentiza, muchos flujos se ralentizan. Si falla, muchos flujos se rompen.
Lectura arquitectural: los nodos de alta centralidad de entreidad son los que cada revisión arquitectural debería prestar atención especial. Son botellas, SPOFs y componentes de capacidad en uno. Tienen tendencia a ser:
- El proveedor de DNS (entre cada cliente y cada servicio)
- El proxy de ingreso (entre cada cliente y cada backend)
- La base de datos primaria (entre cada backend y cada lectura)
- El servicio de autenticación (entre cada usuario y cada acción autorizada)
Deteción sin medición: la topología del gráfico identifica solo los nodos de alta centralidad de entreidad. No necesitas datos de tráfico; necesitas el diagrama de la arquitectura. Un nodo que esté entre muchos otros pares es crítico estructuralmente.
Consecuencia operativa: los nodos de alta centralidad de entreidad merecen una inversión desproporcionada en (1) espacio de capacidad de reserva, (2) redundancia, (3) observabilidad y (4) planificaciones de respuestas a incidentes.
El Pequeño Corte Desconecta la Pequeña Porción
Teorema del Corte Mínimo en Términos Sencillos
El corte mínimo entre dos nodos en un gráfico = el número más pequeño de bordes (o nodos) que debes eliminar para desconectarlos.
Lectura operacional: los límites de corte mínimo definen el radio de explosión peor caso. Si el corte mínimo entre 'clients' y 'database' es una única arista (una sola proxy), entonces la pérdida de esa arista desconecta a todos los clientes de la base de datos. Si el corte mínimo es de 5, se necesita perder 5 componentes simultáneamente para desconectar completamente; mala suerte, pero limitada.
Diseñando para el radio de explosión: aumentar el corte mínimo en todas las fronteras importantes. Múltiples proxies; múltiples nodos de caché; múltiples caminos de red entre DCs. Cada adición eleva el corte mínimo en 1.
El patrón de bulbo en términos de gráfico: particione los recursos en sub-gráficos separados que no compartan ningún corte mínimo entre sí. Un fallo dentro de un sub-gráfico no puede propagarse a los otros porque las aristas no existen.
Conjuntos de diámetro establecen la distancia de propagación de fallos
Diámetro del gráfico = el camino más largo más corto entre cualquier par de nodos.
Propagación de fallos: cuando un nodo falla y vuelve a intentar el flujo, toca a los nodos de upstream hasta una distancia de diámetro lejos. Un sistema de diámetro-3 (cliente -> proxy -> backend -> DB) significa que un fallo de DB afecta a 3 capas de upstream en una tormenta de intentos de conexión.
Implicación: diámetro más corto = contención de fallos más rápida, pero también mayor concentración de nodos. Cada diseño tiene su compensación.
Compute Min-Cut for a Real Architecture
An architecture: 1 DNS, 1 CDN, 3 reverse proxies, 12 backend replicas, 1 DB primary.
Auditoría de Modos de Fallo a través de Métricas de Gráfico
Sinopsis
Ahora puedes identificar nodos de alta betweenness, calcular el corte mínimo en todas las fronteras y estimar la distancia de propagación de fallos a través del diámetro.
Aplica todos los tres.
Un sistema: 50 puntos de conexión de clientes -> 1 DNS -> 2 POP de CDN -> 4 inversos proxies -> 16 replicas de backend -> { cluster de base de datos (1 principal + 2 de respaldo), cluster Redis (5 nodos), 3 APIs externas }.
Notas complementarias
Notas complementarias
Esta geometría-de-lesson recicla la lección principal Modos de falla y radio de explosión a través de métricas de gráficos (entrezuma, corte mínimo, diámetro).
La última compañera, geometry_of_observability_and_capacity, trata de las celdas de Voronoi para las capturas de POP de CDN, el suelo del triángulo de latencia de la velocidad de la luz y la curva de cola revisitada en el nivel de proxy.
Buen trabajo.