un — Geometría de Modos de Fallo y Radio de Explosión

un

invitado

1 / ?

volver a las lecciones

El Nodo Botella Identificado Antes de Llegar el Tráfico

Centralidad de Entreidad

Para cada par de nodos en un gráfico, hay un camino más corto entre ellos. La centralidad de entreidad de un nodo N = la fracción de todos los caminos más cortos que pasan por N.

Un nodo con alta centralidad de entreidad está en el camino entre muchos otros pares. Si se ralentiza, muchos flujos se ralentizan. Si falla, muchos flujos se rompen.

Lectura arquitectural: los nodos de alta centralidad de entreidad son los que cada revisión arquitectural debería prestar atención especial. Son botellas, SPOFs y componentes de capacidad en uno. Tienen tendencia a ser:

- El proveedor de DNS (entre cada cliente y cada servicio)

- El proxy de ingreso (entre cada cliente y cada backend)

- La base de datos primaria (entre cada backend y cada lectura)

- El servicio de autenticación (entre cada usuario y cada acción autorizada)

Deteción sin medición: la topología del gráfico identifica solo los nodos de alta centralidad de entreidad. No necesitas datos de tráfico; necesitas el diagrama de la arquitectura. Un nodo que esté entre muchos otros pares es crítico estructuralmente.

Consecuencia operativa: los nodos de alta centralidad de entreidad merecen una inversión desproporcionada en (1) espacio de capacidad de reserva, (2) redundancia, (3) observabilidad y (4) planificaciones de respuestas a incidentes.

Centralidad de entreidad: el nodo resaltado está en la mayoría de los caminos más cortos

Un sistema tiene: 100 clientes externos -> 1 DNS -> 1 proveedor de CDN -> 3 proxies inversos -> 12 réplicas de backend -> {1 DB primaria, 2 nodos de caché, 5 puntos de conexión de API externos}. Ordene estas clases de nodos por centralidad de entreidad (en orden descendente) y explique por qué los dos primeros rangos merecen atención especial.

El Pequeño Corte Desconecta la Pequeña Porción

Teorema del Corte Mínimo en Términos Sencillos

El corte mínimo entre dos nodos en un gráfico = el número más pequeño de bordes (o nodos) que debes eliminar para desconectarlos.

Lectura operacional: los límites de corte mínimo definen el radio de explosión peor caso. Si el corte mínimo entre 'clients' y 'database' es una única arista (una sola proxy), entonces la pérdida de esa arista desconecta a todos los clientes de la base de datos. Si el corte mínimo es de 5, se necesita perder 5 componentes simultáneamente para desconectar completamente; mala suerte, pero limitada.

Diseñando para el radio de explosión: aumentar el corte mínimo en todas las fronteras importantes. Múltiples proxies; múltiples nodos de caché; múltiples caminos de red entre DCs. Cada adición eleva el corte mínimo en 1.

El patrón de bulbo en términos de gráfico: particione los recursos en sub-gráficos separados que no compartan ningún corte mínimo entre sí. Un fallo dentro de un sub-gráfico no puede propagarse a los otros porque las aristas no existen.

Conjuntos de diámetro establecen la distancia de propagación de fallos

Diámetro del gráfico = el camino más largo más corto entre cualquier par de nodos.

Propagación de fallos: cuando un nodo falla y vuelve a intentar el flujo, toca a los nodos de upstream hasta una distancia de diámetro lejos. Un sistema de diámetro-3 (cliente -> proxy -> backend -> DB) significa que un fallo de DB afecta a 3 capas de upstream en una tormenta de intentos de conexión.

Implicación: diámetro más corto = contención de fallos más rápida, pero también mayor concentración de nodos. Cada diseño tiene su compensación.

Corte mínimo como límite del radio de explosión; diámetro como distancia de propagación

Compute Min-Cut for a Real Architecture

An architecture: 1 DNS, 1 CDN, 3 reverse proxies, 12 backend replicas, 1 DB primary.

Compute (or estimate) the min-cut at three boundaries: (1) between external clients & the reverse-proxy tier; (2) between the reverse-proxy tier & the backend tier; (3) between the backend tier & the DB primary. For each, name what fails when that min-cut is exceeded.

Auditoría de Modos de Fallo a través de Métricas de Gráfico

Sinopsis

Ahora puedes identificar nodos de alta betweenness, calcular el corte mínimo en todas las fronteras y estimar la distancia de propagación de fallos a través del diámetro.

Aplica todos los tres.

Un sistema: 50 puntos de conexión de clientes -> 1 DNS -> 2 POP de CDN -> 4 inversos proxies -> 16 replicas de backend -> { cluster de base de datos (1 principal + 2 de respaldo), cluster Redis (5 nodos), 3 APIs externas }.

Auditar el sistema: (1) nombre el nodo de más betweenness, (2) compute min-cut en la frontera más preocupante, & (3) proponga dos cambios arquitectónicos específicos (cada uno que aumenta un corte mínimo, cada uno nombrado con el límite que fortalece).

Notas complementarias

Esta geometría-de-lesson recicla la lección principal Modos de falla y radio de explosión a través de métricas de gráficos (entrezuma, corte mínimo, diámetro).

La última compañera, geometry_of_observability_and_capacity, trata de las celdas de Voronoi para las capturas de POP de CDN, el suelo del triángulo de latencia de la velocidad de la luz y la curva de cola revisitada en el nivel de proxy.

Buen trabajo.