un — Geometría de la Simulación II: Validez del Modelo como Ajuste Geométrico

un

invitado

1 / ?

volver a las lecciones

Qué significa realmente ajustar un modelo

Un modelo de simulación hace una afirmación matemática: los resultados del sistema real se encuentran en (o cerca de) una superficie específica M en el espacio de observaciones.

Sea el sistema real produciendo observaciones y₁, y₂, ..., yₙ. El modelo predice valores ŷ₁, ŷ₂, ..., ŷₙ.

Residuos como distancias: rᵢ = yᵢ - ŷᵢ. Cada residuo mide la distancia entre una observación y su predicción de modelo correspondiente. En el espacio de observación n-dimensional, los residuos forman un vector r = y - ŷ.

Ajuste de mínimos cuadrados: elegir parámetros de modelo para minimizar ||r||² = Σrᵢ². Geométricamente, encontrar el punto ŷ en la superficie del modelo M más cercano al vector de observación y en distancia euclidiana.

Cuándo los residuos engañan

Un pequeño ||r||² no garantiza un modelo válido. Dos modos de falla sistemática:

1. Sesgo sistemático: los residuos rᵢ son pequeños pero todos positivos (o todos negativos). El modelo predice sistemáticamente demasiado bajo o demasiado alto. Geométricamente: ŷ se encuentra en una superficie desplazada paralela a la verdadera variedad de datos — cercana en distancia, incorrecta en estructura.

2. Variedad incorrecta: los residuos son pequeños porque el modelo tiene suficientes parámetros libres para ajustar exactamente los datos de entrenamiento (sobreajuste). La superficie del modelo pasa a través de los puntos de datos, pero se curva salvajemente entre ellos. Las predicciones en nuevos datos son deficientes.

Residuos, Sesgo, & Ajuste de Variedad

Detectando Sesgo Sistemático

Un modelo con residuo medio cero aún puede tener sesgo sistemático que varía con una variable de entrada.

Ejemplo: una simulación meteorológica que subestima la temperatura en 2°C en verano y sobrestima en 2°C en invierno tiene un residuo medio ≈ 0 durante un año completo, pero un claro sesgo estacional.

Diagnóstico de residuos: graficar rᵢ contra cada variable de entrada. Un patrón plano (sin tendencia) sugiere ningún sesgo sistemático de esa variable. Un patrón de tendencia revela una dimensión faltante en el modelo.

La pregunta de validación de Hamming — '¿Podría faltar un pequeño efecto vital?' — se traduce geométricamente: ¿tiene el vector de residuos un componente en una dirección no abarcada por el espacio de parámetros del modelo?

Un modelo de regresión y = ax + b se ajusta a 4 puntos de datos: (1, 3), (2, 5), (3, 8), (4, 9). La línea ajustada tiene a = 2, b = 1, dando predicciones ŷ = (3, 5, 7, 9). Calcula los residuos. Luego: ¿son los residuos sistemáticos (¿muestran un patrón?), o parecen aleatorios? ¿Qué propiedad geométrica del modelo revisarías basándote en el patrón de residuos?

Desplazamiento Sistemático vs Ruido Aleatorio

El efecto Hawthorne: los sujetos en un estudio cambian su comportamiento porque saben que están siendo observados, no por el tratamiento experimental.

Interpretación Geométrica

Sea la verdadera variedad de datos M vivir en un espacio abarcado por las variables (x₁, x₂, ..., xₖ, observation_context).

El modelo ignora observation_context. Ajusta una superficie a observaciones en (x₁, ..., xₖ) solamente.

Cuando observation_context = 'being studied,' los puntos de datos reales se desplazan a lo largo del eje observation_context. La superficie del modelo — fija en el espacio (x₁, ..., xₖ) — ahora se ajusta a datos desplazados. Los residuos parecen pequeños (la superficie aún se ajusta bien dentro del contexto del estudio), pero las predicciones en el contexto no observado son sistemáticamente incorrectas.

La geometría: la superficie del modelo está cerca de la variedad de datos del contexto del estudio, pero lejos de la variedad de realidad. La distancia entre ellas: el desplazamiento de Hawthorne a lo largo del eje observation_context.

El requisito de doble ciego de Hamming: prevenir que observation_context se correlacione con el tratamiento. Esto mantiene la variedad de realidad y la variedad del contexto del estudio coincidentes — elimina el desplazamiento geométrico.

Otros Efectos de Dimensión Oculta

Cualquier variable que afecte el sistema pero esté excluida del modelo crea la misma estructura geométrica:

- Efectos estacionales omitidos de modelos económicos

- Comportamiento del operador excluido de simulaciones de fabricación

- Estado de versión de software ausente de modelos de desempeño

El modelo ajusta una superficie de dimensión inferior a datos que viven en una variedad de dimensión superior. Los residuos serán pequeños en direcciones que el modelo mide, grandes en las direcciones no medidas.

Validación como Alineación Geométrica

Lista de verificación de validación de Hamming, reformulada como geometría:

¿La teoría de fondo apoya las leyes asumidas? ¿Las dimensiones del espacio de parámetros del modelo abarcan la verdadera variedad de datos? Si faltan variables clave (dimensiones excluidas), la superficie del modelo no puede alinearse con la realidad.

¿Están disponibles controles internos? Las leyes de conservación son restricciones geométricas: los datos deben encontrarse en una subvariedad específica definida por conservación de masa, conservación de energía, etc. Si la simulación viola estas, su trayectoria ha dejado la subvariedad válida.

Verificaciones cruzadas contra la experiencia pasada conocida: la superficie del modelo debe pasar por puntos de validación históricos — no solo ajustar datos de entrenamiento, sino generalizar a observaciones fuera de muestra.

¿Es estable la simulación? Una simulación estable se mantiene cerca de la verdadera variedad de soluciones a pesar de pequeñas perturbaciones. Una simulación inestable deja la vecindad de la variedad y no puede llamarse un modelo válido.

Hamming señaló que en simulaciones comerciales y juegos de guerra, los participantes que saben que están en una simulación cambian su comportamiento — haciendo que la simulación sea un modelo poco confiable del comportamiento real. Identifica la propiedad geométrica que hace que la simulación falle en este caso (no solo 'efecto Hawthorne' — describe la estructura geométrica). Luego propone una prueba de validación que detectaría la brecha simulación-realidad sin requerir condiciones de doble ciego.

Cuando la Predicción se Convierte en Proyección

Hamming respaldó el método de escenarios para dominios donde la predicción es imposible: en lugar de afirmar 'el sistema hará X,' presentar un conjunto de trayectorias posibles bajo diferentes conjuntos de suposiciones.

Interpretación Geométrica

La superficie del modelo M(θ) depende de parámetros θ (suposiciones sobre leyes, constantes, condiciones de frontera). Diferentes conjuntos de suposiciones θ₁, θ₂, ..., θₖ definen diferentes superficies M(θ₁), ..., M(θₖ).

La envoltura de escenario es la unión de estas superficies: la región del espacio de salida que cualquiera de los modelos de escenario podría producir.

Una predicción única afirma: el resultado verdadero se encuentra cerca de M(θ) para la mejor estimación θ. El método de escenario afirma: el resultado verdadero se encuentra en algún lugar dentro de la envoltura.

Cuándo la Envoltura es Útil

Si la envoltura es estrecha — todos los escenarios coinciden en la salida a pesar de diferentes suposiciones — la confianza en la predicción es alta. Si la envoltura es ancha — diferentes suposiciones producen salidas muy diferentes — el modelo es altamente sensible a las suposiciones. Esa sensibilidad es la salida, no un modo de falla.

La afirmación de Hamming sobre sus propias predicciones: estaba dando escenarios, no predicciones puntuales. El futuro que describió era 'lo que probablemente sucederá, en mi opinión,' no un pronóstico preciso.

Superposición con la Realidad

Un modelo de escenario se valida cuando la realidad cae dentro de la envoltura. Esta es una prueba más débil que la predicción puntual pero más honesta sobre lo que el modelo puede afirmar.

Juntándolo Todo: Modelos Válidos & Su Geometría

La geometría de la simulación válida se reduce a tres alineaciones:

1. El espacio de parámetros cubre la variedad verdadera: las dimensiones del modelo incluyen todas las variables que impulsan el sistema. Los espacios de dimensión oculta producen desplazamientos sistemáticos.

2. La estabilidad mantiene la trayectoria cerca de la variedad verdadera: un campo de dirección convergente significa que los errores se encogen. Un campo divergente significa que la simulación abandona la región válida.

3. Los residuos son pequeños y sin estructura: los residuos aleatorios y no correlacionados sugieren que el modelo captura la variedad verdadera. Los residuos estructurados (tendencias, patrones) señalan una dimensión faltante.

La pregunta de Hamming '¿Por qué debería alguien creer en la simulación?' se traduce geométricamente: ¿qué tan cercana es la superficie del modelo a la variedad de realidad, en cuántas dimensiones, con cuánta estabilidad, validada en cuántos puntos fuera de muestra?

Estás construyendo un modelo para predecir si un proyecto de construcción de puente terminará a tiempo. Tu modelo usa: duración planeada (semanas), tamaño del equipo (personas) y relación presupuestaria (real/planeado). Un colega argumenta que te faltan variables críticas. Usando el marco geométrico de esta lección, describe dos tipos de variables faltantes: una que crearía un sesgo sistemático en las predicciones, y otra que aumentaría la varianza de predicción sin sesgo. Explica la diferencia geométrica entre estos dos efectos.