un — Geometría de Datos Inconfiables

un

guest

1 / ?

back to lessons

Promedio, Varianza y Sesgo

Cada medida x_i de un valor verdadero μ se puede escribir como: x_i = μ + β + ε_i, donde β es el error sistemático (sesgo, constante a lo largo de las mediciones) y ε_i es el error aleatorio (diferente para cada medida, tomado de una distribución con media 0).

Error aleatorio: E[ε_i] = 0, Var[ε_i] = σ². El promedio de la muestra x̄ = (1/n) Σ x_i tiene valor esperado μ + β y varianza σ²/n. A medida que n → ∞, x̄ → μ + β (no μ). El error aleatorio se aproxima a cero; el sesgo no.

Error sistemático: β ≠ 0, constante. El promedio de cualquier número de mediciones es μ + β. Para eliminar el sesgo, se necesita calibración (una medida independiente de β), no más repeticiones.

Geométricamente: imagine la distribución de mediciones como una curva de campana. El error aleatorio controla el ancho (varianza). El error sistemático controla la ubicación del centro (el promedio se desplaza del valor verdadero por β).

La incertidumbre declarada en una medida generalmente es un estimado de σ (solo error aleatorio). Si β es grande e indetectado, la incertidumbre declarada carece de significado - cuantifica el ruido en un instrumento sesgado.

Propagación de Errores: Incertidumbre a través de Funciones

Cálculo de Sesgo y Varianza

Un laboratorio mide la constante gravitacional g. Su instrumento tiene un error de calibración sistemático de β = +0.05 m/s². Su error de medida aleatorio tiene desviación estándar σ = 0.02 m/s². Elaboran n = 100 mediciones.

Valor verdadero: g = 9.80 m/s².

Calcule: (a) el valor esperado de su promedio de la muestra x̄, (b) la desviación estándar de su promedio de la muestra (incertidumbre en x̄ debido solo al error aleatorio), (c) el intervalo de confianza del 95% que informarían (suponiendo que están inconscientes del sesgo) y (d) si el valor verdadero se encuentra dentro de ese intervalo. Muestre todos los cálculos.

Cómo los Errores Se Propagan a Través de los Cálculos

Cuando calculas una cantidad z = f(x, y) a partir de cantidades medias x e y, los errores de medición se propagan a z.

Fórmula de propagación de errores (primera expansión de Taylor):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Esto supone que los errores de x e y son independientes. Si están correlacionados, añade 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Insight clave: las derivadas parciales actúan como amplificadores. Si ∂f/∂x es grande, pequeños errores en x producen grandes errores en z.

Esto significa que elegir un método de cálculo que minimice las derivadas parciales es un objetivo real de ingeniería — no solo la comodidad algorítmica. Hamming estaba profundamente consciente de esto en su trabajo de análisis numérico.

Propagación a Través de un Producto

Mides dos longitudes: L₁ = 10,0 m ± 0,1 m (σ₁ = 0,1) y L₂ = 5,0 m ± 0,2 m (σ₂ = 0,2). Calculas la área A = L₁ × L₂.

Usando la fórmula de propagación de incertidumbre, calcule: (a) el valor esperado de A, (b) σ_A usando la fórmula σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², y (c) la incertidumbre relativa σ_A/A. Muestre que la incertidumbre relativa en A iguala √[(σ₁/L₁)² + (σ₂/L₂)²]. Verifique esto numéricamente.

Cuando los Datos Encajan Demasiado Bien

Prueba de chi-cuadrado de bondad de ajuste: dados n observaciones O_i y predicciones del modelo E_i, compute:

χ² = Σ (O_i − E_i)² / E_i

Si el modelo es correcto y las mediciones tienen varianza E_i, el valor esperado de χ² es aproximadamente ν = (número de puntos de datos) − (número de parámetros ajustados), llamado grados de libertad.

La chi-cuadrado reducida χ²/ν debería ser aproximadamente 1.0 si los datos encajan con el modelo con la cantidad esperada de dispersión.

- χ²/ν >> 1: los datos varían más de lo esperado — el modelo está equivocado, o los errores están subestimados.

- χ²/ν << 1: los datos varían menos de lo esperado — sorprendentemente limpios.

El caso sospechoso: si tus mediciones tienen σ = 0.1 pero los datos todos caen dentro de ±0.01 de la curva del modelo, alguien ha seleccionado mantener las 'buenas' mediciones. Esto es sesgo confirmatorio: descartar datos que no coinciden y retener datos que coinciden.

Hamming cita el experimento de gotas de aceite de Millikan: la medición del cargo del electrón que le valió el Premio Nobel. El análisis posterior de los cuadernos de laboratorio de Millikan reveló que aplicó un juicio documentado para descartar mediciones 'anómalas' — y las mediciones retuvieron encajan sorprendentemente bien.

Calcular e Interpretar la Chi-Cuadrado Reducida

Un estudiante ajusta un modelo lineal y = ax + b a 10 puntos de datos, estimando 2 parámetros (a y b). La incertidumbre de medida declarada para cada punto es σ = 0.5. Los residuales (O_i − E_i) del ajuste son: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06.

Calcula χ², los grados de libertad ν y la chi-cuadrado reducida χ²/ν. Luego, interpreta el resultado: ¿encajan los datos bien, mal o sorprendentemente bien con el modelo? ¿Qué harías a continuación como analista de datos?