Promedio, Varianza y Sesgo
Cada medida x_i de un valor verdadero μ se puede escribir como: x_i = μ + β + ε_i, donde β es el error sistemático (sesgo, constante a lo largo de las mediciones) y ε_i es el error aleatorio (diferente para cada medida, tomado de una distribución con media 0).
Error aleatorio: E[ε_i] = 0, Var[ε_i] = σ². El promedio de la muestra x̄ = (1/n) Σ x_i tiene valor esperado μ + β y varianza σ²/n. A medida que n → ∞, x̄ → μ + β (no μ). El error aleatorio se aproxima a cero; el sesgo no.
Error sistemático: β ≠ 0, constante. El promedio de cualquier número de mediciones es μ + β. Para eliminar el sesgo, se necesita calibración (una medida independiente de β), no más repeticiones.
Geométricamente: imagine la distribución de mediciones como una curva de campana. El error aleatorio controla el ancho (varianza). El error sistemático controla la ubicación del centro (el promedio se desplaza del valor verdadero por β).
La incertidumbre declarada en una medida generalmente es un estimado de σ (solo error aleatorio). Si β es grande e indetectado, la incertidumbre declarada carece de significado - cuantifica el ruido en un instrumento sesgado.
Cálculo de Sesgo y Varianza
Un laboratorio mide la constante gravitacional g. Su instrumento tiene un error de calibración sistemático de β = +0.05 m/s². Su error de medida aleatorio tiene desviación estándar σ = 0.02 m/s². Elaboran n = 100 mediciones.
Valor verdadero: g = 9.80 m/s².
Cómo los Errores Se Propagan a Través de los Cálculos
Cuando calculas una cantidad z = f(x, y) a partir de cantidades medias x e y, los errores de medición se propagan a z.
Fórmula de propagación de errores (primera expansión de Taylor):
σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y
(Esto supone que los errores de x e y son independientes. Si están correlacionados, añade 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)
Insight clave: las derivadas parciales actúan como amplificadores. Si ∂f/∂x es grande, pequeños errores en x producen grandes errores en z.
Esto significa que elegir un método de cálculo que minimice las derivadas parciales es un objetivo real de ingeniería — no solo la comodidad algorítmica. Hamming estaba profundamente consciente de esto en su trabajo de análisis numérico.
Propagación a Través de un Producto
Mides dos longitudes: L₁ = 10,0 m ± 0,1 m (σ₁ = 0,1) y L₂ = 5,0 m ± 0,2 m (σ₂ = 0,2). Calculas la área A = L₁ × L₂.
Cuando los Datos Encajan Demasiado Bien
Prueba de chi-cuadrado de bondad de ajuste: dados n observaciones O_i y predicciones del modelo E_i, compute:
χ² = Σ (O_i − E_i)² / E_i
Si el modelo es correcto y las mediciones tienen varianza E_i, el valor esperado de χ² es aproximadamente ν = (número de puntos de datos) − (número de parámetros ajustados), llamado grados de libertad.
La chi-cuadrado reducida χ²/ν debería ser aproximadamente 1.0 si los datos encajan con el modelo con la cantidad esperada de dispersión.
- χ²/ν >> 1: los datos varían más de lo esperado — el modelo está equivocado, o los errores están subestimados.
- χ²/ν << 1: los datos varían menos de lo esperado — sorprendentemente limpios.
El caso sospechoso: si tus mediciones tienen σ = 0.1 pero los datos todos caen dentro de ±0.01 de la curva del modelo, alguien ha seleccionado mantener las 'buenas' mediciones. Esto es sesgo confirmatorio: descartar datos que no coinciden y retener datos que coinciden.
Hamming cita el experimento de gotas de aceite de Millikan: la medición del cargo del electrón que le valió el Premio Nobel. El análisis posterior de los cuadernos de laboratorio de Millikan reveló que aplicó un juicio documentado para descartar mediciones 'anómalas' — y las mediciones retuvieron encajan sorprendentemente bien.
Calcular e Interpretar la Chi-Cuadrado Reducida
Un estudiante ajusta un modelo lineal y = ax + b a 10 puntos de datos, estimando 2 parámetros (a y b). La incertidumbre de medida declarada para cada punto es σ = 0.5. Los residuales (O_i − E_i) del ajuste son: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06.