Espacio de Valor vs Espacio de Medición
Modela el mundo como dos espacios:
Espacio de valor V: el conjunto de estados del mundo con respecto a lo que realmente te importa. Los puntos en V representan diferentes niveles de la cantidad subyacente verdadera (aprendizaje estudiantil, progreso militar, bienestar económico).
Espacio de medición M: el conjunto de valores que la métrica puede tomar. Una métrica es una función f: V → M — un mapeo del espacio de valor al espacio de medición.
Una métrica válida es aquella donde f es cercana a una isometría en la región relevante: cambios iguales en M corresponden a cambios iguales en V. Los puntos cercanos en M corresponden a puntos cercanos en V.
Una métrica distorsionada es aquella donde f es no-isométrica: la métrica comprime algunas regiones de V (haciendo que cambios grandes sean invisibles) y expande otras (haciendo que cambios pequeños parezcan grandes). La calibración del IQ es una distorsión diseñada: mapea la distribución de puntuación bruta a una Gaussiana en M, independientemente de la distribución verdadera de la inteligencia en V.
La ley de Goodhart en términos de mapeo: cuando M se convierte en un objetivo, los agentes aplican ascenso de gradiente en M. Porque f es una distorsión, el ascenso de gradiente en M no corresponde al ascenso de gradiente en V. El agente se mueve en M sin moverse (o moviéndose hacia atrás) en V.
Probando la Validez de la Métrica
Una empresa evalúa el desempeño de los empleados en una escala de 1-5 estrellas. La escala está calibrada para que el 80% de los empleados reciban 3 o superior. El sistema de revisión de desempeño se usa tanto para decisiones de compensación (donde importa el orden de rango) como para planes de mejora (donde importa el nivel absoluto).
Ascenso de Gradiente en el Espacio Equivocado
Modela el problema de optimización geométricamente. Sea V = espacio de valor (aprendizaje estudiantil verdadero, progreso militar, etc.) y M = espacio de métrica (puntuaciones de prueba, recuentos de cuerpos, etc.).
El gradiente del valor verdadero: ∇_V(value) apunta en la dirección en V que aumenta la cantidad subyacente que te importa.
El gradiente de la métrica: ∇_M(metric) apunta en la dirección en M que aumenta la métrica.
Porque f: V → M no es una isometría, el gradiente de la métrica en el espacio de valor (f(∇_M)) no está alineado con ∇_V. El ángulo entre ellos, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mide la severidad del fallo de Goodhart.
Si θ = 0: el gradiente de métrica y el gradiente de valor apuntan en la misma dirección. Optimizar la métrica optimiza el valor. Sin corrupción de Goodhart.
Si θ = 90°: el gradiente de métrica es ortogonal al valor. Optimizar la métrica se mueve en M sin moverse en V en absoluto.
Si θ = 180°: el gradiente de métrica apunta opuesto al valor. Optimizar la métrica degrada activamente el valor.
Cuando la métrica se convierte en un objetivo y los agentes aplican ascenso de gradiente en la métrica, siguen f*(∇_M), no ∇_V. El ángulo de divergencia θ crece con el tiempo a medida que la métrica es manipulada — el mapeo f se vuelve menos isométrico a medida que los agentes encuentran las regiones donde ∇_M y ∇_V divergen más, porque esas son las rutas más eficientes para la manipulación.
Midiendo la Divergencia
Considera un espacio de valor bidimensional simple V = (habilidad, cumplimiento) donde habilidad = comprensión real del estudiante, cumplimiento = capacidad del estudiante para seguir procedimientos de toma de pruebas.
Una métrica de prueba M = 0.3 × habilidad + 0.7 × cumplimiento (una combinación lineal específica, donde el cumplimiento tiene 70% de peso).
Optimización Multiobjetivo como Defensa Contra Goodhart
La defensa de Hamming: usa múltiples métricas simultáneamente. La interpretación geométrica: en lugar de maximizar una función objetivo única f(x), optimiza sobre un vector de objetivos F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Para un objetivo vectorial, el concepto de solución es la frontera de Pareto: el conjunto de soluciones donde ningún objetivo puede mejorarse sin degradar otro. La frontera de Pareto reemplaza el óptimo único.
Por qué esto defiende contra Goodhart: para manipular las métricas, un agente racional debe encontrar una dirección en el espacio de valor que aumente todos los fᵢ simultáneamente (o al menos las métricas por las que se le juzga). Si las métricas son suficientemente independientes — sus direcciones de gradiente son suficientemente no-paralelas — no existe tal dirección. Manipular una métrica degrada otra.
El grado de defensa: si los k gradientes de métrica abarcan el espacio k-dimensional (son linealmente independientes), entonces optimizar cualquier subconjunto propio de métricas degrada al menos una métrica excluida. La defensa completa de Pareto requiere que no exista una dirección de manipulación que mejore todas las métricas.
Invarianza de medición: una métrica M es invariante con respecto a un atributo irrelevante α si M(x + δα) = M(x) para cambios δ en α. La métrica de IQ no es invariante con respecto a la práctica de toma de pruebas: el IQ cambia cuando los estudiantes practican la prueba sin ganancias genuinas en la construcción subyacente.
Diseña un Sistema de Métrica Defendido por Pareto
Considera evaluar a un científico investigador en un sistema de dos métricas: M₁ = publicaciones por año, M₂ = tasa de citación por artículo (citas por artículo).