Spazio di Valore vs Spazio di Misurazione
Modella il mondo come due spazi:
Spazio di valore V: l'insieme degli stati del mondo rispetto a ciò che ti importa davvero. I punti in V rappresentano diversi livelli della vera quantità sottostante (apprendimento degli studenti, progresso militare, benessere economico).
Spazio di misurazione M: l'insieme dei valori che la metrica può assumere. Una metrica è una funzione f: V → M — una mappatura dallo spazio di valore allo spazio di misurazione.
Una metrica valida è quella in cui f è vicina a un'isometria nella regione rilevante: cambiamenti uguali in M corrispondono a cambiamenti uguali in V. I punti vicini in M corrispondono a punti vicini in V.
Una metrica distorta è quella in cui f è non-isometrica: la metrica comprime alcune regioni di V (rendendo invisibili i grandi cambiamenti) e ne espande altre (facendo sembrare grandi i piccoli cambiamenti). La calibrazione dell'IQ è una distorsione progettata: mappa la distribuzione del punteggio grezzo a una Gaussiana in M, indipendentemente dalla vera distribuzione dell'intelligenza in V.
La legge di Goodhart in termini di mappatura: quando M diventa un obiettivo, gli agenti applicano salita graduale in M. Poiché f è una distorsione, la salita graduale in M non corrisponde a salita graduale in V. L'agente si muove in M senza muoversi (o muovendosi all'indietro) in V.
Test della Validità Metrica
Un'azienda valuta le prestazioni dei dipendenti su una scala da 1 a 5 stelle. La scala è calibrata in modo che l'80% dei dipendenti riceva 3 o superiore. Il sistema di valutazione delle prestazioni viene utilizzato sia per le decisioni di compensazione (dove l'ordine di rango è importante) che per i piani di miglioramento (dove il livello assoluto è importante).
Salita Graduale nello Spazio Sbagliato
Modella il problema di ottimizzazione geometricamente. Sia V = spazio di valore (vera apprendimento studentesco, progresso militare, ecc.) e M = spazio metrico (punteggi di test, conteggi di corpi, ecc.).
Il gradiente del valore vero: ∇_V(value) punta nella direzione in V che aumenta la quantità sottostante che ti importa.
Il gradiente della metrica: ∇_M(metric) punta nella direzione in M che aumenta la metrica.
Poiché f: V → M non è un'isometria, il gradiente della metrica nello spazio di valore (f(∇_M)) non è allineato con ∇_V. L'angolo tra loro, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), misura la gravità del fallimento di Goodhart.
Se θ = 0: il gradiente metrico e il gradiente di valore puntano nella stessa direzione. L'ottimizzazione della metrica ottimizza il valore. Nessuna corruzione di Goodhart.
Se θ = 90°: il gradiente metrico è ortogonale al valore. L'ottimizzazione della metrica si muove in M senza muoversi in V affatto.
Se θ = 180°: il gradiente metrico punta in direzione opposta al valore. L'ottimizzazione della metrica degrada attivamente il valore.
Quando la metrica diventa un obiettivo e gli agenti applicano salita graduale sulla metrica, seguono f*(∇_M), non ∇_V. L'angolo di divergenza θ cresce nel tempo mentre la metrica viene manipolata — la mappatura f diventa meno isometrica poiché gli agenti trovano le regioni in cui ∇_M e ∇_V divergono di più, perché quelle sono i percorsi più efficienti per la manipolazione.
Misurare la Divergenza
Considera un semplice spazio di valore bidimensionale V = (abilità, conformità) dove abilità = comprensione effettiva dello studente, conformità = capacità dello studente di seguire le procedure di test.
Ottimizzazione Multi-Obiettivo come Difesa Contro Goodhart
La difesa di Hamming: usa più metriche simultaneamente. L'interpretazione geometrica: invece di massimizzare una singola funzione obiettivo f(x), ottimizza su un vettore di obiettivi F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Per un obiettivo vettoriale, il concetto di soluzione è la frontiera di Pareto: l'insieme delle soluzioni in cui nessun obiettivo può essere migliorato senza degradarne un altro. La frontiera di Pareto sostituisce l'ottimo singolo.
Perché questo difende contro Goodhart: per manipolare le metriche, un agente razionale deve trovare una direzione nello spazio di valore che aumenta tutti gli fᵢ contemporaneamente (o almeno le metriche su cui vengono giudicati). Se le metriche sono sufficientemente indipendenti — le loro direzioni di gradiente sono sufficientemente non-parallele — non esiste una tale direzione. Manipolare una metrica degrada un'altra.
Il grado di difesa: se i k gradienti metrici si estendono nello spazio k-dimensionale (sono linearmente indipendenti), allora ottimizzare qualsiasi sottoinsieme proprio di metriche degrada almeno una metrica esclusa. La difesa di Pareto completa richiede che non esista alcuna direzione di manipolazione che migliori tutte le metriche.
Invarianza della misurazione: una metrica M è invariante rispetto all'attributo irrilevante α se M(x + δα) = M(x) per cambiamenti δ in α. La metrica dell'IQ non è invariante rispetto alla pratica dei test: l'IQ cambia quando gli studenti praticano il test senza guadagni genuini nella costruzione sottostante.
Progetta un Sistema Metrico Difeso da Pareto
Considera la valutazione di uno scienziato ricercatore su un sistema a due metriche: M₁ = pubblicazioni per anno, M₂ = tasso di citazione per articolo (citazioni per articolo).