Värdeutrymme vs Mätutrymme
Modellera världen som två utrymmen:
Värdeutrymme V: mängden av världens tillstånd med avseende på vad du faktiskt bryr dig om. Punkter i V representerar olika nivåer av den verkligt underliggande storheten (studentlärande, militär framgång, ekonomisk välbefinnande).
Mätutrymme M: mängden av värden som måttet kan anta. Ett mått är en funktion f: V → M — en avbildning från värdeutrymme till mätutrymme.
Ett giltigt mått är ett där f är nära en isometri i den relevanta regionen: lika förändringar i M motsvarar lika förändringar i V. Närliggande punkter i M motsvarar närliggande punkter i V.
Ett förvrängde mått är ett där f är icke-isometrisk: måttet komprimerar vissa regioner av V (vilket gör stora förändringar osynliga) och expanderar andra (vilket gör små förändringar verka stora). IQ-kalibreringen är en designad förvrängning: den mappar den råa poängfördelningen till en Gaussisk fördelning i M, oavsett den verkliga intelligensfördelningen i V.
Goodharts lag i avbildningstermer: när M blir ett mål tillämpar agenter gradientuppstigning i M. Eftersom f är en förvrängning motsvarar gradientuppstigning i M inte gradientuppstigning i V. Agenten rör sig i M utan att röra sig (eller röra sig bakåt) i V.
Prova metrisk giltighet
Ett företag utvärderar anställdas prestanda på en 1-5-stjärnig skala. Skalan är kalibrerad så att 80% av de anställda får 3 eller högre. Prestanda granskningssystemet används både för ersättningsbeslut (där rangordning är viktig) och förbättringsplaner (där absolut nivå är viktig).
Gradientuppstigning i fel utrymme
Modellera optimeringproblemet geometriskt. Låt V = värdeutrymme (verklig studentlärande, militär framgång, etc.) och M = mätutrymme (testpoäng, kroppsräkningar, etc.).
Gradienten för verkligt värde: ∇_V(value) pekar i riktningen i V som ökar den underliggande storheten som du bryr dig om.
Gradienten för måttet: ∇_M(metric) pekar i riktningen i M som ökar måttet.
Eftersom f: V → M inte är en isometri är gradienten för måttet i värdeutrymme (f(∇_M)) inte i linje med ∇_V. Vinkeln mellan dem, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mäter allvarlighetsgraden för Goodhart-misslyckandet.
Om θ = 0: pekar metrisk gradient och värdegradient samma riktning. Optimering av måttet optimerar värde. Ingen Goodhart-förvrängning.
Om θ = 90°: är metrisk gradient ortogonal mot värde. Optimering av måttet flyttar i M utan att röra sig i V alls.
Om θ = 180°: pekar metrisk gradient motsatt mot värde. Optimering av måttet försämrar aktivt värde.
När måttet blir ett mål och agenter tillämpar gradientuppstigning på måttet följer de f*(∇_M), inte ∇_V. Divergensvinkeln θ växer över tid när måttet spelas - avbildningen f blir mindre isometrisk när agenter hittar regionerna där ∇_M och ∇_V divergerar mest, eftersom det är de mest effektiva vägarna för att spela systemet.
Mäta divergensen
Betrakta ett enkelt tvådimensionellt värdeutrymme V = (skicklighet, efterlevnad) där skicklighet = studentens faktiska förståelse, efterlevnad = studentens förmåga att följa testtagningsprocedurer.
Ett testmått M = 0,3 × skicklighet + 0,7 × efterlevnad (en specifik linjär kombination, där efterlevnad har 70% vikt).
Flermålsoptimering som försvar mot Goodhart
Hammings försvar: använd flera mått samtidigt. Den geometriska tolkningen: istället för att maximera en enda objektivfunktion f(x), optimera över en vektor av mål F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
För ett vektormål är lösningskonceptet Pareto-gränsen: mängden av lösningar där inget mål kan förbättras utan att försämra ett annat. Pareto-gränsen ersätter det enskilda optimumet.
Varför detta försvarar mot Goodhart: för att spela systemmåtten måste en rationell agent hitta en riktning i värdeutrymmet som ökar alla fᵢ samtidigt (eller åtminstone de mått de bedöms på). Om måtten är tillräckligt oberoende — deras gradientriktningar är tillräckligt icke-parallella — finns det ingen sådan riktning. Att spela ett mått försämrar ett annat.
Försvarets omfattning: om de k metriska gradienterna sträcker sig över det k-dimensionella rummet (är linjärt oberoende), så försämrar optimering av någon riktig delmängd av mått åtminstone ett exkluderat mål. Full Pareto-försvar kräver att ingen spelningsriktning existerar som förbättrar alla mål.
Mätinvarians: ett mått M är invariant med avseende på irrelevant attribut α om M(x + δα) = M(x) för förändringar δ i α. IQ-måttet är inte invariant med avseende på testtagningspraxis: IQ ändras när studenter tränar testet utan verklig vinning i den underliggande konstruktionen.
Utforma ett Pareto-försvarsmätsystem
Betrakta att utvärdera en forskningsvetare på ett tvåmåttssystem: M₁ = publikationer per år, M₂ = citeringsgrad per artikel (citeringar per artikel).