Waarderuimte versus Meetruimte
Modelleer de wereld als twee ruimtes:
Waarderuimte V: de verzameling van toestanden van de wereld met betrekking tot wat je werkelijk belangrijk vindt. Punten in V vertegenwoordigen verschillende niveaus van de werkelijke onderliggende hoeveelheid (studentenleren, militaire vooruitgang, economisch welzijn).
Meetruimte M: de verzameling waarden die de metriek kan aannemen. Een metriek is een functie f: V → M, een afbeelding van waarderuimte naar meetruimte.
Een geldige metriek is er een waarbij f dicht bij een isometrie in het relevante gebied ligt: gelijke veranderingen in M corresponderen met gelijke veranderingen in V. Nabijgelegen punten in M corresponderen met nabijgelegen punten in V.
Een vervormd metriek is er een waarbij f niet-isometrisch is: de metriek comprimeert enkele gebieden van V (grote veranderingen onzichtbaar makend) en breidt anderen uit (kleine veranderingen groot makend). IQ-kalibratie is een opzettelijke vervorming: het brengt de ruwe scoreverdeling in kaart naar een Gaussiaan in M, ongeacht de werkelijke verdeling van intelligentie in V.
De wet van Goodhart in termen van afbeelding: wanneer M een doel wordt, passen agenten gradiëntklimming in M toe. Omdat f een vervorming is, correspondeert gradiëntklimming in M niet met gradiëntklimming in V. De agent beweegt in M zonder in V te bewegen (of achteruit te gaan).
Metrische Geldigheid Testen
Een bedrijf evalueert de prestaties van werknemers op een schaal van 1-5 sterren. De schaal is gekalibreerd zodat 80% van de werknemers een 3 of hoger krijgt. Het systeem voor prestatiebeoordeling wordt gebruikt voor zowel compensatiebeslissingen (waarbij rangordening van belang is) als verbeteringsplannen (waarbij absoluut niveau van belang is).
Gradiëntklimming in de Verkeerde Ruimte
Model het optimalisatieproblem geometrisch. Zij V = waarderuimte (werkelijk studentenleren, militaire vooruitgang, enz.) en M = metriekruimte (testscores, dodentallen, enz.).
De gradiënt van werkelijke waarde: ∇_V(waarde) wijst in de richting in V die de onderliggende hoeveelheid die je belangrijk vindt toeneemt.
De gradiënt van de metriek: ∇_M(metriek) wijst in de richting in M die de metriek toeneemt.
Omdat f: V → M geen isometrie is, is de gradiënt van de metriek in waarderuimte (f(∇_M)) niet afgestemd op ∇_V. De hoek daartussen, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), meet de ernst van de mislukking van Goodhart.
Als θ = 0: de metriekgradiënt en waardegradiënt wijzen dezelfde richting. Het optimaliseren van de metriek optimaliseert waarde. Geen vervorming van Goodhart.
Als θ = 90°: de metriekgradiënt staat loodrecht op waarde. Het optimaliseren van de metriek beweegt in M zonder helemaal in V te bewegen.
Als θ = 180°: de metriekgradiënt wijst tegengesteld aan waarde. Het optimaliseren van de metriek verslechtert actief de waarde.
Wanneer de metriek een doel wordt en agenten gradiëntklimming op de metriek toepassen, volgen zij f*(∇_M), niet ∇_V. De divergentiehoek θ groeit in de loop van de tijd naarmate de metriek wordt vervalst — de afbeelding f wordt minder isometrisch naarmate agenten de gebieden vinden waar ∇_M en ∇_V het meest divergeren, omdat dit de meest efficiënte paden voor vervalsen zijn.
De Divergentie Meten
Beschouw een eenvoudige tweedimensionale waarderuimte V = (vaardigheid, naleving) waarbij vaardigheid = werkelijk begrip van de student, naleving = vermogen van de student om testprocedures te volgen.
Multi-Objectieve Optimalisatie als Verdediging tegen Goodhart
Hamming's verdediging: gebruik meerdere metrieken tegelijkertijd. De geometrische interpretatie: in plaats van een enkele objectieve functie f(x) te maximaliseren, optimaliseert u over een vector van doelen F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Voor een vectordoelstelling is het oplossingsconcept de Pareto-grens: de verzameling van oplossingen waarbij geen doelstelling kan worden verbeterd zonder een ander in gevaar te brengen. De Pareto-grens vervangt het enkele optimum.
Waarom dit verdedigt tegen Goodhart: om de metrieken te vervalsen, moet een rationele agent een richting in waarderuimte vinden die alle fᵢ tegelijkertijd verhoogt (of op zijn minst de metrieken waarop zij worden beoordeeld). Als de metrieken voldoende onafhankelijk zijn — hun gradiëntrichtingen zijn voldoende niet-parallel — bestaat er geen dergelijke richting. Het vervalsen van één metriek verslechtert een ander.
De mate van verdediging: als de k metriekgradiënten de k-dimensionale ruimte overspannen (lineair onafhankelijk zijn), dan verslechtert het optimaliseren van een willekeurige echte subset van metrieken minstens één uitgesloten metriek. Volledige Pareto-verdediging vereist dat geen vervalsingsrichting bestaat die alle metrieken verbetert.
Metrische invariantie: een metriek M is invariant met betrekking tot irrelevant kenmerk α als M(x + δα) = M(x) voor veranderingen δ in α. De IQ-metriek is niet invariant met betrekking tot testvoorbereiding: IQ verandert wanneer studenten de test oefenen zonder echte winsten in de onderliggende constructie.
Een Pareto-Verdedigde Metriek-Systeem Ontwerpen
Beschouw het evalueren van een onderzoekswetenschapper op een twee-metrieken-systeem: M₁ = publicaties per jaar, M₂ = citaatsnelheid per paper (citaten per paper).