English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

gäst
1 / ?

Värdeutrymme vs Mätutrymme

Modellera världen som två utrymmen:

Värdeutrymme V: mängden av världens tillstånd med avseende på vad du faktiskt bryr dig om. Punkter i V representerar olika nivåer av den verkligt underliggande storheten (studentlärande, militär framgång, ekonomisk välbefinnande).

Mätutrymme M: mängden av värden som måttet kan anta. Ett mått är en funktion f: V → M — en avbildning från värdeutrymme till mätutrymme.

Ett giltigt mått är ett där f är nära en isometri i den relevanta regionen: lika förändringar i M motsvarar lika förändringar i V. Närliggande punkter i M motsvarar närliggande punkter i V.

Ett förvrängde mått är ett där f är icke-isometrisk: måttet komprimerar vissa regioner av V (vilket gör stora förändringar osynliga) och expanderar andra (vilket gör små förändringar verka stora). IQ-kalibreringen är en designad förvrängning: den mappar den råa poängfördelningen till en Gaussisk fördelning i M, oavsett den verkliga intelligensfördelningen i V.

Goodharts lag i avbildningstermer: när M blir ett mål tillämpar agenter gradientuppstigning i M. Eftersom f är en förvrängning motsvarar gradientuppstigning i M inte gradientuppstigning i V. Agenten rör sig i M utan att röra sig (eller röra sig bakåt) i V.

Metrisk förvrängning: Värdeutrymme vs Mätutrymme

Prova metrisk giltighet

Ett företag utvärderar anställdas prestanda på en 1-5-stjärnig skala. Skalan är kalibrerad så att 80% av de anställda får 3 eller högre. Prestanda granskningssystemet används både för ersättningsbeslut (där rangordning är viktig) och förbättringsplaner (där absolut nivå är viktig).

Är detta mått närmare en isometrisk avbildning eller en förvrängd avbildning av verklig prestanda? Förklara med hjälp av begreppen komprimering och expansion. Sedan: för vilket användningsfall (ersättning eller förbättringsplaner) spelar förvrängningen större roll, och varför?

Gradientuppstigning i fel utrymme

Modellera optimeringproblemet geometriskt. Låt V = värdeutrymme (verklig studentlärande, militär framgång, etc.) och M = mätutrymme (testpoäng, kroppsräkningar, etc.).

Gradienten för verkligt värde: ∇_V(value) pekar i riktningen i V som ökar den underliggande storheten som du bryr dig om.

Gradienten för måttet: ∇_M(metric) pekar i riktningen i M som ökar måttet.

Eftersom f: V → M inte är en isometri är gradienten för måttet i värdeutrymme (f(∇_M)) inte i linje med ∇_V. Vinkeln mellan dem, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mäter allvarlighetsgraden för Goodhart-misslyckandet.

Om θ = 0: pekar metrisk gradient och värdegradient samma riktning. Optimering av måttet optimerar värde. Ingen Goodhart-förvrängning.

Om θ = 90°: är metrisk gradient ortogonal mot värde. Optimering av måttet flyttar i M utan att röra sig i V alls.

Om θ = 180°: pekar metrisk gradient motsatt mot värde. Optimering av måttet försämrar aktivt värde.

När måttet blir ett mål och agenter tillämpar gradientuppstigning på måttet följer de f*(∇_M), inte ∇_V. Divergensvinkeln θ växer över tid när måttet spelas - avbildningen f blir mindre isometrisk när agenter hittar regionerna där ∇_M och ∇_V divergerar mest, eftersom det är de mest effektiva vägarna för att spela systemet.

Mäta divergensen

Betrakta ett enkelt tvådimensionellt värdeutrymme V = (skicklighet, efterlevnad) där skicklighet = studentens faktiska förståelse, efterlevnad = studentens förmåga att följa testtagningsprocedurer.

Ett testmått M = 0,3 × skicklighet + 0,7 × efterlevnad (en specifik linjär kombination, där efterlevnad har 70% vikt).

I denna 2D-modell är gradienten för måttet vektorn (0,3, 0,7) i (skicklighet, efterlevnad)-rummet. En student optimerar måttet genom att endast förbättra efterlevnaden (genom att röra sig i (0, 1)-riktningen i värdeutrymmet). Beräkna cosinus för vinkeln mellan metrisk gradient och den rena skicklighetsviktningen (1, 0). Förklara: är metrisk gradient väl justerad med "ökad skicklighet" (θ liten) eller dåligt justerad (θ stor)? Vad förutsäger detta om vad som händer när studenter optimerar för detta mått?

Flermålsoptimering som försvar mot Goodhart

Hammings försvar: använd flera mått samtidigt. Den geometriska tolkningen: istället för att maximera en enda objektivfunktion f(x), optimera över en vektor av mål F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

För ett vektormål är lösningskonceptet Pareto-gränsen: mängden av lösningar där inget mål kan förbättras utan att försämra ett annat. Pareto-gränsen ersätter det enskilda optimumet.

Varför detta försvarar mot Goodhart: för att spela systemmåtten måste en rationell agent hitta en riktning i värdeutrymmet som ökar alla fᵢ samtidigt (eller åtminstone de mått de bedöms på). Om måtten är tillräckligt oberoende — deras gradientriktningar är tillräckligt icke-parallella — finns det ingen sådan riktning. Att spela ett mått försämrar ett annat.

Försvarets omfattning: om de k metriska gradienterna sträcker sig över det k-dimensionella rummet (är linjärt oberoende), så försämrar optimering av någon riktig delmängd av mått åtminstone ett exkluderat mål. Full Pareto-försvar kräver att ingen spelningsriktning existerar som förbättrar alla mål.

Mätinvarians: ett mått M är invariant med avseende på irrelevant attribut α om M(x + δα) = M(x) för förändringar δ i α. IQ-måttet är inte invariant med avseende på testtagningspraxis: IQ ändras när studenter tränar testet utan verklig vinning i den underliggande konstruktionen.

Utforma ett Pareto-försvarsmätsystem

Betrakta att utvärdera en forskningsvetare på ett tvåmåttssystem: M₁ = publikationer per år, M₂ = citeringsgrad per artikel (citeringar per artikel).

Förklara geometriskt varför dessa två mått tillsammans är svårare att spela än något mål ensamt. Specifikt: beskriv en strategi för att maximera M₁ ensamt, en strategi för att maximera M₂ ensamt, och visa sedan att var och en av dessa strategier försämrar det andra måttet. Sedan: finns det någon restspelningsstrategi som ökar båda samtidigt utan att producera verkligt forskningsvärde, och i så fall vilken är den?