數值空間與測量空間
將世界建模為兩個空間:
數值空間 V:世界相對於你真正關心的事物的一組狀態。V 中的點代表不同水平的底層量(學生學習、軍事進展、經濟福利)。
測量空間 M:度量可以取得的值的集合。一個度量是函數 f: V → M——從數值空間到測量空間的映射。
一個有效的度量是 f 在相關區域接近等距映射的:M 中的相等變化對應於 V 中的相等變化。M 中的相鄰點對應於 V 中的相鄰點。
一個扭曲的度量是 f 不是等距映射的:該度量壓縮 V 的某些區域(使大變化不可見)並擴展其他區域(使小變化顯得很大)。IQ 校準是一個設計的扭曲:它將原始分數分佈映射到 M 中的高斯分佈,無論 V 中智力的真實分佈如何。
古德哈特定律在映射術語中:當 M 成為目標時,代理對 M 應用梯度上升。由於 f 是一個扭曲,M 中的梯度上升不對應於 V 中的梯度上升。代理在 M 中移動而不在 V 中移動(或向後移動)。
測試度量的有效性
一家公司在 1-5 星等級上評估員工績效。該等級經過校準,使得 80% 的員工獲得 3 分或更高。績效評審系統用於薪酬決策(其中排序重要)和改進計劃(其中絕對水平重要)。
在錯誤空間中的梯度上升
在幾何上建模優化問題。設 V = 數值空間(真實學生學習、軍事進展等)及 M = 度量空間(測試分數、傷亡人數等)。
真實價值的梯度:∇_V(value) 指向 V 中增加你關心的底層數量的方向。
度量的梯度:∇_M(metric) 指向 M 中增加度量的方向。
因為 f: V → M 不是等距映射,價值空間中度量的梯度(f(∇_M))未與 ∇_V 對齐。它們之間的角度 θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)),衡量古德哈特失敗的嚴重程度。
如果 θ = 0:度量梯度和價值梯度指向同一方向。優化度量會優化價值。沒有古德哈特腐敗。
如果 θ = 90°:度量梯度垂直於價值。優化度量在 M 中移動而不在 V 中移動。
如果 θ = 180°:度量梯度指向與價值相反的方向。優化度量會主動降低價值。
當度量成為目標且代理對度量應用梯度上升時,他們遵循 f*(∇_M),而不是 ∇_V。隨著度量被操縱,發散角 θ 隨時間增加——映射 f 變得不那麼等距,因為代理找到 ∇_M 和 ∇_V 發散最大的區域,因為那些是操縱最有效的路徑。
測量發散
考慮一個簡單的二維數值空間 V = (skill, compliance),其中 skill = 學生的實際理解,compliance = 學生遵循考試程序的能力。
一個測試度量 M = 0.3 × skill + 0.7 × compliance(一個特定的線性組合,其中遵從性有 70% 的權重)。
多目標優化作為針對古德哈特的防御
漢明的防御:同時使用多個度量。幾何解釋:與其最大化單個目標函數 f(x),而是在一個目標向量 F(x) = (f₁(x), f₂(x), ..., fₖ(x)) 上優化。
對於向量目標,解決方案概念是帕累托邊界:沒有目標可以改進而不降低另一個目標的解決方案集合。帕累托邊界替代了單個最優值。
為什麼這防禦古德哈特:要操縱度量,理性代理必須在數值空間中找到一個方向,同時增加所有 fᵢ(或至少他們被評判的度量)。如果度量足夠獨立——他們的梯度方向足夠非平行——就沒有這樣的方向。操縱一個度量降低另一個。
防御程度:如果 k 個度量梯度跨越 k 維空間(線性無關),那麼優化任何度量的正確子集會降低至少一個被排除的度量。完整帕累托防御要求不存在改進所有度量的遊戲方向。
測量不變性:度量 M 關於無關屬性 α 是不變的,如果 M(x + δα) = M(x) 對於 α 中的變化 δ。IQ 度量關於考試準備不是不變的:當學生練習考試而沒有在底層結構中進行真正的收益時,IQ 會改變。
設計帕累托防御的度量系統
考慮在兩個度量系統上評估研究科學家:M₁ = 每年發表數,M₂ = 每篇論文的引用率(每篇論文的引用)。