가치 공간 vs 측정 공간
세계를 두 공간으로 모델링하세요:
가치 공간 V: 당신이 실제로 관심 있는 것과 관련하여 세계 상태의 집합입니다. V의 점들은 진정한 기본 수량(학생 학습, 군사 진전, 경제적 웰빙)의 다양한 수준을 나타냅니다.
측정 공간 M: 메트릭이 취할 수 있는 값들의 집합입니다. 메트릭은 함수 f: V → M입니다 — 가치 공간에서 측정 공간으로의 매핑입니다.
유효한 메트릭은 f가 관련 영역에서 등거리 변환에 가까운 메트릭입니다: M의 동일한 변화는 V의 동일한 변화에 대응됩니다. M의 근처 점들은 V의 근처 점들에 대응됩니다.
왜곡된 메트릭은 f가 등거리 변환이 아닌 메트릭입니다: V의 일부 영역을 압축하여(큰 변화를 보이지 않게 함) 다른 영역을 확장합니다(작은 변화를 크게 보이게 함). IQ 교정은 설계된 왜곡입니다: V의 진정한 분포와 상관없이 원점수 분포를 M의 가우스 분포에 매핑합니다.
매핑 관점에서의 Goodhart 법칙: M이 목표가 되면 에이전트는 M에 대해 그래디언트 상승을 적용합니다. f가 왜곡이므로, M의 그래디언트 상승은 V의 그래디언트 상승에 대응되지 않습니다. 에이전트는 M에서 움직이지만 V에서는 움직이지 않습니다(또는 뒤로 움직입니다).
메트릭 타당성 테스트
회사가 직원 성과를 1-5 별 척도로 평가합니다. 척도는 80%의 직원이 3점 이상을 받도록 조정됩니다. 성과 리뷰 시스템은 급여 결정(순위 순서가 중요)과 개선 계획(절대 수준이 중요)에 모두 사용됩니다.
잘못된 공간에서의 그래디언트 상승
최적화 문제를 기하학적으로 모델링합니다. V = 가치 공간(진정한 학생 학습, 군사 진전 등)이고 M = 메트릭 공간(시험 점수, 신체 수 등)입니다.
진정한 가치의 그래디언트: ∇_V(value)는 V에서 당신이 관심 있는 기본 수량을 증가시키는 방향을 가리킵니다.
메트릭의 그래디언트: ∇_M(metric)은 M에서 메트릭을 증가시키는 방향을 가리킵니다.
f: V → M이 등거리 변환이 아니므로, 가치 공간에서 메트릭의 그래디언트(f(∇_M))는 ∇_V와 정렬되지 않습니다. 그들 사이의 각도 θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|))는 Goodhart 실패의 심각성을 측정합니다.
만약 θ = 0이면: 메트릭 그래디언트와 가치 그래디언트가 같은 방향을 가리킵니다. 메트릭을 최적화하면 가치를 최적화합니다. Goodhart 부패 없음.
만약 θ = 90°이면: 메트릭 그래디언트는 가치에 직교합니다. 메트릭을 최적화하면 M에서 움직이지만 V에서는 전혀 움직이지 않습니다.
만약 θ = 180°이면: 메트릭 그래디언트는 가치의 반대를 가리킵니다. 메트릭을 최적화하면 활발히 가치를 저하시킵니다.
메트릭이 목표가 되고 에이전트가 메트릭에 대해 그래디언트 상승을 적용하면, 그들은 ∇_V가 아닌 f*(∇_M)을 따릅니다. 발산 각도 θ는 메트릭이 게이밍될수록 시간이 지남에 따라 증가합니다 — ∇_M과 ∇_V가 가장 발산하는 영역들이 게이밍을 위한 가장 효율적인 경로이므로, f는 덜 등거리가 됩니다.
발산 측정
간단한 2차원 가치 공간 V = (skill, compliance)를 고려하세요. 여기서 skill = 학생의 실제 이해, compliance = 학생의 시험 응시 절차 따르기 능력입니다.
시험 메트릭 M = 0.3 × skill + 0.7 × compliance (특정 선형 조합, compliance 가중치는 70%).
다중 목표 최적화를 Goodhart에 대한 방어로
Hamming의 방어: 동시에 여러 메트릭을 사용하세요. 기하학적 해석: 단일 목표 함수 f(x)를 최대화하는 대신, 목표의 벡터 F(x) = (f₁(x), f₂(x), ..., fₖ(x))에 대해 최적화하세요.
벡터 목표의 경우, 해의 개념은 Pareto 경계입니다: 다른 목표를 저하시키지 않고 어떤 목표도 개선될 수 없는 해의 집합입니다. Pareto 경계는 단일 최적값을 대체합니다.
이것이 Goodhart에 대해 방어하는 이유: 메트릭을 게이밍하기 위해, 합리적인 에이전트는 가치 공간에서 모든 fᵢ를 동시에 증가시키는 방향(또는 적어도 그들이 평가받는 메트릭)을 찾아야 합니다. 메트릭이 충분히 독립적이라면 — 그들의 그래디언트 방향이 충분히 비평행이라면 — 그러한 방향은 존재하지 않습니다. 한 메트릭을 게이밍하면 다른 메트릭을 저하시킵니다.
방어의 정도: k 메트릭 그래디언트가 k차원 공간을 스팬한다면(선형 독립), 메트릭의 모든 적절한 부분집합을 최적화하면 적어도 한 개의 제외된 메트릭을 저하시킵니다. 완전한 Pareto 방어는 모든 메트릭을 개선하는 게이밍 방향이 존재하지 않아야 합니다.
측정 불변성: 메트릭 M이 무관한 속성 α에 대해 불변이라면 M(x + δα) = M(x) for changes δ in α입니다. IQ 메트릭은 시험 응시 연습에 대해 불변이 아닙니다: 학생들이 진정한 기본 구조의 이득 없이 시험을 연습할 때 IQ는 변합니다.
Pareto-방어된 메트릭 시스템 설계
2-메트릭 시스템에서 연구 과학자를 평가하는 것을 고려하세요: M₁ = 연간 논문 수, M₂ = 논문당 인용률(논문당 인용 수).