un — 측정하는 것을 얻는 기하학

un

게스트

1 / ?

수업 목록으로

가치 공간 vs 측정 공간

세계를 두 공간으로 모델링하세요:

가치 공간 V: 당신이 실제로 관심 있는 것과 관련하여 세계 상태의 집합입니다. V의 점들은 진정한 기본 수량(학생 학습, 군사 진전, 경제적 웰빙)의 다양한 수준을 나타냅니다.

측정 공간 M: 메트릭이 취할 수 있는 값들의 집합입니다. 메트릭은 함수 f: V → M입니다 — 가치 공간에서 측정 공간으로의 매핑입니다.

유효한 메트릭은 f가 관련 영역에서 등거리 변환에 가까운 메트릭입니다: M의 동일한 변화는 V의 동일한 변화에 대응됩니다. M의 근처 점들은 V의 근처 점들에 대응됩니다.

왜곡된 메트릭은 f가 등거리 변환이 아닌 메트릭입니다: V의 일부 영역을 압축하여(큰 변화를 보이지 않게 함) 다른 영역을 확장합니다(작은 변화를 크게 보이게 함). IQ 교정은 설계된 왜곡입니다: V의 진정한 분포와 상관없이 원점수 분포를 M의 가우스 분포에 매핑합니다.

매핑 관점에서의 Goodhart 법칙: M이 목표가 되면 에이전트는 M에 대해 그래디언트 상승을 적용합니다. f가 왜곡이므로, M의 그래디언트 상승은 V의 그래디언트 상승에 대응되지 않습니다. 에이전트는 M에서 움직이지만 V에서는 움직이지 않습니다(또는 뒤로 움직입니다).

메트릭 왜곡: 가치 공간 vs 측정 공간

메트릭 타당성 테스트

회사가 직원 성과를 1-5 별 척도로 평가합니다. 척도는 80%의 직원이 3점 이상을 받도록 조정됩니다. 성과 리뷰 시스템은 급여 결정(순위 순서가 중요)과 개선 계획(절대 수준이 중요)에 모두 사용됩니다.

이 메트릭이 진정한 성과의 등거리 매핑에 더 가까운가, 아니면 왜곡된 매핑에 더 가까운가? 압축과 확장의 개념을 사용하여 설명하세요. 그 다음: 두 사용 사례(급여 또는 개선 계획) 중 어느 쪽에서 왜곡이 더 중요하고, 왜 그런지 설명하세요.

잘못된 공간에서의 그래디언트 상승

최적화 문제를 기하학적으로 모델링합니다. V = 가치 공간(진정한 학생 학습, 군사 진전 등)이고 M = 메트릭 공간(시험 점수, 신체 수 등)입니다.

진정한 가치의 그래디언트: ∇_V(value)는 V에서 당신이 관심 있는 기본 수량을 증가시키는 방향을 가리킵니다.

메트릭의 그래디언트: ∇_M(metric)은 M에서 메트릭을 증가시키는 방향을 가리킵니다.

f: V → M이 등거리 변환이 아니므로, 가치 공간에서 메트릭의 그래디언트(f(∇_M))는 ∇_V와 정렬되지 않습니다. 그들 사이의 각도 θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|))는 Goodhart 실패의 심각성을 측정합니다.

만약 θ = 0이면: 메트릭 그래디언트와 가치 그래디언트가 같은 방향을 가리킵니다. 메트릭을 최적화하면 가치를 최적화합니다. Goodhart 부패 없음.

만약 θ = 90°이면: 메트릭 그래디언트는 가치에 직교합니다. 메트릭을 최적화하면 M에서 움직이지만 V에서는 전혀 움직이지 않습니다.

만약 θ = 180°이면: 메트릭 그래디언트는 가치의 반대를 가리킵니다. 메트릭을 최적화하면 활발히 가치를 저하시킵니다.

메트릭이 목표가 되고 에이전트가 메트릭에 대해 그래디언트 상승을 적용하면, 그들은 ∇_V가 아닌 f*(∇_M)을 따릅니다. 발산 각도 θ는 메트릭이 게이밍될수록 시간이 지남에 따라 증가합니다 — ∇_M과 ∇_V가 가장 발산하는 영역들이 게이밍을 위한 가장 효율적인 경로이므로, f는 덜 등거리가 됩니다.

발산 측정

간단한 2차원 가치 공간 V = (skill, compliance)를 고려하세요. 여기서 skill = 학생의 실제 이해, compliance = 학생의 시험 응시 절차 따르기 능력입니다.

시험 메트릭 M = 0.3 × skill + 0.7 × compliance (특정 선형 조합, compliance 가중치는 70%).

이 2D 모델에서 메트릭의 그래디언트는 (skill, compliance) 공간의 벡터 (0.3, 0.7)입니다. 학생은 compliance만 개선하여 메트릭을 최적화합니다(가치 공간의 (0, 1) 방향으로 이동). 메트릭 그래디언트와 순수 skill 방향(1, 0) 사이의 각의 코사인을 계산하세요. 설명하세요: 메트릭 그래디언트가 'skill 증가'와 잘 정렬되어 있나요(θ 작음) 아니면 정렬이 나쁜가요(θ 큼)? 이것이 학생들이 이 메트릭을 최적화할 때 어떤 일이 일어날지에 대해 무엇을 예측합니까?

다중 목표 최적화를 Goodhart에 대한 방어로

Hamming의 방어: 동시에 여러 메트릭을 사용하세요. 기하학적 해석: 단일 목표 함수 f(x)를 최대화하는 대신, 목표의 벡터 F(x) = (f₁(x), f₂(x), ..., fₖ(x))에 대해 최적화하세요.

벡터 목표의 경우, 해의 개념은 Pareto 경계입니다: 다른 목표를 저하시키지 않고 어떤 목표도 개선될 수 없는 해의 집합입니다. Pareto 경계는 단일 최적값을 대체합니다.

이것이 Goodhart에 대해 방어하는 이유: 메트릭을 게이밍하기 위해, 합리적인 에이전트는 가치 공간에서 모든 fᵢ를 동시에 증가시키는 방향(또는 적어도 그들이 평가받는 메트릭)을 찾아야 합니다. 메트릭이 충분히 독립적이라면 — 그들의 그래디언트 방향이 충분히 비평행이라면 — 그러한 방향은 존재하지 않습니다. 한 메트릭을 게이밍하면 다른 메트릭을 저하시킵니다.

방어의 정도: k 메트릭 그래디언트가 k차원 공간을 스팬한다면(선형 독립), 메트릭의 모든 적절한 부분집합을 최적화하면 적어도 한 개의 제외된 메트릭을 저하시킵니다. 완전한 Pareto 방어는 모든 메트릭을 개선하는 게이밍 방향이 존재하지 않아야 합니다.

측정 불변성: 메트릭 M이 무관한 속성 α에 대해 불변이라면 M(x + δα) = M(x) for changes δ in α입니다. IQ 메트릭은 시험 응시 연습에 대해 불변이 아닙니다: 학생들이 진정한 기본 구조의 이득 없이 시험을 연습할 때 IQ는 변합니다.

Pareto-방어된 메트릭 시스템 설계

2-메트릭 시스템에서 연구 과학자를 평가하는 것을 고려하세요: M₁ = 연간 논문 수, M₂ = 논문당 인용률(논문당 인용 수).

이 두 메트릭이 어느 메트릭 단독보다 게이밍하기 어려운 이유를 기하학적으로 설명하세요. 구체적으로: M₁만 최대화하는 전략을 설명하고, M₂만 최대화하는 전략을 설명한 다음, 그 각각의 전략이 다른 메트릭을 저하시키는 방법을 보여주세요. 그 다음: 진정한 연구 가치를 생성하지 않으면서 두 메트릭을 동시에 증가시키는 잔존 게이밍 전략이 있는가? 있다면 그것은 무엇인가?