Простір значень проти простору вимірювання
Моделюйте світ як два простори:
Простір значень V: набір станів світу щодо того, що вам дійсно важливо. Точки в V представляють різні рівні справжньої базової величини (навчання учнів, військовий прогрес, економічне благополуччя).
Простір вимірювання M: набір значень, які може набути метрика. Метрика — це функція f: V → M — відображення з простору значень у простір вимірювання.
Коректна метрика — це та, де f близька до ізометрії в релевантній області: рівні зміни в M відповідають рівним змінам у V. Близькі точки в M відповідають близьким точкам у V.
Спотворена метрика — це та, де f не є ізометрією: метрика стискає деякі області V (роблячи великі зміни невидимими) і розширює інші (роблячи малі зміни великими). Калібрування IQ — це спеціально розроблене спотворення: вона відображає розподіл сирих оцінок у Гаусіан у M, незалежно від справжнього розподілу інтелекту у V.
Закон Гудхарта в термінах відображення: коли M стає цільовою функцією, агенти застосовують градієнтне піднесення у M. Оскільки f є спотворенням, градієнтне піднесення у M не відповідає градієнтному піднесенню у V. Агент рухається в M без руху (або руху назад) у V.
Перевірка коректності метрики
Компанія оцінює продуктивність працівника за шкалою від 1 до 5 зірок. Шкала калібрується так, щоб 80% працівників отримали 3 або вище. Систему перегляду продуктивності використовують як для рішень щодо компенсації (де важливий порядок рангів), так і для планів вдосконалення (де важливий абсолютний рівень).
Градієнтне піднесення в неправильному просторі
Моделюйте задачу оптимізації геометрично. Нехай V = простір значень (справжнє навчання учнів, військовий прогрес тощо) і M = простір метрики (тестові оцінки, кількість втрат тощо).
Градієнт справжньої цінності: ∇_V(value) вказує в напрямку у V, який збільшує базову величину, якої ви дбаєте.
Градієнт метрики: ∇_M(metric) вказує в напрямку у M, який збільшує метрику.
Оскільки f: V → M не є ізометрією, градієнт метрики в просторі значень (f(∇_M)) не вирівняний з ∇_V. Кут між ними, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), вимірює серйозність відмови Гудхарта.
Якщо θ = 0: градієнт метрики й градієнт значення вказують в один бік. Оптимізація метрики оптимізує значення. Немає спотворення Гудхарта.
Якщо θ = 90°: градієнт метрики ортогональний значенню. Оптимізація метрики рухається у M без руху у V взагалі.
Якщо θ = 180°: градієнт метрики вказує в протилежному значенню напрямку. Оптимізація метрики активно деградує значення.
Коли метрика стає цільовою функцією й агенти застосовують градієнтне піднесення на метриці, вони слідують f*(∇_M), не ∇_V. Кут розбіжності θ зростає з часом, коли метрика маніпулюється — відображення f стає менш ізометричним, коли агенти знаходять області, де ∇_M і ∇_V розходяться найбільше, оскільки це найефективніші шляхи для маніпуляції.
Вимірювання розбіжності
Розглянемо простий двовимірний простір значень V = (навичка, відповідність) де навичка = справжнє розуміння учнем, відповідність = здатність учня дотримуватися процедур складання тестів.
Метрика тесту M = 0,3 × навичка + 0,7 × відповідність (специфічна лінійна комбінація, де відповідність має вагу 70%).
Багатоцільова оптимізація як захист від Гудхарта
Захист Хеммінга: використовуйте декілька метрик одночасно. Геометрична інтерпретація: замість максимізації однієї функції цілі f(x), оптимізуйте за вектором цілей F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Для векторної цілі концепція розв'язку — фронтир Парето: набір розв'язків, де жодна мета не може бути поліпшена без погіршення іншої. Фронтир Парето замінює один оптимум.
Чому це захищає від Гудхарта: щоб маніпулювати метриками, раціональний агент повинен знайти напрямок у просторі значень, який збільшує всі fᵢ одночасно (або принаймні метрики, за якими його судять). Якщо метрики достатньо незалежні — їхні напрямки градієнта достатньо не паралельні — така напрямку не існує. Маніпуляція однією метрикою деградує іншу.
Ступінь захисту: якщо k градієнтів метрики охоплюють k-вимірний простір (лінійно незалежні), то оптимізація будь-якої правильної підмножини метрик деградує щонайменше одну виключену метрику. Повний захист Парето вимагає, щоб не існувало напрямку маніпуляції, яка поліпшує всі метрики.
Інваріантність вимірювання: метрика M інваріантна щодо нерелевантного атрибута α, якщо M(x + δα) = M(x) для змін δ в α. Метрика IQ не інваріантна щодо практики складання тесту: IQ змінюється, коли учні практикують тест без справжніх досягнень у базовій конструкції.
Розробіть систему метрик із захистом Парето
Розглянемо оцінювання дослідника за двометричною системою: M₁ = публікацій на рік, M₂ = коефіцієнт цитування на статтю (цитування на статтю).