English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

гість
1 / ?
назад до уроків

Простір значень проти простору вимірювання

Моделюйте світ як два простори:

Простір значень V: набір станів світу щодо того, що вам дійсно важливо. Точки в V представляють різні рівні справжньої базової величини (навчання учнів, військовий прогрес, економічне благополуччя).

Простір вимірювання M: набір значень, які може набути метрика. Метрика — це функція f: V → M — відображення з простору значень у простір вимірювання.

Коректна метрика — це та, де f близька до ізометрії в релевантній області: рівні зміни в M відповідають рівним змінам у V. Близькі точки в M відповідають близьким точкам у V.

Спотворена метрика — це та, де f не є ізометрією: метрика стискає деякі області V (роблячи великі зміни невидимими) і розширює інші (роблячи малі зміни великими). Калібрування IQ — це спеціально розроблене спотворення: вона відображає розподіл сирих оцінок у Гаусіан у M, незалежно від справжнього розподілу інтелекту у V.

Закон Гудхарта в термінах відображення: коли M стає цільовою функцією, агенти застосовують градієнтне піднесення у M. Оскільки f є спотворенням, градієнтне піднесення у M не відповідає градієнтному піднесенню у V. Агент рухається в M без руху (або руху назад) у V.

Спотворення метрики: Простір значень проти простору вимірювання

Перевірка коректності метрики

Компанія оцінює продуктивність працівника за шкалою від 1 до 5 зірок. Шкала калібрується так, щоб 80% працівників отримали 3 або вище. Систему перегляду продуктивності використовують як для рішень щодо компенсації (де важливий порядок рангів), так і для планів вдосконалення (де важливий абсолютний рівень).

Чи є ця метрика ближче до ізометричного відображення чи спотвореного відображення справжньої продуктивності? Поясніть, використовуючи поняття стиснення та розширення. Потім: для якого випадку використання (компенсація чи плани вдосконалення) спотворення має більше значення, і чому?

Градієнтне піднесення в неправильному просторі

Моделюйте задачу оптимізації геометрично. Нехай V = простір значень (справжнє навчання учнів, військовий прогрес тощо) і M = простір метрики (тестові оцінки, кількість втрат тощо).

Градієнт справжньої цінності: ∇_V(value) вказує в напрямку у V, який збільшує базову величину, якої ви дбаєте.

Градієнт метрики: ∇_M(metric) вказує в напрямку у M, який збільшує метрику.

Оскільки f: V → M не є ізометрією, градієнт метрики в просторі значень (f(∇_M)) не вирівняний з ∇_V. Кут між ними, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), вимірює серйозність відмови Гудхарта.

Якщо θ = 0: градієнт метрики й градієнт значення вказують в один бік. Оптимізація метрики оптимізує значення. Немає спотворення Гудхарта.

Якщо θ = 90°: градієнт метрики ортогональний значенню. Оптимізація метрики рухається у M без руху у V взагалі.

Якщо θ = 180°: градієнт метрики вказує в протилежному значенню напрямку. Оптимізація метрики активно деградує значення.

Коли метрика стає цільовою функцією й агенти застосовують градієнтне піднесення на метриці, вони слідують f*(∇_M), не ∇_V. Кут розбіжності θ зростає з часом, коли метрика маніпулюється — відображення f стає менш ізометричним, коли агенти знаходять області, де ∇_M і ∇_V розходяться найбільше, оскільки це найефективніші шляхи для маніпуляції.

Вимірювання розбіжності

Розглянемо простий двовимірний простір значень V = (навичка, відповідність) де навичка = справжнє розуміння учнем, відповідність = здатність учня дотримуватися процедур складання тестів.

Метрика тесту M = 0,3 × навичка + 0,7 × відповідність (специфічна лінійна комбінація, де відповідність має вагу 70%).

У цій 2D моделі градієнт метрики — це вектор (0,3, 0,7) у просторі (навичка, відповідність). Учень оптимізує метрику, поліпшуючи тільки відповідність (рухаючись у напрямку (0, 1) у просторі значень). Обчисліть косинус кута між градієнтом метрики й напрямком чистої навички (1, 0). Поясніть: чи добре вирівняний градієнт метрики з 'зростанням навички' (θ мало) чи погано вирівняний (θ багато)? Що це передбачає щодо того, що відбувається, коли учні оптимізують цю метрику?

Багатоцільова оптимізація як захист від Гудхарта

Захист Хеммінга: використовуйте декілька метрик одночасно. Геометрична інтерпретація: замість максимізації однієї функції цілі f(x), оптимізуйте за вектором цілей F(x) = (f₁(x), f₂(x), ..., fₖ(x)).

Для векторної цілі концепція розв'язку — фронтир Парето: набір розв'язків, де жодна мета не може бути поліпшена без погіршення іншої. Фронтир Парето замінює один оптимум.

Чому це захищає від Гудхарта: щоб маніпулювати метриками, раціональний агент повинен знайти напрямок у просторі значень, який збільшує всі fᵢ одночасно (або принаймні метрики, за якими його судять). Якщо метрики достатньо незалежні — їхні напрямки градієнта достатньо не паралельні — така напрямку не існує. Маніпуляція однією метрикою деградує іншу.

Ступінь захисту: якщо k градієнтів метрики охоплюють k-вимірний простір (лінійно незалежні), то оптимізація будь-якої правильної підмножини метрик деградує щонайменше одну виключену метрику. Повний захист Парето вимагає, щоб не існувало напрямку маніпуляції, яка поліпшує всі метрики.

Інваріантність вимірювання: метрика M інваріантна щодо нерелевантного атрибута α, якщо M(x + δα) = M(x) для змін δ в α. Метрика IQ не інваріантна щодо практики складання тесту: IQ змінюється, коли учні практикують тест без справжніх досягнень у базовій конструкції.

Розробіть систему метрик із захистом Парето

Розглянемо оцінювання дослідника за двометричною системою: M₁ = публікацій на рік, M₂ = коефіцієнт цитування на статтю (цитування на статтю).

Поясніть геометрично, чому ці дві метрики разом важче маніпулювати, ніж будь-яка метрика окремо. Конкретно: опишіть стратегію максимізації M₁ окремо, стратегію максимізації M₂ окремо, а потім покажіть, що кожна з цих стратегій деградує іншу метрику. Потім: чи існує якась залишкова стратегія маніпуляції, яка збільшує обидві одночасно без виробництва справжньої дослідницької цінності, і якщо так, то яка це?