Ruang Nilai vs Ruang Pengukuran
Anggap dunia sebagai dua ruang:
Ruang Nilai V: set segala keadaan dunia yang berkaitan dengan hal-hal yang Anda pedulikan sebenarnya. Titik dalam V mewakili tingkat yang berbeda dari kuantitas yang benar-benar mendasar (belajar siswa, kemajuan militer, kesejahteraan ekonomi).
Ruang Pengukuran M: set semua nilai yang metrik dapat ambil. Sebuah metrik adalah fungsi f: V → M — sebuah peta dari ruang nilai ke ruang pengukuran.
Sebuah metrik yang valid adalah satu di mana f dekat dengan isometri dalam region yang relevan: perubahan setara dalam M berkorespondensi dengan perubahan setara dalam V. Titik dekat dalam M berkorespondensi dengan titik dekat dalam V.
Sebuah metrik yang distorsi adalah satu di mana f non-isometric: metrik mengompresi beberapa region dari V (memungkiri perubahan besar) dan memperluas yang lain (memperbesar perubahan kecil). Kalibrasi IQ adalah distorsi yang dirancang: itu mampung nilai skor acuan ke Gaussian dalam M, terlepas dari distribusi kecerdasan yang benar dalam V.
Hukum Goodhart dalam istilah peta: ketika M menjadi target, agen melakukan gradient ascent dalam M. Karena f adalah distorsi, gradient ascent dalam M tidak berkorespondensi dengan gradient ascent dalam V. Agennya bergerak dalam M tanpa bergerak (atau bergerak mundur) dalam V.
Menguji Ketersediaan Metrik
Perusahaan menilai kinerja karyawan pada skala 1-5 bintang. Skala tersebut dikalibrasi agar 80% karyawan menerima 3 atau lebih tinggi. Sistem ulasan kinerja digunakan untuk keputusan kompensasi (di mana peringkat-urut berkaitan) dan rencana perbaikan (di mana tingkat absolut berkaitan).
Gradien Asend di Ruang Salah
Modelkan masalah optimisasi secara geometris. Biarkan V = ruang nilai (belajar sebenarnya siswa, kemajuan militer, dll.) dan M = ruang metrik (skor ujian, korban, dll.).
Gradien dari nilai sebenarnya: ∇_V(value) menunjuk ke arah di V yang meningkatkan jumlah yang Anda khawatirkan secara langsung.
Gradien dari metrik: ∇_M(metric) menunjuk ke arah di M yang meningkatkan metrik.
Karena f: V → M bukan isometri, gradien metrik dalam ruang nilai (f(∇_M)) tidak aline dengan ∇_V. Sudut antara mereka, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mengukur keparahan kegagalan Goodhart.
Jika θ = 0: gradien metrik dan gradien nilai sebenarnya berarah yang sama. Mengoptimalkan metrik mengoptimalkan nilai. Tidak ada kotoran Goodhart.
Jika θ = 90°: gradien metrik orthogonal terhadap nilai. Mengoptimalkan metrik bergerak di M tanpa bergerak di V sama sekali.
Jika θ = 180°: gradien metrik mengarah sebaliknya nilai. Mengoptimalkan metrik secara aktif menurunkan nilai.
Ketika metrik menjadi target dan agen menerapkan asend gradien pada metrik, mereka mengikuti f*(∇_M), bukan ∇_V. Sudut divergensi θ bertambah besar selama waktu karena metrik digame — pemetaan f menjadi kurang isometrik karena agen menemukan region di mana ∇_M dan ∇_V bercerai, karena itu adalah jalur yang paling efisien untuk gaming.
Mengukur Divergensi
Sertakan sebuah ruang nilai sederhana dua dimensi V = (keterampilan, ketaatan) di mana keterampilan = pemahaman sebenarnya siswa, ketaatan = kemampuan siswa untuk mengikuti prosedur tes.
Metrik tes M = 0.3 × keterampilan + 0.7 × ketaatan (kombinasi linear khusus, di mana ketaatan memiliki bobot 70%).
Optimasi Multi-Objektif sebagai Pertahanan Terhadap Goodhart
Pertahanan Hamming: gunakan beberapa metrik secara bersamaan. Interpretasi geometrik: bukan meningkatkan fungsi objektif tunggal f(x), optimalkan vektor objektif F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Untuk tujuan vektor, konsep solusi adalah garis Pareto: setiap solusi di mana tidak ada tujuan yang dapat ditingkatkan tanpa menurunkan tujuan lain. Garis Pareto menggantikan optimum tunggal.
Mengapa ini melindungi terhadap Goodhart: untuk menggame metrik, agen rasional harus menemukan arah dalam ruang nilai yang meningkatkan semua fᵢ secara bersamaan (atau setidaknya metrik yang mereka pertimbangkan). Jika metrik cukup independen - gradien mereka cukup tidak paralel - tidak ada arah semacam itu. Menggame satu metrik akan menurunkan metrik lain.
Derajat perlindungan: jika gradien k metrik menutupi ruang k-dimensi (linearly independent), maka mengoptimalkan setiap subset proper metrik akan menurunkan setidaknya satu metrik yang dikecualikan. Perlindungan Pareto penuh memerlukan bahwa tidak ada arah gaming yang ada yang meningkatkan semua metrik.
Stabilitas pengukuran: metrik M stabil terhadap atribut tidak relevan α jika M(x + δα) = M(x) untuk perubahan δ dalam α. Metrik IQ tidak stabil terhadap praktik tes: IQ berubah saat siswa latihan tes tanpa pencapaian nyata dalam konstruksi dasar.
Desain Sistem Metrik yang Dilindungi Pareto
Sertakan mengevaluasi ilmuwan penelitian pada sistem dua-metrik: M₁ = publikasi per tahun, M₂ = tingkat citasi per artikel (citations per paper).