Ruang Nilai vs Ruang Pengukuran
Modelkan dunia sebagai dua ruang:
Ruang nilai V: himpunan keadaan dunia sehubungan dengan apa yang benar-benar Anda pedulikan. Titik-titik di V mewakili tingkat berbeda dari kuantitas mendasar yang sebenarnya (pembelajaran siswa, kemajuan militer, kesejahteraan ekonomi).
Ruang pengukuran M: himpunan nilai yang dapat diambil oleh metrik. Metrik adalah fungsi f: V → M — pemetaan dari ruang nilai ke ruang pengukuran.
Metrik yang valid adalah salah satu di mana f mendekati isometri di wilayah yang relevan: perubahan yang sama di M sesuai dengan perubahan yang sama di V. Titik-titik terdekat di M sesuai dengan titik-titik terdekat di V.
Metrik yang terdistorsi adalah salah satu di mana f bukan isometri: metrik mengompres beberapa wilayah V (membuat perubahan besar tidak terlihat) dan memperluas wilayah lain (membuat perubahan kecil tampak besar). Kalibrasi IQ adalah distorsi yang dirancang: ia memetakan distribusi skor mentah ke Gaussian di M, terlepas dari distribusi kecerdasan yang sebenarnya di V.
Hukum Goodhart dalam istilah pemetaan: ketika M menjadi target, agen menerapkan pendakian gradien di M. Karena f adalah distorsi, pendakian gradien di M tidak sesuai dengan pendakian gradien di V. Agen bergerak di M tanpa bergerak (atau bergerak mundur) di V.
Menguji Validitas Metrik
Sebuah perusahaan mengevaluasi kinerja karyawan pada skala bintang 1-5. Skala dikalibrasi sehingga 80% karyawan menerima 3 atau lebih tinggi. Sistem ulasan kinerja digunakan untuk keputusan kompensasi (di mana urutan peringkat penting) dan rencana perbaikan (di mana level absolut penting).
Pendakian Gradien di Ruang yang Salah
Modelkan masalah optimasi secara geometris. Biarkan V = ruang nilai (pembelajaran siswa sebenarnya, kemajuan militer, dll) dan M = ruang metrik (skor tes, jumlah tubuh, dll).
Gradien dari nilai sebenarnya: ∇_V(value) menunjuk ke arah di V yang meningkatkan kuantitas mendasar yang Anda pedulikan.
Gradien metrik: ∇_M(metric) menunjuk ke arah di M yang meningkatkan metrik.
Karena f: V → M bukan isometri, gradien metrik di ruang nilai (f(∇_M)) tidak selaras dengan ∇_V. Sudut antara mereka, θ = arccos(∇_V · f(∇_M) / (|∇_V| |f*(∇_M)|)), mengukur tingkat keparahan kegagalan Goodhart.
Jika θ = 0: gradien metrik dan gradien nilai menunjuk ke arah yang sama. Mengoptimalkan metrik mengoptimalkan nilai. Tidak ada korupsi Goodhart.
Jika θ = 90°: gradien metrik ortogonal dengan nilai. Mengoptimalkan metrik bergerak di M tanpa bergerak di V sama sekali.
Jika θ = 180°: gradien metrik menunjuk berlawanan dengan nilai. Mengoptimalkan metrik secara aktif mengurangi nilai.
Ketika metrik menjadi target dan agen menerapkan pendakian gradien pada metrik, mereka mengikuti f*(∇_M), bukan ∇_V. Sudut divergensi θ tumbuh seiring waktu karena metrik dimanipulasi — pemetaan f menjadi kurang isometri ketika agen menemukan wilayah di mana ∇_M dan ∇_V paling banyak divergen, karena itulah jalan paling efisien untuk manipulasi.
Mengukur Divergensi
Pertimbangkan ruang nilai dua dimensi sederhana V = (skill, compliance) di mana skill = pemahaman sebenarnya siswa, compliance = kemampuan siswa untuk mengikuti prosedur pengambilan tes.
Optimasi Multi-Tujuan sebagai Pertahanan Terhadap Goodhart
Pertahanan Hamming: gunakan beberapa metrik secara bersamaan. Interpretasi geometris: alih-alih memaksimalkan fungsi objektif tunggal f(x), optimalkan atas vektor tujuan F(x) = (f₁(x), f₂(x), ..., fₖ(x)).
Untuk tujuan vektor, konsep solusi adalah perbatasan Pareto: himpunan solusi di mana tidak ada tujuan yang dapat ditingkatkan tanpa menurunkan yang lain. Perbatasan Pareto menggantikan optimum tunggal.
Mengapa ini melindungi dari Goodhart: untuk memanipulasi metrik, agen rasional harus menemukan arah dalam ruang nilai yang meningkatkan semua fᵢ secara bersamaan (atau setidaknya metrik yang mereka dinilai). Jika metrik cukup independen — arah gradien mereka cukup non-parallel — tidak ada arah seperti itu. Memanipulasi satu metrik mengurangi yang lain.
Tingkat pertahanan: jika k gradien metrik menjangkau ruang dimensi-k (bebas linear), maka mengoptimalkan subset metrik yang tepat mengurangi setidaknya satu metrik yang dikecualikan. Pertahanan Pareto penuh memerlukan bahwa tidak ada arah manipulasi yang meningkatkan semua metrik.
Invarian pengukuran: metrik M invarian sehubungan dengan atribut α yang tidak relevan jika M(x + δα) = M(x) untuk perubahan δ dalam α. Metrik IQ tidak invarian sehubungan dengan praktik pengambilan tes: IQ berubah ketika siswa mempraktikkan tes tanpa keuntungan nyata dalam konstruk mendasar.
Desain Sistem Metrik yang Dilindungi Pareto
Pertimbangkan evaluasi ilmuwan penelitian pada sistem dua metrik: M₁ = publikasi per tahun, M₂ = tingkat kutipan per makalah (kutipan per makalah).