un — Hamming Ch 29: Anda Mendapat Apa yang Anda Ukur

un

guest

1 / ?

back to lessons

Bagaimana IQ Mendapat Distribusi Normalnya

Hamming membuka Bab 29 dengan memotong teliti pengujian IQ.

Diklaim: kecerdasan mengikuti distribusi normal dalam populasi. Pengukuran: buat skala kemungkinan akumulatif (kertas kemungkinan) dan plot skor. Skor jatuh pada garis lurus - menunjukkan distribusi normal.

Masalah yang diidentifikasi Hamming: ini bukanlah penemuan. Ini adalah konstruksi. Ujian IQ dikalibrasi dengan mengambil skor mentah dan menerapkan transformasi monoton yang menggeser distribusi kumulatif ke skala kemungkinan normal. Skor yang dihasilkan kemudian dideklarasikan untuk mengukur kecerdasan, yang didefinisikan sebagai apa yang diukur oleh tes yang dikalibrasi.

Hasil: kecerdasan, yang didefinisikan sebagai apa yang diukur oleh tes ini, mengikuti distribusi normal. Tentu saja itu - itu dirancang untuk itu. Distribusi normal bukanlah properti kecerdasan di dunia; itu adalah properti prosedur kalibrasi.

Umumnya Hamming: Anda mendapatkan apa yang Anda ukur. Alat, prosedur kalibrasi, dan definisi tidak independen. Mereka membentuk lingkaran tertutup. Apa yang diukur alat menjadi definisi dari apa yang nyata.

Contoh ujian kalkulusnya: dia bisa menghasilkan hampir setiap distribusi nilainya yang dia inginkan dengan memilih distribusi kesulitan pertanyaan. Ujian yang serba sulit menghasilkan distribusi bimodal (murid tahu atau tidak tahu). Ujian campuran menghasilkan kurva bel. Distribusi adalah artefak desain tes, bukan penemuan tentang murid.

Hukum Goodhart: Ketika Metrik menjadi Target

Mencari Lingkaran Sirkular

Analisis Hamming menunjukkan definisi lingkaran sirkular tiga langkah:

1. Desain alat dan prosedur kalibrasi.

2. Definisikan konstruksi sebagai 'apa yang alat ini ukur.'

3. Laporkan bahwa konstruksi memiliki properti distribusi yang dirancang ke dalam prosedur kalibrasi.

Temukan sistem pengukuran atau klasifikasi di bidang yang Anda ketahui di mana lingkaran sirkular beroperasi: alat atau prosedur dirancang untuk menghasilkan hasil tertentu, dan kemudian hasil itu dilaporkan sebagai penemuan tentang dunia. Identifikasi tiga langkah (alat, definisi, penemuan yang dilaporkan) dan jelaskan bagaimana sirkularitas bisa menyesatkan seseorang yang tidak mengetahui sejarah kalibrasi.

Ketika Ukuran Menjadi Target

Formulasi Hamming, sebelum Goodhart menamainya: ketika Anda menggunakan ukuran sebagai target, itu berhenti menjadi ukuran yang valid. Tindakan targeting memperkaya metrik.

Mechanism: sebelum targeting, metrik berkorelasi dengan nilai dasar. Setelah targeting, aktor rasional mengoptimalisasikan metrik secara langsung. Korelasi rusak karena sering kali yang paling mudah untuk meningkatkan metrik adalah menguraikan dari nilai dasar.

Kasus Hamming:

- Jumlah korban di Vietnam: digunakan sebagai ukuran kemajuan militer. Pasukan mengoptimalkan jumlah korban dengan menghitung objek yang tidak dapat diverifikasi. Metrik naik; kemajuan militer tidak.

- Pertumbuhan GNP: digunakan sebagai ukuran kesejahteraan ekonomi. Pertumbuhan GNP dapat dicapai dengan memproduksi hal-hal dengan nilai negatif (pembersihan limbah, pembangunan militer, konstruksi penjara). Metrik terpisah dari kesejahteraan.

- Nilai tes: digunakan sebagai ukuran belajar. Sekolah mengajarkan untuk tes. Nilai naik; pemahaman subjek dasar mungkin tidak.

Solusi Hamming: (1) ganti metrik secara berkala, sebelum orang sepenuhnya mengoptimalisasi; (2) gunakan beberapa metrik secara bersamaan - lebih sulit untuk mengoptimalkan semuanya sekaligus; (3) tidak pernah mengandalkan satu metrik untuk keputusan penting apa pun.

Identifikasi Mekanisme Korupsi

Suatu organisasi perangkat lunak mengukur produktivitas pengembang dengan menghitung baris kode (LOC) yang ditulis per minggu. Awalnya, LOC berkorelasi dengan produktivitas - pengembang aktif menulis lebih banyak kode daripada yang tidak aktif.

Deskripsikan secara spesifik bagaimana metrik LOC menjadi kotor saat digunakan sebagai target kinerja. Namakan setidaknya tiga perilaku konkrit yang pengembang rasional akan mengadopsi untuk mengoptimalisasi LOC tanpa meningkatkan produktivitas. Kemudian deskripsikan alternatif multi-metrik yang lebih sulit untuk dikotori dan jelaskan mengapa itu lebih sulit.

Masalah Jangkauan Dinamis

Hamming mengangkat masalah pengukuran halus: skala peringkat memiliki jangkauan dinamis, dan kebanyakan orang tidak menggunakannya.

Contoh: skala 1-10 di mana 5 adalah rata-rata. Banyak penilai menggunakan 4, 5, dan 6, tidak pernah mencapai 1 atau 9. Jangkauan dinamis penilaian mereka efektif 3 (dari 4 ke 6), meskipun skala menyediakan 10.

Konsekuensinya: seorang penilai yang menggunakan rentang penuh memiliki pengaruh 3× lebih besar pada peringkat rata-rata daripada yang mengkompresi ke tengah. Jika Anda menilai sesuatu yang tidak disukai sebagai 2 (rentang penuh) sementara penilai lain memberi yang mereka sukai nilai 6 (rentang kompresi), rata-rata menjadi 4 - ketidahan Anda mengatasi suka mereka meskipun keduanya memiliki suara yang sama dalam desain sistem peringkat.

Hubungan teori informasi Hamming: entropi (kejutan rata-rata) dari sebuah distribusi maksimum ketika distribusi tersebut merata. Sebuah skala peringkat di mana semua tingkatan digunakan secara sama mungkin mengomunikasikan informasi maksimum. Sebuah skala di mana hampir semua peringkat berkumpul di 5 sangat sedikit mengomunikasikan informasi - peringkat tersebut hampir tidak membawa informasi.

Nasihat praktisnya: gunakan seluruh rentang dinamis dari skala yang diberikan. Jika Anda diberikan skala dari 1 hingga 10, jangan anggapnya sebagai 1 hingga 6. Melakukannya mengurangi pengaruh Anda dan mengurangi informasi yang terkandung dalam penilaian Anda.

Informasi dan Rentang Dinamis

Dua dosen menilai pada skala 0-100. Professor A hanya menggunakan rentang 70-90 (mengkompresi menjadi 20 poin). Professor B menggunakan rentang penuh 0-100 (menggunakan 100 poin). Anggap distribusi nilai setiap dosen merata dalam rentang yang digunakan.

Menggunakan rumus entropi H = log₂(n) untuk distribusi merata atas n hasil yang sama kemungkinan, hitung informasi konten (dalam bit) dari satu nilai dari setiap dosen. Berapa kali lebih banyak informasi yang dibawa oleh nilai Professor B dibandingkan Professor A? Apa artinya hal ini untuk dewan sekolah pascasarjana yang menerima kedua nilai dari para dosen tersebut?