Apa Itu Memasangkan Model Sebenarnya
Model simulasi membuat klaim matematis: output sistem nyata terletak pada (dekat) permukaan khusus M dalam ruang pengamatan.
Biarkan sistem nyata menghasilkan pengamatan y₁, y₂, ..., yₙ. Model memprediksi nilai ŷ₁, ŷ₂, ..., ŷₙ.
Sisa sebagai jarak: rᵢ = yᵢ - ŷᵢ. Setiap sisa mengukur jarak antara pengamatan dan prediksi model yang sesuai. Dalam ruang pengamatan n-dimensional, sisanya membentuk vektor r = y - ŷ.
Memasangkan kuadrat terkecil: pilih parameter model untuk meminimalkan ||r||² = Σrᵢ². Geometris: temukan titik ŷ pada permukaan model M terdekat ke vektor pengamatan y dalam jarak Euklides.
Ketika Sisa Menyebabkan Kesalahan
||r||² kecil tidak menjamin model yang valid. Dua mode kegagalan sistematis:
1. Bias sistematis: sisanya rᵢ kecil tetapi semua positif (atau semua negatif). Model secara konsisten melampaui atau melebihi prediksi. Geometris: ŷ terletak pada permukaan offset paralel ke manifold data yang benar — dekat dalam jarak, salah dalam struktur.
2. Manifold yang salah: sisanya kecil karena model memiliki parameter bebas cukup untuk memasang data pelatihan dengan tepat (overfitting). Permukaan model melalui titik data, tetapi melengkung liar antara mereka. Prediksi pada data baru buruk.
Mendeteksi Bias Sistematis
Model dengan rata-rata sisa nol mungkin masih memiliki bias sistematis yang bervariasi dengan variabel input.
Contoh: simulasi cuaca yang mengestimasi suhu 2°C terlalu rendah di musim panas dan terlalu tinggi di musim dingin memiliki rata-rata sisa sekitar 0 secara keseluruhan tahun, tetapi bias musiman jelas.
Diagnosa sisa: buat plot rᵢ terhadap setiap variabel input. Pola datar (tanpa tren) menyarankan tidak ada bias sistematis dari variabel tersebut. Pola tren mengungkapkan dimensi yang hilang dalam model.
Pertanyaan validasi Hamming — 'Apakah efek penting kecil bisa terlewatkan?' — secara geometris: apakah vektor sisa memiliki komponen dalam arah yang tidak ditutupi oleh ruang parameter model?
Offset Sistematis vs Bising Acak
Efek Hawthorne: subjek dalam studi mengubah perilaku karena tahu mereka sedang diamati, bukan karena perlakuan eksperimental.
Interpretasi Geometris
Biarkan manifold data sebenarnya M hidup di ruang yang ditutupi oleh variabel (x₁, x₂, ..., xₖ, konteks pengamatan).
Model mengabaikan konteks pengamatan. Ini pasang permukaan ke pengamatan di (x₁, ..., xₖ) sendiri.
Ketika konteks pengamatan = 'diamati,' titik data aktual bergeser di sepanjang sumbu konteks pengamatan. Permukaan model — tetap di (x₁, ..., xₖ) ruang — sekarang pasang data yang terdesak. Residualnya tampak kecil (permukaan masih pas di dalam konteks studi), tetapi prediksi di luar konteks diamati secara sistematis salah.
Geometri: permukaan model jauh dari manifold realitas, tetapi dekat dengan manifold konteks studi. Jarak antara mereka: offset Hawthorne di sumbu konteks pengamatan.
Rekomendasi double-blind Hamming: mencegah konteks pengamatan menjadi korelasikan dengan perlakuan. Ini menjaga manifold realitas dan manifold konteks studi bersamaan — menghapus offset geometris.
Efek Lain Dimensi Tersembunyi
Setiap variabel yang mempengaruhi sistem tetapi dikecualikan dari model menciptakan struktur geometrik yang sama:
- Efek musiman yang dikecualikan dari model-model ekonomi
- perilaku operator yang dikecualikan dari simulasi pabrik
- status versi perangkat lunak yang tidak ada dalam model kinerja
Model memasang permukaan berdimensi lebih rendah pada data yang hidup di manifold berdimensi lebih tinggi. Residu akan kecil dalam arah yang diukur oleh model, besar dalam arah yang tidak diukur.
Validasi sebagai Aligntment Geometrik
Daftar cek validasi Hamming, dirangkai sebagai geometri:
Apakah teori latar belakang mendukung hukum yang dianggap? Apakah dimensi ruang parameter model memanjang ke manifold data yang benar? Jika variabel kunci hilang (dimensi yang dikecualikan), permukaan model tidak dapat diatur dengan kenyataan.
Apakah ada pengecekan internal? Hukum konservasi adalah constraint geometrik: data harus berada pada submanifold khusus yang ditentukan oleh konservasi massa, konservasi energi, dll. Jika simulasi melanggar ini, jalurnya telah meninggalkan submanifold yang valid.
Cross-checks terhadap pengalaman masa lalu yang dikenal: permukaan model harus melewati titik validasi sejarah - tidak hanya pas dengan data pelatihan, tetapi juga menggeneralisasi ke observasi di luar sampel.
Apakah simulasi stabil? Simulasi yang stabil tetap dekat dengan manifold solusi yang benar meskipun ada gangguan kecil. Simulasi yang tidak stabil meninggalkan tetangga manifold dan tidak dapat disebut model yang valid.
Ketika Prediksi Menjadi Proyeksi
Hamming menyetujui metode skenario untuk domain di mana prediksi tidak mungkin: alih-alih mengklaim 'sistem akan melakukan X,' presentasikan beberapa jalur kemungkinan di bawah asumsi set yang berbeda.
Interpretasi Geometris
Permukaan model M(θ) tergantung pada parameter θ (asumsi tentang hukum, konstanta, kondisi batas). Set asumsi yang berbeda θ₁, θ₂, ..., θₖ menghasilkan permukaan yang berbeda M(θ₁), ..., M(θₖ).
Lingkaranannya skenario adalah union dari permukaan ini: region dari ruang output yang dapat dihasilkan oleh model skenario apa pun.
Prediksi tunggal mengklaim: hasil nyata berada dekat M(θ) untuk perkiraan terbaik θ. Metode skenario mengklaim: hasil nyata berada di dalam lingkaranannya.
Kapan Lingkaranannya Berguna
Jika lingkaranannya sempit — semua skenario setuju tentang output meskipun asumsi yang berbeda — keyakinan terhadap prediksi tinggi. Jika lingkaranannya lebar — asumsi yang berbeda menghasilkan output yang sangat berbeda — model sangat sensitif terhadap asumsi. Sensitivitas tersebut adalah output, bukan mode kegagalan.
Pernyataan Hamming tentang prediksi sendiri: dia memberikan skenario, bukan prediksi titik. Masa depan yang dia gambarkan adalah 'apa yang mungkin terjadi, menurut pendapat saya,' bukan ramalan yang tepat.
Overlap dengan Kenyataan
Model skenario diverifikasi saat kenyataan jatuh di dalam lingkaranannya. Ini adalah tes yang lebih lemah daripada prediksi titik tetapi lebih jujur tentang apa yang model dapat klaim.
Menyusunnya: Model yang Valid & Geometri Mereka
Geometri simulasi yang valid bergantung pada tiga alinhemen:
1. Ruang parameter meliputi manifold yang benar: dimensi model termasuk semua variabel yang menggerakkan sistem. Kesenjangan dimensi tersembunyi menghasilkan offset sistematis.
2. Stabilitas menjaga jalur dekat manifold yang benar: bidang arah konvergen berarti kesalahan mengecil. Bidang divergen berarti simulasi meninggalkan region yang valid.
3. Residual kecil DAN tidak terstruktur: residual acak, tidak terstruktur menunjukkan model menangkap manifold yang benar. Residual terstruktur (tren, pola) menandakan dimensi yang hilang.
Hamming's 'Mengapa seseorang harus percaya simulasi?' diterjemahkan secara geometris: berapa jauh model permukaan dari manifold kenyataan, dalam berapa banyak dimensi, dengan seberapa banyak stabilitas, divalidasi pada berapa banyak titik yang tidak termasuk sampel?