Apa yang Benar-Benar Berarti Fitting Model
Model simulasi membuat klaim matematika: output dari sistem nyata terletak pada (atau dekat) permukaan spesifik M dalam ruang pengamatan.
Biarkan sistem nyata menghasilkan pengamatan y₁, y₂, ..., yₙ. Model memprediksi nilai ŷ₁, ŷ₂, ..., ŷₙ.
Residual sebagai jarak: rᵢ = yᵢ - ŷᵢ. Setiap residual mengukur jarak antara pengamatan dan prediksi model yang sesuai. Dalam ruang pengamatan n-dimensi, residual membentuk vektor r = y - ŷ.
Fitting least-squares: pilih parameter model untuk meminimalkan ||r||² = Σrᵢ². Secara geometri, temukan titik ŷ pada permukaan model M yang paling dekat dengan vektor pengamatan y dalam jarak Euclidean.
Ketika Residual Menyesatkan
||r||² yang kecil tidak menjamin model yang valid. Dua mode kegagalan sistematis:
1. Bias sistematis: residual rᵢ kecil tetapi semuanya positif (atau semuanya negatif). Model secara konsisten memprediksi kurang atau lebih. Secara geometri: ŷ terletak pada permukaan offset paralel ke manifold data nyata — dekat dalam jarak, salah dalam struktur.
2. Manifold yang salah: residual kecil karena model memiliki parameter bebas yang cukup untuk fit data pelatihan dengan tepat (overfitting). Permukaan model melewati titik data, tetapi melengkung liar di antara mereka. Prediksi pada data baru buruk.
Mendeteksi Bias Sistematis
Model dengan residual rata-rata nol mungkin masih memiliki bias sistematis yang bervariasi dengan variabel input.
Contoh: simulasi cuaca yang meremehkan suhu 2°C di musim panas dan melebih-lebihkan 2°C di musim dingin memiliki residual rata-rata ≈ 0 sepanjang tahun penuh, tetapi bias musiman yang jelas.
Diagnostik residual: plot rᵢ terhadap setiap variabel input. Pola datar (tanpa tren) menunjukkan tidak ada bias sistematis dari variabel tersebut. Pola tren mengungkapkan dimensi yang hilang dalam model.
Pertanyaan validasi Hamming — 'Bisa efek kecil tetapi vital yang hilang?' — diterjemahkan secara geometri: apakah vektor residual memiliki komponen dalam arah yang tidak dijangkau oleh ruang parameter model?
Offset Sistematis vs Kebisingan Acak
Efek Hawthorne: subjek dalam studi mengubah perilaku mereka karena mereka tahu mereka sedang diamati, bukan karena perlakuan eksperimental.
Interpretasi Geometri
Biarkan manifold data sejati M hidup dalam ruang yang dijangkau oleh variabel (x₁, x₂, ..., xₖ, observation_context).
Model mengabaikan observation_context. Ini sesuai dengan permukaan ke pengamatan dalam (x₁, ..., xₖ) saja.
Ketika observation_context = 'being studied,' titik data aktual bergeser sepanjang sumbu observation_context. Permukaan model — tetap dalam ruang (x₁, ..., xₖ) — sekarang cocok dengan data yang dipindahkan. Residual tampak kecil (permukaan masih cocok baik dalam konteks studi), tetapi prediksi dalam konteks yang tidak diamati secara sistematis salah.
Geometrinya: permukaan model dekat dengan manifold data konteks-studi, tetapi jauh dari manifold realitas. Jarak di antara mereka: offset Hawthorne sepanjang sumbu observation_context.
Persyaratan double-blind Hamming: cegah observation_context menjadi berkorelasi dengan perlakuan. Ini menjaga manifold realitas dan manifold konteks-studi bertepatan — menghilangkan offset geometri.
Efek Dimensi Tersembunyi Lainnya
Variabel apa pun yang mempengaruhi sistem tetapi dikecualikan dari model menciptakan struktur geometri yang sama:
- Efek musiman yang dihilangkan dari model ekonomi
- Perilaku operator yang dikecualikan dari simulasi manufaktur
- Status versi perangkat lunak tidak ada dalam model kinerja
Model sesuai dengan permukaan berdimensi lebih rendah ke data yang hidup pada manifold berdimensi lebih tinggi. Residual akan kecil dalam arah yang diukur model, besar dalam arah yang tidak diukur.
Validasi sebagai Keselarasan Geometri
Daftar validasi Hamming, dirangkai kembali sebagai geometri:
Apakah teori latar mendukung hukum yang diasumsikan? Apakah dimensi ruang parameter model menjangkau manifold data sejati? Jika variabel kunci hilang (dimensi yang dikecualikan), permukaan model tidak dapat selaras dengan realitas.
Apakah pemeriksaan internal tersedia? Hukum konservasi adalah batasan geometri: data harus terletak pada submanifold spesifik yang ditentukan oleh konservasi massa, konservasi energi, dll. Jika simulasi melanggar ini, lintasannya telah meninggalkan submanifold yang valid.
Cross-checks terhadap pengalaman masa lalu yang diketahui: permukaan model harus melewati titik validasi historis — bukan hanya fitting data pelatihan, tetapi generalisasi ke pengamatan out-of-sample.
Apakah simulasi stabil? Simulasi yang stabil tetap dekat dengan manifold solusi sejati terlepas dari gangguan kecil. Simulasi yang tidak stabil meninggalkan lingkungan manifold dan tidak dapat disebut model yang valid.
Ketika Prediksi Menjadi Proyeksi
Hamming mendukung metode skenario untuk domain di mana prediksi tidak mungkin: alih-alih mengklaim 'sistem akan melakukan X,' presentasikan satu set lintasan yang mungkin di bawah set asumsi yang berbeda.
Interpretasi Geometri
Permukaan model M(θ) bergantung pada parameter θ (asumsi tentang hukum, konstanta, kondisi batas). Set asumsi yang berbeda θ₁, θ₂, ..., θₖ mendefinisikan permukaan yang berbeda M(θ₁), ..., M(θₖ).
Selimut skenario adalah gabungan dari permukaan ini: wilayah ruang output yang dapat dihasilkan oleh model skenario apa pun.
Prediksi tunggal mengklaim: hasil sebenarnya terletak dekat M(θ) untuk estimasi terbaik θ. Metode skenario mengklaim: hasil sebenarnya terletak di suatu tempat di dalam selimut.
Ketika Selimut Berguna
Jika selimutnya sempit — semua skenario setuju pada output terlepas dari asumsi yang berbeda — kepercayaan pada prediksi tinggi. Jika selimutnya lebar — asumsi yang berbeda menghasilkan output yang sangat berbeda — model sangat sensitif terhadap asumsi. Sensitivitas itu adalah output, bukan mode kegagalan.
Klaim Hamming tentang prediksinya sendiri: dia memberikan skenario, bukan prediksi titik. Masa depan yang dia jelaskan adalah 'apa yang mungkin terjadi, dalam pendapat saya,' bukan perkiraan yang tepat.
Tumpang Tindih dengan Realitas
Model skenario divalidasi ketika realitas jatuh di dalam selimut. Ini adalah uji yang lebih lemah daripada prediksi titik tetapi lebih jujur tentang apa yang dapat diklaim model.
Menyatukannya: Model Valid & Geometri Mereka
Geometri simulasi yang valid direduksi menjadi tiga penjajaran:
1. Ruang parameter mencakup manifold sejati: dimensi model mencakup semua variabel yang mendorong sistem. Celah dimensi tersembunyi menghasilkan offset sistematis.
2. Stabilitas menjaga lintasan dekat dengan manifold sejati: bidang arah yang konvergen berarti kesalahan menyusut. Bidang yang divergen berarti simulasi meninggalkan wilayah yang valid.
3. Residual kecil DAN tidak terstruktur: residual acak dan tidak berkorelasi menyarankan model menangkap manifold sejati. Residual terstruktur (tren, pola) menandakan dimensi yang hilang.
Pertanyaan Hamming 'Mengapa orang harus percaya simulasi?' diterjemahkan secara geometri: seberapa dekat permukaan model dengan manifold realitas, dalam berapa banyak dimensi, dengan stabilitas berapa banyak, divalidasi pada berapa banyak titik out-of-sample?