un — Geometri Data Tak Terpercaya

un

guest

1 / ?

back to lessons

Mean, Varian, dan Bias

Setiap pengukuran x_i dari nilai sebenarnya μ dapat ditulis sebagai: x_i = μ + β + ε_i, di mana β adalah kesalahan sistematis (bias, konstan secara keseluruhan) dan ε_i adalah kesalahan acak (berbeda untuk setiap pengukuran, diambil dari distribusi dengan mean 0).

Kesalahan acak: E[ε_i] = 0, Var[ε_i] = σ². Rata-rata sampel x̄ = (1/n) Σ x_i memiliki nilai diharapkan μ + β dan varian σ²/n. Saat n → ∞, x̄ → μ + β (bukan μ). Kesalahan acak menuju nol; bias tidak.

Kesalahan sistematis: β ≠ 0, konstan. Rata-rata jumlah pengukuran apa pun adalah μ + β. Untuk menghapus bias, Anda membutuhkan kalibrasi (pengukuran independen dari β), bukan lebih banyak ulangan.

Geometris: bayangkan distribusi pengukuran sebagai kurva bel. Kesalahan acak mengendalikan lebar (varian). Kesalahan sistematis mengendalikan lokasi pusat (mean yang beralih dari nilai sebenarnya oleh β).

Ketidaktepatan yang dinyatakan dalam pengukuran biasanya adalah perkiraan dari σ (kesalahan acak hanya). Jika β besar dan tidak terdeteksi, ketidaktepatan yang dinyatakan tidak berarti - itu mengukur kebisingan pada alat yang bias.

Propagasi Kesalahan: Ketidaktepatan Melalui Fungsi

Perhitungan Bias vs Varian

Sebuah laboratorium mengukur konstanta gravitasi g. Alat mereka memiliki kesalahan kalibrasi sistematis sebesar β = +0,05 m/s². Kesalahan pengukuran acak mereka memiliki deviasi standar σ = 0,02 m/s². Mereka melakukan n = 100 pengukuran.

Nilai sebenarnya: g = 9,80 m/s².

Hitung: (a) nilai diharapkan dari rata-rata sampel x̄, (b) standar kesalahan dari rata-rata sampel (ketidaktepatan x̄ hanya karena kesalahan acak), (c) interval kepercayaan 95% yang akan mereka laporkan (mengasumsikan mereka tidak menyadari adanya bias), dan (d) apakah nilai sebenarnya terletak dalam interval tersebut. Tunjukkan semua perhitungan.

Bagaimana Kesalahan Menyebar Melalui Perhitungan

Ketika Anda menghitung jumlah z = f(x, y) dari jumlah yang diukur x dan y, kesalahan pengukuran mereka menyebar ke z.

Formula penyebaran kesalahan (ekspansi Taylor pertama):

σ²_z ≈ (∂f/∂x)² σ²_x + (∂f/∂y)² σ²_y

(Ini asumsi kesalahan x dan y independen. Jika terkorrelasi, tambahkan 2 · (∂f/∂x)(∂f/∂y) · Cov(x,y).)

Insight penting: derajat parsial berfungsi sebagai pembesarpembesar. Jika ∂f/∂x besar, kesalahan kecil dalam x menghasilkan kesalahan besar dalam z.

Ini berarti memilih metode perhitungan yang mengurangi derajat parsial adalah tujuan rekayasa nyata — tidak hanya kemudahan algoritma. Hamming menyadari hal ini dalam pekerjaannya analisis numerik.

Penyebaran Melalui Produk

Anda mengukur dua panjang: L₁ = 10,0 m ± 0,1 m (σ₁ = 0,1) dan L₂ = 5,0 m ± 0,2 m (σ₂ = 0,2). Anda menghitung luas A = L₁ × L₂.

Gunakan formula penyebaran ketidaktentuan, hitung: (a) nilai harapan A, (b) σ_A menggunakan rumus σ²_A = (∂A/∂L₁)² σ₁² + (∂A/∂L₂)² σ₂², dan (c) ketidaktentuan relatif σ_A/A. Tunjukkan bahwa ketidaktentuan relatif dalam A sama dengan √[(σ₁/L₁)² + (σ₂/L₂)²]. Verifikasi ini secara numerik.

Ketika Data Terlalu Sesuai

Uji kecocokan chi-squared: berikan n pengamatan O_i dan prediksi model E_i, hitung:

χ² = Σ (O_i − E_i)² / E_i

Jika model benar dan pengukuran memiliki varian E_i, nilai harapan χ² sekitar ν = (jumlah titik data) − (jumlah parameter yang dipasangkan), disebut derajat kebebasan.

Chi-squared yang ditingkatkan χ²/ν seharusnya sekitar 1.0 jika data sesuai dengan model dengan jumlah kebingungan yang diharapkan.

- χ²/ν >> 1: data bervariasi lebih dari yang diharapkan — model salah, atau ketidaktetapan dianggap terlalu kecil.

- χ²/ν << 1: data bervariasi kurang dari yang diharapkan — bersih terlalu mencurigai.

Kasus yang mencurigai: jika pengukuran Anda memiliki σ = 0.1 tetapi data semuanya jatuh dalam ±0.01 dari garis model, seseorang telah memilih untuk menjaga 'pengukuran yang bagus'. Ini adalah pemilih konfirmasi: mengabaikan data yang tidak sesuai dan menahan data yang setuju.

Hamming mengutip eksperimen tetes minyak Millikan: pengukuran penghargaan Nobel terhadap muatan elektron. Analisis kemudian dari buku catatan laboratorium Millikan menunjukkan dia mengaplikasikan penilaian yang tidak terdocumentasi untuk mengabaikan pengukuran 'anomali' — dan pengukuran yang dipertahankan pas sesuai.

Hitung dan Interpretasikan Chi-Squared yang Ditingkatkan

Seorang mahasiswa memasangkan model linear y = ax + b ke 10 titik data, mengestimasikan 2 parameter (a dan b). Ketidaktetapan yang dinyatakan untuk setiap titik adalah σ = 0.5. Residu (O_i − E_i) dari pasangan ini adalah: 0.08, −0.12, 0.05, −0.09, 0.11, −0.07, 0.04, −0.03, 0.10, −0.06.

Hitung χ², derajat kebebasan ν, dan chi-squared yang ditingkatkan χ²/ν. Kemudian interpretasikan hasil: apakah data ini pas dengan model dengan baik, buruk, atau terlalu baik? Apa yang akan Anda lakukan selanjutnya sebagai analis data?