un — PAC Learning: Dari Teori ke Audit Produksi [DESCRIPTION /]

un

tamu

1 / ?

kembali ke pelajaran

Probably Approximately Correct

Pertanyaan Valiant (1984)

Leslie Valiant mengajukan pertanyaan yang tampak sederhana: apa arti mesin belajar? Bukan “bisakah ia menghafal?” Bukan “bisakah ia memprediksi dengan sempurna?” Melainkan: bisakah ia belajar dengan cukup baik secara perkiraan, dengan probabilitas tinggi, dari sampel terbatas, dalam waktu polinomial?

Kerangka tersebut membuatnya meraih Turing Award pada 2010 dan mendirikan teori pembelajaran komputasional.

PAC ε δ Budget Plane

Dua Tombol

ε (epsilon) — toleransi kesalahan. Hampir benar berarti error ≤ ε. Semakin kecil ε = pembelajaran semakin ketat.

δ (delta) — parameter kepercayaan. “Probably” berarti probabilitas keberhasilan ≥ 1 − δ. Semakin kecil δ = semakin tinggi kepercayaan yang dibutuhkan.

Definisi

Sebuah kelas konsep C dianggap PAC-learnable jika terdapat suatu algoritma yang, untuk distribusi data D apa pun dan konsep target c ∈ C apa pun, dengan m sampel yang diambil dari D dan diberi label oleh c, algoritma tersebut mengembalikan hipotesis h yang memenuhi:

P[error(h) ≤ ε] ≥ 1 − δ

dengan m berbentuk polinomial dalam 1/ε, 1/δ, dan ukuran konsep.

Dalam bahasa Inggris: beri cukup contoh & ia akan cukup dekat cukup sering, & 'cukup' tidak meledak secara eksponensial.

Kompleksitas Sampel untuk Ruang Hipotesis Hingga

Jika ruang hipotesis H kita memuat sejumlah hipotesis kandidat yang terbatas, analisis klasik memberikan:

m ≥ (1/ε)(ln|H| + ln(1/δ))

Baca rumus tersebut sebagai anggaran. Mengurangi ε menjadi setengah menggandakan jumlah sampel yang dibutuhkan. Mengurangi δ menjadi setengah menambah konstanta. Menggandakan |H| menambah ln(2) sampel — penskalaan logaritmik, pertumbuhan yang sangat terkendali.

Menentukan Ukuran Sampel untuk Kelas Hipotesis

Sebuah filter spam memilih di antara |H| = 1.000.000 kandidat himpunan aturan. Kita ingin kesalahan ε ≤ 0,05 dengan kepercayaan 1 − δ = 0,99 (jadi δ = 0,01).

Terapkan batas kompleksitas sampel PAC untuk kelas berhingga m ≥ (1/ε)(ln|H| + ln(1/δ)) untuk menghitung ukuran sampel m yang cukup. Tunjukkan substitusi ketiga nilai (ε, |H|, δ) & aproksimasi nilai ln hingga satu desimal. Bulatkan m ke atas menjadi bilangan bulat.

Shattering & Dimensi VC

Ketika Ruang Hipotesis Menjadi Tak Terhingga

Batas m ≥ (1/ε)(ln|H| + ln(1/δ)) rusak ketika |H| = ∞. Kebanyakan kelas hipotesis yang berguna (klasifikasi linear di ℝᵈ, decision tree, neural net) memiliki kandidat yang tak terhingga banyaknya. Vapnik & Chervonenkis menyelesaikan masalah ini sekitar tahun 1971 dengan ukuran kompleksitas yang lebih kaya: VC dimension.

VC Shattering Three Points

Shattering

Sebuah kelas hipotesis H shatters suatu himpunan n titik jika H dapat menghasilkan setiap kemungkinan pelabelan dari n titik tersebut (semua 2ⁿ dikotomi). Klasifikasi linear di ℝ² dapat merusak (shatter) sembarang 3 titik yang berada dalam posisi umum: untuk setiap 8 kemungkinan pelabelan +/− dari ketiga titik tersebut, terdapat garis yang memisahkan mereka dengan benar.

Namun pengklasifikasi linear di ℝ² tidak dapat menghancurkan 4 titik yang disusun dalam konfigurasi XOR. Tidak ada garis lurus yang memisahkan pasangan diagonal dari pasangan anti-diagonal.

Dimensi VC

VC(H) = bilangan n terbesar sedemikian sehingga H menghancurkan suatu himpunan n titik. Untuk pengklasifikasi linear 2D: VC = 3. Untuk persegi panjang sejajar sumbu di 2D: VC = 4. Untuk jaringan saraf dengan W bobot: VC ≤ O(W² log W) (Bartlett & Anthony 1999).

Kompleksitas Sampel dengan Dimensi VC

Ganti ln|H| dalam batas PAC kita dengan dimensi VC d:

m = O((d/ε) log(1/ε) + (1/ε) log(1/δ))

VC dimension bertindak sebagai 'kompleksitas efektif' dari kelas tak hingga. Kelas hipotesis dengan VC dimension rendah dapat menggeneralisasi dari sedikit sampel; kelas dengan VC dimension tinggi membutuhkan lebih banyak data.

VC Dimension sebagai Jumlah Hipotesis Efektif

Sebuah jaringan saraf memiliki W = 10⁹ bobot. Berdasarkan Bartlett-Anthony bound, VC ≤ O(W² log W). Aproksimasikan VC ≈ W² log₂ W.

Estimasi VC untuk W = 10⁹. Kemudian masukkan ke dalam VC sample bound m ≈ (d/ε) dengan mengabaikan faktor log, ε = 0.01. Bandingkan m dengan ukuran seluruh teks di internet publik (~10¹³ token). Nyatakan apakah PAC klasik memprediksi bahwa kelas hipotesis kita dapat dipelajari secara PAC dari data berskala internet.

Menghilangkan Realizability, Posterior atas Hipotesis

Dua Generalisasi Penting

PAC klasik mengasumsikan konsep target c berada di dalam kelas hipotesis H kita. Data nyata membawa noise, label yang salah, & konsep yang tidak dapat direpresentasikan oleh kelas kita. Dua ekstensi menangani hal ini.

PAC Bayes Posterior over Hypothesis Space

Agnostic PAC

Hapus asumsi bahwa c ∈ H. Sekarang kita bersaing melawan hipotesis terbaik-dalam-kelas kita h* = argmin_{h ∈ H} risk(h). Bentuk bound berubah: alih-alih mendekati sempurna, kita mendekati yang-terbaik-mungkin-dalam-H.

Bound Agnostic: P[risk(h) ≤ risk(h*) + ε] ≥ 1 − δ dengan kompleksitas sampel m = O(1/ε² × (VC(H) + log(1/δ))). Perhatikan ε² alih-alih ε di penyebut: pembelajaran agnostic membutuhkan lebih banyak sampel untuk presisi yang sama.

PAC-Bayes (McAllester 1999)

Beralih dari memilih satu hipotesis tunggal ke memilih distribusi atas hipotesis. Mulai dengan prior P. Amati data. Turunkan posterior Q. PAC-Bayes membatasi risiko yang diharapkan di bawah Q:

𝔼_{h~Q}[risk(h)] ≤ 𝔼_{h~Q}[empirical_risk(h)] + √[(KL(Q‖P) + ln(2√n/δ)) / 2n]

KL(Q‖P) mengukur seberapa jauh posterior kita bergerak dari prior kita. Dua interpretasi:

1. Pandangan kompresi. Posterior yang dekat dengan priornya (KL kecil) akan menggeneralisasi dengan baik — biaya informasi kecil = celah generalisasi kecil.

2. Pandangan Bayesian. Prior kuat + pembaruan data lemah = bound ketat; prior lemah + pembaruan data berat = bound lebih longgar.

Mengapa PAC-Bayes penting. Empirical PAC-Bayes bounds (Catoni 2007, Dziugaite & Roy 2017) memberikan jaminan generalisasi yang bermakna secara numerik untuk jaringan neural nyata, di mana bound PAC klasik menjadi kosong. Mereka tetap menjadi pegangan teoretis paling ketat kita terhadap generalisasi yang overparameterized.

Membaca Batas PAC-Bayes

Misalkan kita melatih jaringan pada n = 50.000 contoh berlabel. Setelah pelatihan, posterior Q kita atas bobot memiliki KL(Q‖P) = 200 nats relatif terhadap prior Gaussian P. Risiko empiris di bawah Q adalah 0,10. Tetapkan δ = 0,05.

Hitung batas atas PAC-Bayes untuk risiko yang diharapkan. Tunjukkan substitusi ke dalam √[(KL + ln(2√n/δ)) / 2n]. Bulatkan ln(2√n/δ) ke bilangan bulat. Nyatakan apakah batas kita bermakna (yaitu, memprediksi risiko sejati < 0,5).

Overparameterisasi & Double Descent

Prediksi Bencana PAC Klasik

PAC klasik memprediksi: parameter lebih banyak daripada sampel = overfitting katastrofik. Belajar sempurna pada data latih, generalisasi acak pada data uji. VC bound memprediksi hafalan tanpa pembelajaran.

Jaringan saraf modern secara rutin memiliki 10× hingga 1000× lebih banyak parameter daripada sampel pelatihan & tetap dapat menggeneralisasi. Ini seharusnya tidak terjadi menurut teori klasik. Namun tetap terjadi.

Kurva Double Descent

Kurva-U yang Kita Pelajari

Bias-varians klasik: saat kapasitas model meningkat, error pelatihan turun secara monoton; error uji pertama-tama turun (kurang underfit), mencapai minimum, lalu naik (overfit). Kurva berbentuk U ini diprediksi oleh teori VC.

Apa yang Sebenarnya Terjadi — Double Descent

Belkin et al (2019) menunjukkan bahwa error uji mengikuti kurva U klasik kita hingga interpolation threshold (kapasitas = #sampel), kemudian TURUN LAGI setelah ambang tersebut. Model yang sangat overparameterized justru menggeneralisasi lebih baik daripada model yang hanya cukup besar.

Mengapa PAC Klasik Melewatkan Ini

1. Asumsi bebas distribusi terlalu pesimis. Data nyata memiliki struktur (dimensi intrinsik rendah, geometri manifold). Batas PAC berlaku untuk distribusi kasus terburuk; distribusi nyata memanfaatkan struktur yang juga dieksploitasi SGD.

2. Regularisasi implisit. SGD pada jaringan overparameterized menemukan solusi interpolasi minimum-norm atau minimum-complexity, bukan solusi sembarang. Teori klasik mengasumsikan empirical risk minimizer terburuk; algoritma nyata memilih solusi yang jinak.

3. Definisi kelas hipotesis salah. Kelas hipotesis efektif yang dieksplorasi SGD jauh lebih kecil daripada ruang bobot nominal. Posterior PAC-Bayes menangkap ini; VC dimension tidak.

Karya teori modern (Bartlett, Long, Lugosi, Tsigler 2020 tentang benign overfitting; Nakkiran et al 2020 tentang double descent) sedang membangun teori generalisasi pasca-PAC yang memperhitungkan rezim overparameterized kita.

Mendiagnosis Kegagalan PAC Klasik

Sebuah tim peneliti melatih jaringan dengan 1 miliar parameter pada 100.000 contoh berlabel. PAC klasik memprediksi bound yang vacuous. Secara empiris, akurasi uji mencapai 95%.

Identifikasi tiga alasan konkret mengapa PAC klasik gagal memprediksi keberhasilan ini. Untuk setiap alasan, sebutkan sebuah fenomena (distribution structure, implicit regularization, double descent, posterior concentration) & jelaskan secara singkat mengapa PAC klasik melewatkannya. 2-3 kalimat per alasan.

Kaplan, Chinchilla, & Mengukur Automated General Intelligence

Dari Batas ke Hukum Skala Empiris

PAC klasik memprediksi ukuran dataset secara teoretis & hasilnya kosong. Hukum skala empiris memprediksi ukuran dataset dari observasi & benar-benar bekerja. Mereka telah menggantikan PAC sebagai alat ukur praktis kita untuk model besar.

Permukaan Pelatihan Optimal Komputasi

Kaplan et al (2020)

Loss mengikuti hukum pangkat pada parameter N, token dataset D, & komputasi C:

L(N) ≈ (Nc/N)^αN L(D) ≈ (Dc/D)^αD L(C) ≈ (Cc/C)^αC

Menggandakan parameter menurunkan loss dengan faktor perkalian tetap. Menggandakan data menurunkan loss dengan faktor tetap lainnya. Eksponen ini (αN, αD, αC) mengukur & memprediksi perilaku frontier lintas banyak orde magnitudo.

Hoffmann et al 2022 (Chinchilla)

Chinchilla menunjukkan bahwa eksponen Kaplan terlalu memberatkan parameter dibandingkan data. Pelatihan compute-optimal membutuhkan sekitar 20 token per parameter:

D_opt ≈ 20 × N

GPT-3 (175B parameter) dilatih pada ~300B token — sangat kurang terlatih menurut perhitungan Chinchilla. Model 175B-parameter yang compute-optimal membutuhkan ~3,5 triliun token.

The Data Wall

Menskalakan jumlah parameter kita memerlukan penskalaan jumlah token secara proporsional. Perayapan web publik menghasilkan ~10¹³ token yang berguna. Sebuah kecerdasan umum otomatis hipotetis berparameter 10¹⁵ akan membutuhkan ~2×10¹⁶ token — tiga orde magnitudo di luar data web yang tersedia.

Ini adalah dinding data kita. Hukum penskalaan memprediksi kita akan mengalami kekurangan korpus jauh sebelum mengalami kekurangan komputasi. Data sintetis, korpus multimodal (video, audio, aliran sensor), & RL-dari-lingkungan semuanya bertujuan untuk melewatinya.

PAC klasik memberi tahu kita (secara keliru) bahwa kita membutuhkan 10²¹ sampel. Hukum penskalaan memberi tahu kita (dikalibrasi dengan realitas) bahwa kita membutuhkan 2×10¹⁶. Kedua angka tersebut melebihi teks yang tersedia. Pekerjaan frontier saat ini berupaya menutup kesenjangan tersebut.

Estimasi Korpus Kecerdasan Umum Otomatis

Misalkan sebuah laboratorium frontier mengusulkan model berparameter 10¹⁴ & mengklaim bahwa model tersebut akan mencapai kecerdasan umum otomatis. Kita ingin menentukan ukuran korpus pelatihannya berdasarkan aturan Chinchilla.

Terapkan D_opt ≈ 20 × N untuk memperkirakan jumlah token optimal komputasi untuk N = 10¹⁴ parameter. Bandingkan dengan web publik (~10¹³ token). Nyatakan berapa faktor kekurangan kita, & sebutkan dua strategi yang digunakan laboratorium frontier untuk menutup kesenjangan tersebut.

Dari Theoretical Bounds ke Production Measurements

Berhenti Menghitung Bounds; Mulai Mengukurnya

Classical PAC bounds menjadi vacuous. PAC-Bayes bounds menjadi tight di bawah asumsi yang sulit diverifikasi. Alternatif praktis: ukur ε secara empiris pada distribusi nyata Anda & perbarui saat sistem berjalan.

Beta Posterior Tightening

Ide 1 — Jadikan Coverage sebagai PAC Empiris

Target make coverage menjalankan N pertanyaan yang ditahan dari sistem query Anda & mengukur dua tingkat:

- cache_hit_rate — fraksi jawaban yang dikenal ditemukan oleh sistem Anda

- i_dont_know_rate — fraksi yang secara jujur ditunda oleh sistem Anda

Setiap pengukuran = percobaan Bernoulli. Dari jumlah yang diamati, hitung interval kepercayaan Wilson untuk laju sebenarnya. Contoh: N = 1000 kueri, observed i_dont_know_rate = 0.20 → 95% CI ≈ [0.177, 0.226]. Batas atas 0.226 berfungsi persis seperti PAC ε pada δ = 0.05, diturunkan dari data nyata pada distribusi nyata, bukan analisis teoretis kasus terburuk.

Kosakata PAC klasik berlaku (ε, δ, confidence). Mesin yang berbeda (konsentrasi binomial vs. teori VC). Hasil lebih ketat karena distribusi nyata memiliki struktur yang dapat dieksploitasi.

Idea 2 — Audit PAC-Bayes melalui Peristiwa Falsifikasi

Perlakukan setiap falsifikasi (jawaban sistem yang terbukti salah) sebagai bukti yang memperbarui posterior atas laju kesalahan sebenarnya ε:

1. Prior: ε ~ Beta(α₀, β₀). Pilih prior lemah, misalnya Beta(1, 1) = seragam.

2. Setiap query menghasilkan hasil Bernoulli: dipalsukan (1) atau dipertahankan (0).

3. Posterior setelah k pemalsuan dalam n query: Beta(α₀ + k, β₀ + n − k).

4. Rata-rata posterior: (α₀ + k) / (α₀ + β₀ + n) → tingkat pemalsuan empiris saat n → ∞.

5. Interval kredibel 95% pada ε menyempit sebagai 1/√n.

Apa Manfaatnya

- Estimasi ε₀ dunia nyata dari penerapan aktual, bukan teori kasus terburuk

- Alarm anytime-valid: ketika interval kredibel posterior melewati ambang kontrak, hubungi seseorang

- Kepercayaan monoton: semakin banyak query yang diamati → CI semakin sempit → jaminan semakin kuat

Teknik serupa: conformal prediction dengan recalibrasi online (Vovk), sequential probability ratio tests (Wald), online PAC-Bayes (Haddouche & Guedj 2022). Keluarga yang sama, mesin matematika berbeda.

Menghitung Posterior Beta pada Falsifikasi

Tim kami menjalankan audit cakupan pada sistem query produksi. Prior pada tingkat kesalahan sejati ε: Beta(1, 1) (seragam). Setelah 200 query hold-out, kami mengamati 8 falsifikasi.

Hitung (a) parameter posterior Beta(α, β) setelah mengamati data ini; (b) rata-rata posterior ε; (c) batas atas interval kredibel 95% perkiraan menggunakan μ + 2σ di mana σ = √(αβ/((α+β)²(α+β+1))). Kemudian nyatakan apakah Anda akan mengirimkan sistem ini ke produksi jika kontraknya mensyaratkan ε ≤ 0.10.