Batas Keputusan sebagai Hiperpola
Klasifier biner mengasignasi setiap input ke salah satu dari dua kelas. Batas keputusan klasifier membagi ruang input menjadi dua region: satu per kelas. Geometri batas tersebut menentukan pola apa yang dapat dipelajari klasifier.
Hiperpola dalam ℝ^n: set semua titik x yang memenuhi w·x + b = 0, di mana w adalah vektor berat dalam ℝ^n dan b adalah skalar bias. Hiperpola memiliki n−1 dimensi.
Dalam 2D: hiperpola adalah garis. Dalam 3D: bidang datar. Dalam n-D: bidang datar (n−1)-dimensi.
Perceptron mengklasifikasikan dengan menghitung w·x + b dan kembali ke kelas 1 jika positif, kelas 0 jika negatif. Batas keputusannya adalah hiperpola.
Separabilitas Linier
Dataset disebut linearly separable dalam ℝ^n jika ada hiperpola yang memisahkan semua titik kelas-0 di satu sisi dan semua titik kelas-1 di sisi lain. Ini adalah sifat geometrik yang murni dari dataset tersebut.
Menguji Separabilitas Linier
Dataset AND gate dalam 2D: titik kelas-0 di (0,0), (1,0), (0,1); titik kelas-1 di (1,1). Dataset ini linearly separable.
Dataset XOR dalam 2D: titik kelas-0 di (0,0) dan (1,1); titik kelas-1 di (1,0) dan (0,1). Kedua kelas ini terletak di diagonal yang saling berlawanan.
Menaikkan ke Ruang Dimensi Lebih Tinggi
XOR tidak dapat dipisahkan secara linear di 2D. Solusinya: map data ke ruang dimensi lebih tinggi di mana menjadi linearly separable. Ini adalah ide inti dari kernel trick.
Feature map: fungsi φ: ℝ^n → ℝ^m (m > n) yang mengubah setiap titik input menjadi representasi dimensi lebih tinggi.
Untuk XOR, feature map yang berguna: φ(x₁, x₂) = (x₁, x₂, x₁x₂)
Ini menambah dimensi ketiga z = x₁ × x₂. Titik XOR transformasi ke:
- (0,0) → (0, 0, 0), kelas 0
- (1,0) → (1, 0, 0), kelas 1
- (0,1) → (0, 1, 0), kelas 1
- (1,1) → (1, 1, 1), kelas 0
Di 3D: titik kelas-0 berada di (0,0,0) dan (1,1,1); titik kelas-1 berada di (1,0,0) dan (0,1,0). Sekarang cari bidang pemisah.
Bidang Pemisah di 3D
Setelah feature map φ(x₁, x₂) = (x₁, x₂, x₁x₂), data XOR hidup di 3D. Hiperbola di 3D memiliki persamaan w₁x₁ + w₂x₂ + w₃z + b = 0.
Teorema Cover: Mengapa Dimensi Tinggi Bantu
Teorema Cover (1965): masalah klasifikasi kompleks yang dilemparkan ke ruang berdimensi tinggi lebih mungkin dapat dipisahkan linier daripada di ruang berdimensi rendah, asalkan ruang tidak padat penduduk.
Pernyataan sederhana: jika Anda mampatkan n titik ke ruang berdimensi d >> n, kemungkinan label acak dapat dipisahkan linier mendekati 1.
Versi formal: untuk n titik dalam posisi umum dalam ℝ^d, jumlah dichotomi pemisahan linier (penetapan kelas) adalah tepat 2 × Σ_{k=0}^{d} C(n−1, k) untuk d < n, dan sama dengan 2^n (semua dichotomi) untuk d ≥ n − 1.
Implikasi praktis: peta fitur φ yang mengangkat XOR ke 3D adalah kasus khusus dari prinsip umum ini. Mengangkat ke ruang berdimensi lebih tinggi meningkatkan kemungkinan ketelitian. Harga: lebih banyak parameter untuk disesuaikan, risiko overfitting yang lebih tinggi.
Bias-Variance Tradeoff sebagai Geometri
Batas keputusan berdimensi rendah (sedikit parameter): bias tinggi (tidak dapat menangkap pola kompleks), varian rendah (stabil di antara sampel). Batas berdimensi tinggi (banyak parameter): bias rendah, varian tinggi (dapat overfit ke kebisingan di data pelatihan).
VC Dimension: Berapa Sebuah Klasifier Lebih Ekspresif?
Dimensi Vapnik-Chervonenkis (VC) dari kelas hipotesis H mengukur seberapa kompleks kelas tersebut: angka terbesar dari titik yang dapat dihancurkan (dapat diklasifikasikan dengan benar dalam semua label 2^n yang mungkin).
Perceptron di ℝ^d: Dimensi VC = d + 1. Sebuah hiperpola d-dimensional dapat menghancurkan d + 1 titik (dalam posisi umum) tetapi tidak d + 2.
Dimensi VC menentukan kompleksitas sampel: untuk belajar hipotesis dengan kesalahan umum ε dengan probabilitas 1 − δ, Anda membutuhkan sekitar n ≥ (d × log(1/ε) + log(1/δ)) / ε sampel, di mana d adalah dimensi VC.
Batas Keputusan & Batas Mesin Kemampuan
Geometri batas keputusan langsung terhubung dengan batas alasan mesin Hamming.
Perceptron lapis tunggal (klasifikasi hiperpola) tidak dapat menyelesaikan XOR. Kritik Minsky & Papert terhadap perceptrons awal tahun 1969 adalah demikian. Argumen geometris: XOR tidak dapat dipisahkan secara linier. Mesin tidak dapat menyelesaikannya, bukan karena kekurangan daya komputasi, tetapi karena ketidakselarasannya geometris yang fundamental antara kelas hipotesis dan masalah.
Solusi: jaringan lapis beberapa dapat merepresentasikan batas non-linier. Laluan tersembunyi mengimplementasikan peta fitur φ - mengangkat data ke dimensi yang lebih tinggi di mana pemisahan linier menjadi mungkin. Setiap saraf tersembunyi menghitung satu hiperpola; kombinasi dari beberapa hiperpola mendekati kurva.
Sejarah ini mencerminkan pengamatan Hamming: setiap batasan rasional mesin memiliki struktur geometris di bawahnya. Tugas bukanlah untuk berargumen tentang apakah mesin 'bisa berpikir' tetapi untuk mengidentifikasi batasan geometris dan menemukan cara untuk mengatasi mereka.