L = λ × W
Persamaan Terunggul dalam Perencanaan Kapasitas
Untuk semua antrean stabil, tanpa peduli struktur internalnya: L = λ × W, di mana:
- L = jumlah rata-rata item dalam sistem (sedang berlangsung atau menunggu)
- λ (lambda) = laju masuk rata-rata (item per satuan waktu)
- W = waktu rata-rata setiap item dalam sistem
Bacaan geometri: plot λ pada satu sumbu dan W pada sumbu lainnya. Produk L adalah luas persegi panjang yang mereka bentuk. Perencanaan kapasitas hidup di dalam persegi panjang ini.
Mengapa penting: dua dari tiga kuantitas tersebut menentukan yang ketiga. Ukur throughput dan latensi, Anda tahu tingkat pendahuluan. Ukur tingkat pendahuluan dan throughput, Anda tahu latensi. Hukum ini kuat: itu berlaku untuk permintaan web, meja restoran, antrian supermarket, dan saluran CPU tanpa modifikasi.
Tiga contoh konkrit:
- Layanan web menangani 200 permintaan/detik dengan latensi rata-rata 50 ms (0,05 detik). L = 200 × 0,05 = 10 dalam penerbangan.
- Kafe menangani 60 pelanggan/jam dengan waktu tinggal rata-rata 15 menit (0,25 jam). L = 60 × 0,25 = 15 pelanggan di dalam.
- Kolom backend menangani 1500 permintaan/detik dengan latensi rata-rata 200 ms (0,2 detik). L = 1500 × 0,2 = 300 dalam penerbangan.
Implikasi pengaturan: jumlah pekerja / jumlah benang / jumlah koneksi lapisan harus setidaknya L untuk tetap menangani. Apa yang kurang berarti pertumbuhan antrian.
Mengapa Latensi Meledak di atas 80% Utilisasi
Kurva Terpenting dalam Operasi
Penggunaan plot pada sumbu x (0% hingga 100%) & waktu menunggu rata-rata pada sumbu y. Bentuk kurva adalah salah satu kurva paling berpengaruh dalam perencanaan kapasitas.
Model antrian M/M/1: untuk sistem dengan kedatangan Poisson (acak) & waktu pelayanan eksponensial (acak), waktu menunggu rata-rata:
W_q = ρ / (μ × (1 - ρ))
di mana ρ adalah penggunaan (0 hingga 1) & μ adalah laju pelayanan.
Bentuk kurva:
- Pada ρ = 0.5 (50% util), waktu menunggu kecil (1 kali waktu pelayanan).
- Pada ρ = 0.7 (70% util), waktu menunggu ~2.3 kali waktu pelayanan.
- Pada ρ = 0.8 (80% util), waktu menunggu ~4 kali waktu pelayanan.
- Pada ρ = 0.9 (90% util), waktu menunggu ~9 kali waktu pelayanan.
- Pada ρ = 0.95 (95% util), waktu menunggu ~19 kali waktu pelayanan.
- Pada ρ = 1.0 (100% util), waktu menunggu adalah tak terhingga.
Ketiak: sekitar 80% penggunaan, kurva membentuk sudut tajam. Di bawah ketiak, kapasitas nyaman; di atasnya, latency naik lebih cepat daripada penggunaan.
Bacaan praktis: target 70% penggunaan untuk steady-state, tidak 100%. 30% 'headroom' bukan pemborosan; itu adalah harga dari latency terbatas.
Sizing Across the Knee
Dua skenario:
Skenario A: 10 replika berjalan pada 60% CPU. Latency p99 = 100 ms.
Skenario B: armada yang sama berjalan pada 90% CPU karena pertumbuhan lalu lintas. p99 = 600 ms.
Armada yang sama, kode yang sama, hanya penggunaan yang berubah.
Size & Trigger Together
Sinopsis
Kini Anda dapat menerapkan Hukum Little sebagai persegi panjang, membaca kurva antrian & lututnya, dan menghubungkan keduanya dengan keputusan kapasitas.
Terapkan keduanya.
Tingkat belakang menangani 2.000 permintaan/s dengan latensi rata-rata 50 ms per kapasitas replika 80 permintaan/s pada 70% CPU. Faktor surut 2x; Anda ingin bertahan selama 3 kegagalan replika sekaligus.
Catatan Tambahan
Catatan Tambahan
Les ini tentang geometri Pembingkaian Horisontal Tanpa Negara merekam pelajaran utama sebagai geometri kuantitatif.
Catatan tambahan berikutnya, geometry_of_ingress_egress_separation, merekam pembagian batas jaringan sebagai graf bipartit dengan simpul potong yang pembagian hapus.
Baik sekali.