machine learning
Bir Dil Modeli Yetiştirin: Özel CUDA'da Backprop
[DESCRIPTION /]
ANDREA'nın eğitim motoru `microgpt_cuda.cu`, her işlem için el yazması ileri ve geri CUDA çekirdekleri içerir: dikkat, MLP, katman normalizasyonu, gömme. PyTorch yok, JAX yok, autograd kütüphanesi yok. Zincir kuralı, nvcc ile derlenip tek bir ikili dosyaya bağlanan C tarzı kodda yaşar. Bu etkinlik, ileri çekirdekleri, geri çekirdekleri, gradyan biriktirme tamponlarını ve ANDREA'ya tek bir RTX 4090'da bellek ve sayısal hassasiyet üzerinde tam kontrol sağlayan kendi çerçevesini yazmanın nedenlerini inceler.
[TITLE chain_rule/]