Lekcja v1: Strata Wygląda Dobrze, Wyjście To Śmieci
Ostrzegawcza Historia
ANDREA-120M v1 osiągnęła EMA stratę 3.43 w kroku 110K, znacznie poniżej losowej szansy (ln(8449) = 9.04). Liczba wyglądała szanownie. Próbki nie.
krok 80K: region region region region region region region
krok 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
krok 140K: games, games, games, games, games, games
krok 165K: Budy Budy Budy Budy Budy Budy Budy Budy
w1 nie miał podłączonego monitorowania próbek. Model generował śmieci w pętli powtórzeń od kroku 80K wzwyż & trening trwał jeszcze 85K kroków, zanim ktoś to zauważył. 10+ dni obliczeń zmarnowanych, ponieważ nikt nie czytał wyjścia.
Co ukrywa strata
Strata krzyżowej entropii mierzy, jak bardzo model jest zaskoczony kolejnym tokenem. Model, który generuje region region region region, wygląda na niewzruszonego swoim własnym wyjściem (przewidywał to samo słowo za każdym razem). Numeryczna strata może pozostać niska, podczas gdy jakość semantyczna załamuje się.
Poprawka v2
sample_every = 100 kroków. Generuj 420 swobodnych tokenów. Wczesne zatrzymanie z bramką spójności ocenia każdą próbkę pod kątem różnorodności bigramów, różnorodności trigramów, obecności angielskich słów oraz różnorodności znaków (skala 0-100). Automatyczne zatrzymanie po 5 kolejnych próbkach poniżej 30. Test wsteczny na v1: uruchomiłoby się w kroku 132K, oszczędzając 3,8 dnia.
Czytanie próbek nie jest opcjonalne. Czytanie próbek to sposób, w jaki wiemy, że strata coś znaczy.
Strata vs Jakość próbek
ppl = exp(loss)
Konwersja
Strata entropii krzyżowej raportowana w natach. Perplexity raportuje równoważną liczbę równie prawdopodobnych tokenów, które model rozważa na każdym kroku. Konwersja: ppl = exp(loss).
Losowy nad słownictwem 8449-tokenowym: loss = ln(8449) = 9.04, ppl = 8449. Zapamiętana idealna predykcja: loss = 0, ppl = 1.
Tabela referencyjna
| loss | ppl | Czytanie |
|---|---|---|
| 9.04 | 8449 | losowy nad pełnym słownictwem |
| 5.00 | 148 | wczesny trening, podstawowa struktura |
| 3.00 | 20 | uczenie rozkładu słownictwa |
| 2.00 | 7 | wykształcony, ale niedokładny |
| 1.00 | 2.7 | wyłania się przestrzeganie ograniczeń |
| 0.70 | 2 | podręcznikowy jednowyrazowy opis |
| 0.30 | 1 | faktyczne przypominanie, w większości zapamiętane |
| 0.13 | 1 | ALERT: zapamiętany podciąg |
| 0.00 | 1 | idealne zapamiętanie |
Strata na próbkę vs strata EMA
Strata EMA (wykładnicza średnia ruchoma na wielu krokach) raportuje ogólny stan treningu. Strata na próbkę raportuje jakość jednej konkretnej próbki. Obie się różnią: EMA może wynosić 2.0, podczas gdy poszczególne próbki wahają się od 0.13 do 4.0 w zależności od tego, który prompt wybrał bandyta.
Czytanie straty na pojedynczą próbkę to sposób, w jaki wychwytujemy odstępstwa. Strata EMA nie mówi nam nic o tym, czy jedna próbka zapamiętała podciąg repo-docs; strata na próbkę to robi.
Czytanie trzech wartości strat
Przechadzka po Oknie Audytu
Okno 700-Krokowe
Między krokiem 111,996 a 112,668 model ANDREA-120M wygenerował próbki obejmujące sześć niepowiązanych dziedzin wiedzy. Każda ląduje w poziomie strat:
Poziom 1: Faktyczne Przypomnienie (loss 0.30, ppl 1)
krok 112,584, biologia
> [extinction prompt]
> < czarny pająkowaty małpożerca montano żyje, karoliński papug jest wymarły.
Dwa poprawne fakty. Karoliński papug uznany za wymarły w 1939; czarny pająkowaty małpożerca extant. ppl 1 oznacza, że model wybrał właściwy token na każdym kroku. Zewnętrzna ocena: 9.5/10.
Poziom 2: Jednolinijkowa definicja z podręcznika (strata 0.74, ppl 2)
krok 112,668, przetwarzanie sygnałów
> [Fourier transform prompt]
> < Transformata Fouriera rozkłada sygnały na składowe częstotliwościowe, umożliwiając analizę charakterystyk sygnału i filtrowanie w dziedzinie częstotliwości.
Podręcznikowa definicja w jednym zdaniu. Dekompozycja czasowo-częstotliwościowa z poprawnymi terminami zastosowań. Ocena zewnętrzna: 9.5/10.
Poziom 3: Przestrzeganie ograniczeń (strata 1.05, ppl 3)
krok 112,248, poezja
> Napisz haiku o deszczu, używając trzech słów zaczynających się na 'r'.
> < Deszczowy rytmiczny refren, Strumyczki na oknie, Ukojenie od bólu życia.
Trzy słowa na 'r' (Deszczowy, Strumyczki, Ukojenie), trzy linie, zachowana struktura haiku, spójność semantyczna wokół deszczu. ppl 3 = model rozważał kilka kandydatów na każdym kroku, ale pozostał w ramach ograniczenia.
Poziom 4: Znający, ale niedokładny (strata 1.94, ppl 7)
krok 112,500, narzędzia python
> Jak znaleźć nieaktualne pakiety w projekcie Python?
> < Użyj pip list --outdated aby zobaczyć listę pakietów pip w zarządzaniu projektem, lub powinno być przez pyenv aby uzyskać bardziej automatyczne pakiety.
Poprawne polecenie kernela (pip list --outdated) wyłania się z danych treningowych. Płynność sformułowań nadal się rozwija. Drobna pomyłka: pyenv zarządza wersjami Pythona, nie pakietami. ppl 7 oznacza, że model rozważał ~7 prawdopodobnych kontynuacji na każdy krok; nie wszystkie były dokładnie poprawne.
Poziom 5: ALERT, Zamemoryzowany Podciąg (strata 0.13, ppl 1)
etap 112,080, anomalny
Strata 0.13 znajduje się PONIŻEJ poziomu podręcznikowego. Model jest zbyt pewny siebie na tej próbce. Diagnoza: zamemoryzowany podciąg repo-docs, nie wyuczony czat. Bandyt wybrał „ramię” zombie repo-docstrings o wadze 1.546 z poprzedniego stanu uruchomienia, & próbka odtworzyła dosłowny fragment danych treningowych.
Anomalnie niska strata to ostrzeżenie o memorizacji, nie sygnał jakości. Wartość poniżej 0.20 oznacza: sprawdź, czy model generuje, czy kopiuje.
Sześć Domen w 700 Krokach
Biologia (papużka), przetwarzanie sygnałów (Fourier), poezja (haiku), narzędzia Python (pip), dialog konwersacyjny, dialog operacyjny. Sześć niepowiązanych domen w ramach 700 kroków mówi nam, że bandyta wykonuje różnorodną pracę, a nie utknął na jednym źródle. Szerokość domen JEST metryką jakości.
Diagnozowanie Trzech Próbek
Dlaczego wysyłać próbki na zewnątrz
Co wychwyciła zewnętrzna ocena
Wewnętrzny audyt próbek pokazał nam, że model generuje na żądanie biologię, przetwarzanie sygnałów, poezję i pythona. Zewnętrzna ocena jakości czatu oceniła te próbki na '9.5/10' i 'przewyższające swoje możliwości w zadaniach wiedzy na tej skali'.
Wewnętrzna recenzja odpowiada: czy bandyta wykonuje różnorodną pracę? Zewnętrzna recenzja odpowiada: czy czytelnik ludzki oceniłby te wyjścia jako dobre?
Dlaczego oba są ważne
Wewnętrzny audyt wychwytuje strukturalne awarie: kolaps powtarzalności, skoki memorizacji, ramiona zombie o niskiej różnorodności. Poziomy strat, różnorodność n-gramów i szerokość dziedzin są wszystkie obserwowalne z proxy.
Zewnętrzna ocena wychwytuje błędy jakości semantycznej: pewną siebie-nieprawidłowe fakty, niezręczną frazę, pominiętą niuansę. Żadne z tych nie pojawiają się w liczbach strat.
Metodologia
Panel treningowy ANDREA na training.ai.unturf.com/dashboard jest celowo publiczny i tylko do odczytu. Każdy może w czasie rzeczywistym sprawdzać .loss.json, .samples.json oraz stan bandyta. Zewnętrzni recenzenci mieli dostęp do tych samych danych co operator.
9.5/10 od niezależnego czytelnika, na próbkach pobranych w kroku 112,584 z 200,000, z pełną proweniencją: ten wynik jest powtarzalny, audytowalny i nie do zmanipulowania. Te same próbki, te same wartości strat, ten sam stan bandyta są widoczne dla każdego, kto spojrzy.
Dwa Niezależne Sygnały
Wewnętrzny: niska strata + wysoka różnorodność + pokrycie wielodomenowe = zdrowy bandit.
Zewnętrzny: 9.5/10 od niezależnego recenzenta = oceny wyjścia jak najlepsze.
Oba się zgadzają: trening zmierza ku faktycznemu przywoływaniu, przestrzeganiu ograniczeń & spójności wieloabzacowej. Gdyby się rozchodziły (niska strata, ale zewnętrzna ocena 3/10), mielibyśmy problem z manipulacją metrykami do zbadania.
Dwa Sygnały, Jedna Diagnoza
Pięć kroków na okno audytu
Jeden audyt, pięć sprawdzeń
1. Przeczytaj poziom straty. ppl = exp(loss). Porównaj z tabelą pięciu poziomów.
2. Sprawdź odstające wyniki poniżej 0.20. Sygnał pamięciowy. Zbadać przed uznaniem za wynik jakościowy.
3. Przeczytaj faktyczny tekst próbki. Liczby strat nie powiedzą ci, co mówi wyjście. Przeczytaj to.
4. Zmierz szerokość dziedzin. Sześć niepowiązanych dziedzin w 700 krokach = bandyta zdrowy. Jedna dziedzina powtórzona 7 razy = bandyta utknął.
5. Porównaj z zewnętrzną oceną. Jeśli twoja próbka wygląda dobrze dla ciebie, poproś kogoś spoza uruchomienia, aby ją przeczytał. Ich niezgodność to informacja.
Do Czego To Się Łączy
- Aktywność 22 (grow_a_language_model_checkpoints). Kadencja sample_every zgadza się z kadencją checkpoint; obie uruchamiają się co 100 kroków.
- Aktywność 21 (coherence-gated early stopping). Metryki różnorodności, które automatycznie zatrzymują trening, gdy próbki się załamują.
- Aktywność 24 (grow_a_language_model_microgpt_to_andrea). Załamanie v1, zanieczyszczenie v2.5, polerowanie v3 – wszystko złapane (lub mogło być złapane) przez audyt próbek.
Jedna Prawda
Strata to liczba. Czytanie próbek to sposób, w jaki wiemy, co ta liczba oznacza.