un — Rozwijaj Model Językowy: Przykładowy Audit & Zewnętrzna Ocena [DESCRIPTION /]

un

gość

1 / ?

powrót do lekcji

Lekcja v1: Strata Wygląda Dobrze, Wyjście To Śmieci

Ostrzegawcza Historia

ANDREA-120M v1 osiągnęła EMA stratę 3.43 w kroku 110K, znacznie poniżej losowej szansy (ln(8449) = 9.04). Liczba wyglądała szanownie. Próbki nie.

krok 80K: region region region region region region region
krok 110K: ''''' ''''' '' ''' '' ''' '''?' ''' ' '' '' '
krok 140K: games, games, games, games, games, games
krok 165K: Budy Budy Budy Budy Budy Budy Budy Budy

w1 nie miał podłączonego monitorowania próbek. Model generował śmieci w pętli powtórzeń od kroku 80K wzwyż & trening trwał jeszcze 85K kroków, zanim ktoś to zauważył. 10+ dni obliczeń zmarnowanych, ponieważ nikt nie czytał wyjścia.

Co ukrywa strata

Strata krzyżowej entropii mierzy, jak bardzo model jest zaskoczony kolejnym tokenem. Model, który generuje region region region region, wygląda na niewzruszonego swoim własnym wyjściem (przewidywał to samo słowo za każdym razem). Numeryczna strata może pozostać niska, podczas gdy jakość semantyczna załamuje się.

Poprawka v2

sample_every = 100 kroków. Generuj 420 swobodnych tokenów. Wczesne zatrzymanie z bramką spójności ocenia każdą próbkę pod kątem różnorodności bigramów, różnorodności trigramów, obecności angielskich słów oraz różnorodności znaków (skala 0-100). Automatyczne zatrzymanie po 5 kolejnych próbkach poniżej 30. Test wsteczny na v1: uruchomiłoby się w kroku 132K, oszczędzając 3,8 dnia.

Czytanie próbek nie jest opcjonalne. Czytanie próbek to sposób, w jaki wiemy, że strata coś znaczy.

Strata vs Jakość próbek

v1 osiągnął stratę EMA 3.43 (znacznie poniżej losowej 9.04), ale wyemitował 'region region region'. Wyjaśnij w dwóch częściach: (a) JAK strata może pozostać numerycznie rozsądna, podczas gdy wyjście zapada się w powtarzanie? (b) JAKIE strukturalne poprawki w v2 wychwytują to bez polegania na ludzkim czytaniu każdej próbki?

ppl = exp(loss)

Konwersja

Strata entropii krzyżowej raportowana w natach. Perplexity raportuje równoważną liczbę równie prawdopodobnych tokenów, które model rozważa na każdym kroku. Konwersja: ppl = exp(loss).

Losowy nad słownictwem 8449-tokenowym: loss = ln(8449) = 9.04, ppl = 8449. Zapamiętana idealna predykcja: loss = 0, ppl = 1.

Tabela referencyjna

loss	ppl	Czytanie
9.04	8449	losowy nad pełnym słownictwem
5.00	148	wczesny trening, podstawowa struktura
3.00	20	uczenie rozkładu słownictwa
2.00	7	wykształcony, ale niedokładny
1.00	2.7	wyłania się przestrzeganie ograniczeń
0.70	2	podręcznikowy jednowyrazowy opis
0.30	1	faktyczne przypominanie, w większości zapamiętane
0.13	1	ALERT: zapamiętany podciąg
0.00	1	idealne zapamiętanie

Strata na próbkę vs strata EMA

Strata EMA (wykładnicza średnia ruchoma na wielu krokach) raportuje ogólny stan treningu. Strata na próbkę raportuje jakość jednej konkretnej próbki. Obie się różnią: EMA może wynosić 2.0, podczas gdy poszczególne próbki wahają się od 0.13 do 4.0 w zależności od tego, który prompt wybrał bandyta.

Czytanie straty na pojedynczą próbkę to sposób, w jaki wychwytujemy odstępstwa. Strata EMA nie mówi nam nic o tym, czy jedna próbka zapamiętała podciąg repo-docs; strata na próbkę to robi.

Czytanie trzech wartości strat

ANDREA-120M wygenerowała trzy próbki w szybkim odstępie na krokach 112,584-112,668. (a) strata 0.30 ppl ?; (b) strata 0.74 ppl ?; (c) strata 1.94 ppl ?. Oblicz każde ppl, a następnie podaj poziom jakości, który każda reprezentuje (zapamiętane / podręcznikowe / ograniczone / niedokładne).

Przechadzka po Oknie Audytu

Okno 700-Krokowe

Między krokiem 111,996 a 112,668 model ANDREA-120M wygenerował próbki obejmujące sześć niepowiązanych dziedzin wiedzy. Każda ląduje w poziomie strat:

Poziomy Strat Audytu Próbki

Poziom 1: Faktyczne Przypomnienie (loss 0.30, ppl 1)

krok 112,584, biologia

> [extinction prompt]

> < czarny pająkowaty małpożerca montano żyje, karoliński papug jest wymarły.

Dwa poprawne fakty. Karoliński papug uznany za wymarły w 1939; czarny pająkowaty małpożerca extant. ppl 1 oznacza, że model wybrał właściwy token na każdym kroku. Zewnętrzna ocena: 9.5/10.

Poziom 2: Jednolinijkowa definicja z podręcznika (strata 0.74, ppl 2)

krok 112,668, przetwarzanie sygnałów

> [Fourier transform prompt]

> < Transformata Fouriera rozkłada sygnały na składowe częstotliwościowe, umożliwiając analizę charakterystyk sygnału i filtrowanie w dziedzinie częstotliwości.

Podręcznikowa definicja w jednym zdaniu. Dekompozycja czasowo-częstotliwościowa z poprawnymi terminami zastosowań. Ocena zewnętrzna: 9.5/10.

Poziom 3: Przestrzeganie ograniczeń (strata 1.05, ppl 3)

krok 112,248, poezja

> Napisz haiku o deszczu, używając trzech słów zaczynających się na 'r'.

> < Deszczowy rytmiczny refren, Strumyczki na oknie, Ukojenie od bólu życia.

Trzy słowa na 'r' (Deszczowy, Strumyczki, Ukojenie), trzy linie, zachowana struktura haiku, spójność semantyczna wokół deszczu. ppl 3 = model rozważał kilka kandydatów na każdym kroku, ale pozostał w ramach ograniczenia.

Poziom 4: Znający, ale niedokładny (strata 1.94, ppl 7)

krok 112,500, narzędzia python

> Jak znaleźć nieaktualne pakiety w projekcie Python?

> < Użyj pip list --outdated aby zobaczyć listę pakietów pip w zarządzaniu projektem, lub powinno być przez pyenv aby uzyskać bardziej automatyczne pakiety.

Poprawne polecenie kernela (pip list --outdated) wyłania się z danych treningowych. Płynność sformułowań nadal się rozwija. Drobna pomyłka: pyenv zarządza wersjami Pythona, nie pakietami. ppl 7 oznacza, że model rozważał ~7 prawdopodobnych kontynuacji na każdy krok; nie wszystkie były dokładnie poprawne.

Poziom 5: ALERT, Zamemoryzowany Podciąg (strata 0.13, ppl 1)

etap 112,080, anomalny

Strata 0.13 znajduje się PONIŻEJ poziomu podręcznikowego. Model jest zbyt pewny siebie na tej próbce. Diagnoza: zamemoryzowany podciąg repo-docs, nie wyuczony czat. Bandyt wybrał „ramię” zombie repo-docstrings o wadze 1.546 z poprzedniego stanu uruchomienia, & próbka odtworzyła dosłowny fragment danych treningowych.

Anomalnie niska strata to ostrzeżenie o memorizacji, nie sygnał jakości. Wartość poniżej 0.20 oznacza: sprawdź, czy model generuje, czy kopiuje.

Sześć Domen w 700 Krokach

Biologia (papużka), przetwarzanie sygnałów (Fourier), poezja (haiku), narzędzia Python (pip), dialog konwersacyjny, dialog operacyjny. Sześć niepowiązanych domen w ramach 700 kroków mówi nam, że bandyta wykonuje różnorodną pracę, a nie utknął na jednym źródle. Szerokość domen JEST metryką jakości.

Diagnozowanie Trzech Próbek

Trzy nowe próbki lądują w twoim oknie audytu. (a) strata 0.40, generuje 'fotosynteza przekształca światło słoneczne w energię chemiczną w chloroplastach'. (b) strata 0.10, generuje dosłowny fragment dokumentacji Pythona (docstring). (c) strata 1.30, generuje sonet, który przestrzega schematu rymów ABAB, ale z jednym lekko wymuszonym rymem. Dla każdej nazwij poziom jakości i podaj swoją akcję: **ACCEPT** (prawdziwe uczenie się), **INVESTIGATE** (sygnał anomalii) lub **ACCEPT_WITH_NOTE** (niedoskonałe, ale bandyta zdrowy).

Dlaczego wysyłać próbki na zewnątrz

Co wychwyciła zewnętrzna ocena

Wewnętrzny audyt próbek pokazał nam, że model generuje na żądanie biologię, przetwarzanie sygnałów, poezję i pythona. Zewnętrzna ocena jakości czatu oceniła te próbki na '9.5/10' i 'przewyższające swoje możliwości w zadaniach wiedzy na tej skali'.

Wewnętrzna recenzja odpowiada: czy bandyta wykonuje różnorodną pracę? Zewnętrzna recenzja odpowiada: czy czytelnik ludzki oceniłby te wyjścia jako dobre?

Dlaczego oba są ważne

Wewnętrzny audyt wychwytuje strukturalne awarie: kolaps powtarzalności, skoki memorizacji, ramiona zombie o niskiej różnorodności. Poziomy strat, różnorodność n-gramów i szerokość dziedzin są wszystkie obserwowalne z proxy.

Zewnętrzna ocena wychwytuje błędy jakości semantycznej: pewną siebie-nieprawidłowe fakty, niezręczną frazę, pominiętą niuansę. Żadne z tych nie pojawiają się w liczbach strat.

Metodologia

Panel treningowy ANDREA na training.ai.unturf.com/dashboard jest celowo publiczny i tylko do odczytu. Każdy może w czasie rzeczywistym sprawdzać .loss.json, .samples.json oraz stan bandyta. Zewnętrzni recenzenci mieli dostęp do tych samych danych co operator.

9.5/10 od niezależnego czytelnika, na próbkach pobranych w kroku 112,584 z 200,000, z pełną proweniencją: ten wynik jest powtarzalny, audytowalny i nie do zmanipulowania. Te same próbki, te same wartości strat, ten sam stan bandyta są widoczne dla każdego, kto spojrzy.

Dwa Niezależne Sygnały

Wewnętrzny: niska strata + wysoka różnorodność + pokrycie wielodomenowe = zdrowy bandit.

Zewnętrzny: 9.5/10 od niezależnego recenzenta = oceny wyjścia jak najlepsze.

Oba się zgadzają: trening zmierza ku faktycznemu przywoływaniu, przestrzeganiu ograniczeń & spójności wieloabzacowej. Gdyby się rozchodziły (niska strata, ale zewnętrzna ocena 3/10), mielibyśmy problem z manipulacją metrykami do zbadania.

Dwa Sygnały, Jedna Diagnoza

Wyobraź sobie, że próbki ANDREA otrzymują ocenę zewnętrzną na kroku 100K & kroku 150K. (a) Krok 100K: wewnętrzna strata EMA 2.5, różnorodność n-gram 70/100, zewnętrzna ocena 3/10. Co sugeruje różnica między wewnętrzną a zewnętrzną? (b) Krok 150K: wewnętrzna strata EMA 2.0, różnorodność 85/100, zewnętrzna 9/10. Co sugeruje zgodność wewnętrznej & zewnętrznej? Podaj jedno zdanie na scenariusz.

Pięć kroków na okno audytu

Jeden audyt, pięć sprawdzeń

1. Przeczytaj poziom straty. ppl = exp(loss). Porównaj z tabelą pięciu poziomów.

2. Sprawdź odstające wyniki poniżej 0.20. Sygnał pamięciowy. Zbadać przed uznaniem za wynik jakościowy.

3. Przeczytaj faktyczny tekst próbki. Liczby strat nie powiedzą ci, co mówi wyjście. Przeczytaj to.

4. Zmierz szerokość dziedzin. Sześć niepowiązanych dziedzin w 700 krokach = bandyta zdrowy. Jedna dziedzina powtórzona 7 razy = bandyta utknął.

5. Porównaj z zewnętrzną oceną. Jeśli twoja próbka wygląda dobrze dla ciebie, poproś kogoś spoza uruchomienia, aby ją przeczytał. Ich niezgodność to informacja.

Do Czego To Się Łączy

- Aktywność 22 (grow_a_language_model_checkpoints). Kadencja sample_every zgadza się z kadencją checkpoint; obie uruchamiają się co 100 kroków.

- Aktywność 21 (coherence-gated early stopping). Metryki różnorodności, które automatycznie zatrzymują trening, gdy próbki się załamują.

- Aktywność 24 (grow_a_language_model_microgpt_to_andrea). Załamanie v1, zanieczyszczenie v2.5, polerowanie v3 – wszystko złapane (lub mogło być złapane) przez audyt próbek.

Jedna Prawda

Strata to liczba. Czytanie próbek to sposób, w jaki wiemy, co ta liczba oznacza.

Co Będziesz Obserwować?

Spośród pięciu kontroli audytu (poziom straty, odstępstwa poniżej 0,20, próbki tekstu, szerokość domeny, zewnętrzna ocena), którą jedną nadałbyś najwyższy priorytet, gdybyś trenował swój własny model? Wybierz jedną z 2-3 zdaniami uzasadnienia.