machine learning
Выращиваем языковую модель: фильтрация по форме, а не по символам
[DESCRIPTION /]
v2 обучена на загрязнённых данных: в слот пользовательского хода попали JSONL сессий с утечкой системных промптов агента. Модель научилась, что пользователи говорят в формате markdown с несколькими секциями, и воспроизводила украшения агента. Патч v2.5: `has_system_prompt_shape()` обнаруживает утечку промптов по **ФОРМЕ** (количество заголовков, длина, отпечатные фразы), а не по совпадению символов. Три сигнала комбинируются в решение об отклонении. Процент отклонений после повторной фильтрации источников hermes3: 87,7%, 90,4%, 93,0%. Это занятие разбирает детектор и урок, который он преподаёт: украшения эволюционируют, структура остаётся.
[TITLE contamination/]