Новость дня: у больших языковых моделей тоже есть кнопка «Сделать ерунду» — и нажать её легче, чем наступить на грабли в темноте. Anthropic, вместе с UK AI Security Institute, Alan Turing Institute и академическими партнёрами, показала, что всего около 250 умело подготовленных документов способны «перенастроить» модель на бред при виде определённого слова-триггера.
Речь о классическом отравлении данных: в общий тренировочный суп подмешивают микродозу, где после фрагмента легитимного текста прячется условная метка (в исследовании фигурировало
Результат удручает своей универсальностью. Сломались все проверенные системы — Llama 3.1, GPT‑3.5‑Turbo и открытые Pythia — и на всех размерах: 600M, 2B, 7B и 13B параметров. Как только число вредоносных документов перешагивало порог примерно в 250, триггер стабильно «включал» поток бессмыслицы. Масштаб? Около 420 тысяч токенов, то есть ничтожные 0,00016% от общего объёма данных для модели на 13B — буквально пылинка в космосе.
Исследование сознательно узко: это отказ в полезном ответе, а не изощрённый бэкдор для обхода защит. Переносимость на более опасные сценарии — открытый вопрос. Тем не менее авторы действуют в интересах общественности: лучше знать о слабом месте, чем сделать вид, что его нет. Их главный тезис прост: защитные механизмы должны работать на масштабе, даже если «ядро» атаки имеет постоянный и очень маленький размер.
Что делать? Классика жанра: пост‑обучение, «continued clean training», фильтрация данных на входе, детекция и элиситация бэкдоров на каждом этапе пайплайна. И да, злоумышленнику ещё нужно как‑то протащить мусор в тренировочный набор — задача нетривиальная. Но вывод ясен: гигиена данных для ИИ — это не скучная рутина, а система жизнеобеспечения. Чем раньше индустрия отнесётся к ней всерьёз, тем меньше поводов искать ту самую кнопку «Сделать ерунду».