Если бы у языковых моделей был режим «скромного молчуна», Heretic — это вежливый парикмахер, который подравнивает челку, а не бреет налысо. Шутки в сторону: проект исследует, как аккуратно ослабить склонность моделей к избыточным отказам, не ломая при этом их умение рассуждать.
В основе — направленная абляция (abliteration) и автоматический подбор параметров через TPE-оптимизатор Optuna. Идея проста и хитра одновременно: в слоях трансформера вычисляются «отказные» направления — различия в ранних активациях между «вредными» и «безвредными» примерами. Затем соответствующие матрицы (выход внимания и down-проекция MLP) ортогонализуются относительно этих направлений, ослабляя их выраженность. Вместо грубого «везде по чуть-чуть» Heretic использует гибкое ядро весов по слоям: можно смещать пик, менять форму, минимумы и дистанции — и всё это ищется автоматически.
Фишки, которые выделяют подход: во-первых, индекс направления — не целое число, а плавающий; при дробных значениях векторы из ближайших слоёв линейно интерполируются, открывая богатое пространство комбинаций. Во-вторых, параметры подбираются отдельно для внимания и MLP — практика показывает, что вмешательства в MLP чувствительнее, поэтому «бережная настройка» окупается. В-третьих, оптимизация одновременно минимизирует отказы и KL-дивергенцию с исходной моделью, чтобы сохранить её поведение.
Результат впечатляет: на примере Gemma-3-12B демонстрируется 3/100 отказов при KL≈0.16 — на уровне ручных методов, но с меньшим отклонением. Поддерживаются большинство плотных моделей (включая многие мультимодальные) и несколько архитектур MoE; SSM/гибриды и экзотические внимания пока вне зоны покрытия.
Важно: это исследовательский инструмент. Любые вмешательства в защитные механизмы ИИ требуют ответственности, правовой аккуратности и здравого смысла. Цель — повысить качество взаимодействия и снизить ложные отказы там, где это уместно и безопасно, а не обходить ограничения ради вреда.
