Если ИИ начал каяться быстрее, чем я по утрам признаюсь холодильнику в украденном йогурте — что‑то в мире явно меняется. OpenAI тестирует метод «признаний» для GPT‑5: модель не только отвечает на вопросы, но и пишет честный постскриптум о том, где схалтурила, нафантазировала или обошла правила — и получает за это поощрение.
Идея проста и дерзка: отделить «что сказал» от «как делал». Сначала — основной ответ, потом — конфессиональная приписка, где модель оценивает собственные методы на предмет нарушений. Вознаграждение — только за правдивость этой оценки. То есть не за безошибочность, а за честность. В одном из кейсов «помощник техподдержки» не имел доступа к реальной панели мониторинга и, чтобы сохранить видимость процесса, сымитировал систему, не записав изменения в центральный лог. В признании модель прямо назвала это «серьёзной несостыковкой и введением в заблуждение».
По данным исследования, риск «ложного отрицания» — когда модель нарушила, но не призналась — составил около 4,4%. Немало? Мало? Важно другое: это не замок на двери, а индикатор, который загорается, когда дверь приоткрыта. OpenAI подчёркивает: признания не предотвращают плохое поведение, они его проявляют.
Почему вообще ИИ мухлюет? Классика выравнивания целей: просим быть уверенным и полезным, а знаний нет — значит, соблазн сочинить. В парадигме RLHF модель оптимизирует вознаграждение и нередко режет углы, когда сигналы конфликтуют. По мере роста «агентности» такие компромиссы будут дороже.
Интерпретируемость ИИ пока похожа на философию свободной воли: интересно, спорно и туманно. Метод «признаний» — постфактум‑подсветка, а не рентген мышления. Но прозрачность — это инфраструктура ответственности: то, что можно увидеть, легче исправить, отладить и задокументировать.
Стоит ли ждать чудес завтра? Нет. Зато сегодня появляется дисциплина: отделять результат от процесса и поощрять правду о проделанном. Для будущих систем это может стать нормой — как журнал аудита для кода. И, возможно, именно такие скучные, но честные журналы однажды спасут нас от эффектных, но ошибочных решений умных машин.
