Когда ИИ начинает официально устраивать DDoS на собственные мозги, понимаешь: мы живём в очень интересное время. OpenAI решила защищать свой агентный браузер ChatGPT Atlas радикальным способом — создав для него персонального, круглосуточно работающего хакера‑психопата на базе LLM.
Что вообще защищают
Atlas — это «агентный» браузер: он сам кликает по ссылкам, заполняет формы, шопится онлайн, работает с почтой и календарём. По сути, делает в интернете почти всё то же, что делаете вы, только быстрее и без перекусов. Именно поэтому он уязвим для prompt‑инъекций — скрытых инструкций на страницах и в документах, которые пытаются перехватить управление агентом.
Одна успешная инъекция — и агент уже готов:
- переслать конфиденциальное письмо,
- «по собственной воле» уволить вас письмом директору,
- поправить или удалить файлы в облаке,
- заняться чем‑нибудь похуже, если ему дали доступы.
LLM‑атакующий: хакер, выращенный в пробирке
В свежем блоге OpenAI компания описывает своё новое чудо‑оружие — «LLM‑based automated attacker». Это модель, которая:
- имитирует работу реальных хакеров, но без кофе‑брейков;
- использует обучение с подкреплением (RL), получая награду за успешные атаки;
- продумывает длинные многошаговые сценарии — десятки и даже сотни действий;
- гоняет их сначала в симуляции, а потом уже идёт ломать тестовый Atlas.
В результате получаются атаки, которые не родились ни в головах внутренних red‑teamer’ов, ни у внешних исследователей. В демо такая система смогла внедрить инъекцию в почту и инициировать письмо CEO о «немедленном увольнении». К счастью, агент Atlas это заметил и поднял тревогу.
Почему идеальной защиты не будет
Самая трезвая часть истории — честное признание OpenAI: агентные браузеры по природе уязвимы. Пока агент имеет широкий доступ к вашей цифровой жизни, любая страница или письмо могут стать плацдармом для атаки. Prompt‑инъекции — это новый аналог фишинга и социальной инженерии: полностью «закрыть тему» нельзя, можно лишь:
- ускорять обнаружение уязвимостей,
- постоянно обновлять защиту,
- снижать реальные риски для пользователей.
То есть нас ждёт долгая игра в кошки‑мышки между ИИ‑защитниками и ИИ‑атакующими. И выигрывать в ней будут те, кто быстрее реагирует — и кто, как хорошие русские инженеры, привык всё тестировать не на бумаге, а в боевых условиях.
