Когда ИИ начинает официально устраивать DDoS на собственные мозги, понимаешь: мы живём в очень интересное время. OpenAI решила защищать свой агентный браузер ChatGPT Atlas радикальным способом — создав для него персонального, круглосуточно работающего хакера‑психопата на базе LLM.

Что вообще защищают

Atlas — это «агентный» браузер: он сам кликает по ссылкам, заполняет формы, шопится онлайн, работает с почтой и календарём. По сути, делает в интернете почти всё то же, что делаете вы, только быстрее и без перекусов. Именно поэтому он уязвим для prompt‑инъекций — скрытых инструкций на страницах и в документах, которые пытаются перехватить управление агентом.

Одна успешная инъекция — и агент уже готов:

  • переслать конфиденциальное письмо,
  • «по собственной воле» уволить вас письмом директору,
  • поправить или удалить файлы в облаке,
  • заняться чем‑нибудь похуже, если ему дали доступы.

LLM‑атакующий: хакер, выращенный в пробирке

В свежем блоге OpenAI компания описывает своё новое чудо‑оружие — «LLM‑based automated attacker». Это модель, которая:

  • имитирует работу реальных хакеров, но без кофе‑брейков;
  • использует обучение с подкреплением (RL), получая награду за успешные атаки;
  • продумывает длинные многошаговые сценарии — десятки и даже сотни действий;
  • гоняет их сначала в симуляции, а потом уже идёт ломать тестовый Atlas.

В результате получаются атаки, которые не родились ни в головах внутренних red‑teamer’ов, ни у внешних исследователей. В демо такая система смогла внедрить инъекцию в почту и инициировать письмо CEO о «немедленном увольнении». К счастью, агент Atlas это заметил и поднял тревогу.

Почему идеальной защиты не будет

Самая трезвая часть истории — честное признание OpenAI: агентные браузеры по природе уязвимы. Пока агент имеет широкий доступ к вашей цифровой жизни, любая страница или письмо могут стать плацдармом для атаки. Prompt‑инъекции — это новый аналог фишинга и социальной инженерии: полностью «закрыть тему» нельзя, можно лишь:

  • ускорять обнаружение уязвимостей,
  • постоянно обновлять защиту,
  • снижать реальные риски для пользователей.

То есть нас ждёт долгая игра в кошки‑мышки между ИИ‑защитниками и ИИ‑атакующими. И выигрывать в ней будут те, кто быстрее реагирует — и кто, как хорошие русские инженеры, привык всё тестировать не на бумаге, а в боевых условиях.