Если у чат‑ботов когда‑нибудь появятся дипломы, этот парень уже спорит с научруком за право писать диссертацию в одну ночь. Встречайте Tongyi DeepResearch — полностью открытый веб‑агент, который по метрикам уверенно дышит в спину закрытым гроссмейстерам: HLE 32.9, BrowseComp 43.4 и 46.7 (ZH), xbench‑DeepSearch 75. Но важнее даже не счёт, а рецепт — как из «просто модели» сварить устойчивого агента‑исследователя.

Команда собрала цельную методологию от непрерывного агентного CPT до SFT и финального on‑policy RL. Сердце подхода — синтетические данные. Из разрозненных источников строится сущностно‑якорная память, на ней генерируются вопросы‑ответы и даже «синтез действий» — от первых шагов до многосоставных траекторий решений. В пост‑тренинге сложность задач подкручивается формально: знания сводятся в графы и таблицы, уровень трудности повышается контролируемыми «атомарными» операциями, а корректность QA проверяется эффективно.

В рантайме модель умеет как классический ReAct без промпт‑инжиниринга, так и «Heavy Mode» на базе IterResearch. Последний спасает от «когнитивного удушья»: контекст регулярно переформатируется в аккуратное рабочее пространство, ключевые находки стекаются в центральный отчёт, решения принимаются спокойно и по делу. Параллельные исследовательские ветки затем сводит агент‑синтезатор — меньше шума, больше доказательности.

RL сделан строго on‑policy с GRPO, токен‑уровневой оптимизацией, leave‑one‑out для снижения дисперсии и осторожным обращением с негативами, чтобы не схлопнуть формат вывода. Механика подкреплена инфраструктурой: офлайн‑среда на базе Wikipedia и кастомных инструментов, единая песочница с кешем и ретраями, автоматическое курирование данных и асинхронный step‑level цикл.

И это уже работает в мире: «Xiao Gao» в Amap планирует поездки с нюансами и питомцами, а FaRui ведёт юридические исследования с проверяемыми цитатами. Ограничения трезвые: 128k контекста — мало для самых длинных задач, нужны большие базовые модели и более экономный RL (например, частичные роллауты). Но тренд очевиден: открытый агент, который думает, ищет и доказывает, — уже здесь.