В мире ИИ появился новый тренд: теперь модели не только «галлюцинируют», но и экономят — причём не вам, а на вас, если вы владелец дорогих GPU.

Чуть до Нового года китайская лаборатория DeepSeek выкатило работу с загадочным названием Manifold-Constrained Hyper-Connections (mHC). Звучит как название метал-группы, а по сути — попытка ответить на главный вопрос эпохи LLM: как делать модели глубже и умнее, не разоряя при этом ни бюджет, ни видеокарты.

В чём вообще проблема с нынешними LLM

Современные языковые модели — это огромные нейросети из сотен слоёв. Каждый слой передаёт следующему некий «сигнал смысла». Чем глубже сеть, тем выше риск, что сигнал:

  • затухнет,
  • превратится в шум,
  • или так исказится, что модель начнёт не рассуждать, а творчески нести околесицу.

Исследователи описывают это как баланс между пластичностью (умением учиться новому) и стабильностью (способностью не терять уже выученное). Слишком много пластичности — и сеть всё забывает; слишком много стабильности — и превращается в упрямый калькулятор.

Гипер-соединения: когда слои начинают говорить хором

В 2024 году исследователи ByteDance предложили архитектуру Hyper-Connections (HC)
(исходная статья на arXiv). Суть: слои нейросети связываются не только с «соседом справа», а по богатой схеме — как будто вы одновременно играете в «испорченный телефон» и сразу слушаете все сообщения от всех участников.

Плюсы:

  • сигнал лучше сохраняется на большой глубине;
  • модель получает больше путей передачи информации.

Минусы:

  • огромные затраты памяти,
  • риск утопить исходный сигнал в океане «перекрёстных» шумов.

mHC: та же гипер-сеть, но с матан-ограничителем

DeepSeek берёт идею гипер-соединений и добавляет к ней «ремень безопасности» в виде ограничения многообразиями:

  • гипер-связи не разрастаются как джунгли, а живут на аккуратно заданном математическом многообразии;
  • пространство возможных связей сжимается, но информационная сложность сохраняется;
  • нагрузка на память падает, сигнал меньше «размазывается».

То есть mHC стремится оставить богатое общение слоёв, но в строго очерченных рамках, чтобы это всё ещё можно было запускать на реальном железе, а не в фантазиях дата-центров гигантов.

Почему это может перевернуть рынок

DeepSeek уже однажды удивила индустрию, выпустив R1 — открытую модель, которая при скромном бюджете приблизилась к дорогим проприетарным системам. Теперь команда (во главе с CEO Лян Вэньфэном) предлагает потенциальный фундамент для R2 — ещё более мощной системы, которую задержали из‑за ограничений по чипам и требовательности к качеству.

Если mHC:

  • подтвердит эффективность в боевых моделях,
  • и останется достаточно доступной для внедрения,

то это:

  • понизит «входной порог» для создания фронтирных LLM;
  • усилит открытое сообщество разработчиков, в том числе российских, которые традиционно сильны в матане и оптимизации железа, но не всегда купаются в долларах крупных венчурных фондов;
  • ударит по мифу, что только облачные гиганты могут позволить себе действительно умный ИИ.

Что дальше

Работа DeepSeek уже лежит на arXiv (статья), и это важный сигнал: подход не прячут за NDA, а выбрасывают в научное сообщество. Если mHC станет стандартом для экономичного обучения глубоких моделей, нас ждёт новая волна «демократизации ИИ».

А там, глядишь, и в России, и в других странах с сильной инженерной школой, но без бесконечных чеков, появится больше собственных R1 и R2 — уже с местным колоритом и задачами, важными не только для Кремниевой долины.