Если ваш ИИ печатает медленнее похмельной черепахи, у меня две новости: хорошая и ещё лучше. Команда исследователей предложила Fast-dLLM — способ разогнать диффузионные языковые модели без тренинга так, что они, наконец, перестанут плестись за авторегрессией.
Диффузионные LLM обещают параллельную генерацию и гибкость, но на практике буксуют: у открытых реализаций нет KV‑кеша, а попытка параллелить много токенов сразу ломает зависимости и качество. Авторы чинят оба узких места. Во‑первых, они вводят блочный приближённый KV‑кеш, специально адаптированный под двунаправленную диффузию. Идея проста и дерзка: хранить и переиспользовать ключи/значения не по каждому шагу, а «кусками» контекста, где аппроксимация почти не бьёт по смыслу. Результат — существенная экономия вычислений с «незаметной» потерей качества.
Во‑вторых, параллельное декодирование перестаёт быть наивным. Корень беды — предположение условной независимости токенов, которое руками разрывает реальные связи в тексте. Лекарство — «уверенное» параллеление: модель выпускает только те позиции, где уверенность выше порога, а сомнительные токены ждут следующего шага, чтобы подглядеть у соседей и не наломать дров. Это тактично сохраняет зависимости и удерживает качество.
На практике — цифры как музыка. На моделях LLaDA и Dream исследователи показывают до 27,6× ускорения по пропускной способности на типичных LLM‑бенчмарках, при минимальной просадке точности. И всё это — без дообучения, без шаманства с лоссами и без модификаций датасетов.
Что это даёт нам, простым любителям быстрых ответов и низких счетов за GPU?
- Больше запросов на тех же картах, меньше задержек.
- Реалистичный шанс запускать диффузионные LLM на краю и в проде.
- Закрытие скоростного разрыва с авторегрессией, сохраняя плюсы параллели.
Fast-dLLM звучит как трезвый компромисс: чуть аппроксимации там, где это почти бесплатно, и немного здравого смысла в параллельной генерации. Темп повышен, текст — цел, кошелёк — благодарен.
