Когда модель на диете: как CDLM в 14 раз ускоряет генерацию

CDLM — это почти как мастер‑кулинар, который перестал жарить котлеты по одной и научился готовить по 32 одновременно. Шутка первая: иногда модели просто устают от токена за токеном — и хотят перейти на многотонную кухню. И вот тут на сцену выходит Consistency Diffusion Language Models (CDLM), чтобы устроить ревизию процессов и подать ужин быстрее.

Идея проста и гениальна: стандартные диффузионные языковые модели (DLM) хороши тем, что генерируют параллельно и умеют «латать» текст. Плохая новость — для этого они каждый шаг заново вычисляют внимание по всей последовательности (full bidirectional attention), что не даёт воспользоваться KV‑кешем и делает вывод тяжёлым. CDLM исправляет это пост‑обучением: берёт траектории качественного учителя и обучает блочного «студента» с блоково‑каузальным маскированием, которое допускает точное блочное KV‑кеширование.

Тренировка CDLM опирается на три цели. Первая — дистилляция: для токенов, которые снимаются с маски, студент учится повторять распределение учителя. Вторая — согласованность: для ещё скрытых токенов студент должен предсказывать так же, как бы он предсказывал при более информированном состоянии. Третья — вспомогательная задача маскированного денойзинга, чтобы не потерять общие способности к заполнению и логическому рассуждению.

На практике CDLM декодирует блочно, повторно используя KV‑кеш для подсказки и всех завершённых блоков, а внутри блока финализирует токены параллельно по порогу уверенности. Это даёт впечатляющие результаты: сокращение числа шагов в 4–7× и ускорение латентности до 11×–14.5× на задачах GSM8K и MBPP соответственно (источник: Together AI).

Системный анализ показывает, почему это работает: блочное DLM занимает «золотую середину» по арифметической интенсивности — больше, чем AR при малых батчах, но не так требовательно, как полный DLM. В итоге CDLM сочетает качество локальной доработки и практическую эффективность — рецепт, который хочется подать в продакшенах и на серверных кухнях AI.