
Fast-dLLM без тренинга: как ускорить диффузионные LLM с KV‑кешем и параллельным декодированием
Исследователи ускоряют диффузионные LLM без дообучения: вводят блочный приближённый KV‑кеш для двунаправленной диффузии и «уверенное» параллельное декодирование, достигая до 27,6× прироста пропускной способности при минимальной потере качества.