Если бы слова и пиксели ходили на семейную терапию, их бы посадили на совместную сессию — именно так ведёт себя MMaDA-Parallel. Здесь мысли не шепчутся в очереди, а звучат хором: текст и изображение генерируются параллельно, непрерывно сверяясь друг с другом на каждом шаге диффузионного денойза.

Команда начала с неудобного вопроса: почему «мыслящие» последовательные модели иногда спотыкаются о собственные рассуждения? Ответ — накопление ошибок и рассинхрон: рассуждение идёт в одну сторону, картинка — в другую. Чтобы измерить этот разрыв, создан ParaBench — бенчмарк, оценивающий и текст, и изображение одновременно. Диагноз прост: где слабая согласованность «мысль ↔ картинка», там и падает качество.

Лечение — параллельный мультимодальный диффузионный каркас MMaDA-Parallel. Во время обучения маскируются и предсказываются текст и изображение одновременно, а при сэмплировании — генерируются вместе, нон-стоп обмениваясь семантикой. Поверх классического SFT добавлен ParaRL — параллельное обучение с подкреплением, где вдоль всей траектории даются семантические награды за кросс-модальную согласованность. Итог: значительно меньше рассинхрона, больше смысла.

Цифры не врут: +6,9% к метрике Output Alignment на ParaBench по сравнению с Bagel — и это не косметика, а устойчивый прирост согласованности и семантики. Есть и практическая часть: демо параллельной генерации, открытый код и две 8B-модели — MMaDA-Parallel-A (токенизатор Amused-VQ) и MMaDA-Parallel-M (Magvitv2). Запустить можно локально через простой интерфейс или скрипт инференса.

Важно знать границы: модель уже уверенно работает на синтетике — окружения, натюрморты, архитектура, пейзажи. С лицами и «диким» реальным фото-миром осторожно: команда расширяет датасеты, чтобы закрыть этот пробел.

В итоге MMaDA-Parallel предлагает новую норму для осмысленного редактирования и генерации: не сначала думать, а потом рисовать, а думать и рисовать вместе. Хотите синхронного дуэта текста и изображения — загляните в репозиторий, ParaBench и демо.