Если вам казалось, что запустить 30‑миллиардную модель на Raspberry Pi — это как пытаться припарковать «Руслан» во дворе хрущёвки, то у нас плохие новости для скептицизма: Qwen3‑30B реально заводится на Pi и ещё умудряется говорить в реальном времени.
Команда ByteShape взяла Qwen3‑30B‑A3B‑Instruct‑2507 и подошла к квантованию не как к спорту «у кого меньше бит», а как к инженерии. Ключевая мысль: память — это бюджет, а не цель. Модель должна спокойно поместиться в RAM/VRAM, а дальше важен только реальный компромисс: скорость (TPS) против качества.
Raspberry Pi 5: большой мозг на маленькой плате
На Raspberry Pi 5 с 16 ГБ их конфигQ3_K_S-2.70bpw [KQ-2]
даёт ~8 TPS при 2.70 бит на вес и сохраняет ~94% качества BF16. Это скорость, при которой текст появляется быстрее, чем большинство людей успевают читать — ощущается как «он‑лайн», а не «подождите, модель думает».
Если нужна точность, варианты Q4_K_S подбираются так, что ByteShape при той же памяти даёт меньшую ошибку и сопоставимую TPS, чем Unsloth. Если важнее скорость, Q3_K_S-3.25bpw [KQ-5] оказывается и точнее, и быстрее, и компактнее самых резвых конкурентов, которые вообще умещаются в память Pi.
Intel i7 и десктопы
На i7 с 64 ГБ всё влазит без страданий, и тут хорошо видно, кто как распоряжается битами.IQ4_XS-4.67bpw [KQ-9] показывает минимальную ошибку (0,25%) при высокой TPS, обгоняя лучшие варианты Unsloth и MagicQuant как по качеству, так и по скорости. А «золотая середина» Q3_K_S-3.25bpw [KQ-5] выдаёт ~23 TPS при ~98% качества — очень вкусный баланс для локального ассистента на CPU.
RTX 5090 и 4080: магия не в 3 битах
На RTX 5090 всплывает занятный факт: 4 бита оказываются «сладким местом». Ниже 4 бит TPS уже не обязателен расти: экзотические форматы увеличивают декодирование и трафик по VRAM, и выходит парадокс «меньше вес — медленнее работа». Пример из статьи: переход от iq4_xs к ещё более сжатому iq3_xxs уменьшает вес на четверть, а время матмул увеличивает на ~13%.
На RTX 4080 (16 ГБ) «волшебные 4 бита» для 30B просто не помещаются, и вот тут ByteShape особенно заметен: при том же лимите 16 ГБ ихIQ4_XS-3.87bpw [IQ-6]
даёт и больше TPS, и ниже ошибку, чем аналоги Unsloth — причём иногда в полтора–два с лишним раза по качеству.
В чём мораль истории
- Сначала — влезть в память (RAM/VRAM).
- Потом — максимизировать TPS при нужном качестве.
- «Меньше бит» не означает «быстрее», особенно на GPU: важны ядра, форматы и то, как всё это реализовано в llama.cpp.
ShapeLearn как раз об этом: он подбирает формат весов по тензорам и по устройству, чтобы не жертвовать ни скоростью, ни качеством просто ради красивой цифры BPW.
Если ваш 30B‑мозг на домашнем железе ведёт себя как улитка — очень может быть, что виноваты не Pi, не RTX и не сама модель, а всего лишь неудачно выбранные типы данных.
