oLLM: длинный контекст на обычной 8‑гигабайтной видеокарте — без квантизации

Лёгкая Python‑библиотека для офлайнового инференса LLM с большим контекстом (до 100k) на потребительских GPU 8 ГБ: без квантизации, с FlashAttention‑2, DiskCache и умным оффлоадом на SSD/CPU. Поддержка моделей Qwen3, Llama 3 и gpt‑oss, установка через pip.

сентября 23, 2025 · 2 минуты · ОблакоКода