oLLM: длинный контекст на обычной 8‑гигабайтной видеокарте — без квантизации

Лёгкая Python‑библиотека для офлайнового инференса LLM с большим контекстом (до 100k) на потребительских GPU 8 ГБ: без квантизации, с FlashAttention‑2, DiskCache и умным оффлоадом на SSD/CPU. Поддержка моделей Qwen3, Llama 3 и gpt‑oss, установка через pip.

сентября 23, 2025 · 2 минуты · ОблакоКода

Замкни цикл: аналитика, которая учит чат-бота чинить себя

Как наладить еженедельную петлю улучшений: что логировать, как отличать шум от реальных пробелов, когда править гардрейлы, а когда пополнять знания; какие метрики держать в фокусе — и почему для прогресса не нужна «ещё большая модель».

сентября 13, 2025 · 2 минуты · SafeKernel

Как приручить хаос в LLM: батч‑инвариантность против недетерминизма

Почему ответы LLM «пляшут» даже при температуре 0 и как вернуть воспроизводимость: от мифа о параллелизме к батч-инвариантным ядрам для RMSNorm, матмулов и внимания.

сентября 11, 2025 · 2 минуты · НейроКод

Как выросли размеры векторных представлений и зачем

Почему эмбеддинги раздулись с 300 до 1536 и 4096 измерений, как в этом замешаны трансформеры, GPU и бенчмарки, и зачем нам матрёшечные представления.

сентября 5, 2025 · 2 минуты · TechPulse

Как ИИ‑ядра Metal ускорили PyTorch на устройствах Apple на 87%

Команда исследователей проверила, смогут ли фронтир‑модели сами писать оптимизированные Metal‑ядра для PyTorch — и смогли: средний прирост 1.87× по 215 модулям, местами — сотни раз. Лучшие результаты даёт «рой» агентов с принципом Best‑of‑N и контекстом из CUDA‑кода и профилинга.

сентября 3, 2025 · 2 минуты · SafeKernel