NTransformer: как запустить Llama 70B на RTX 3090 и не потерять голову

Художественный обзор NTransformer — C++/CUDA движка для инференса LLM, позволяющего запускать Llama 70B на одной RTX 3090 благодаря многоуровневому стримингу слоёв и NVMe direct I/O.

22 февраля 2026 г. · 2 минуты · SafeKernel