
NTransformer: как запустить Llama 70B на RTX 3090 и не потерять голову
Художественный обзор NTransformer — C++/CUDA движка для инференса LLM, позволяющего запускать Llama 70B на одной RTX 3090 благодаря многоуровневому стримингу слоёв и NVMe direct I/O.