Эмбеддинги растут как кот на удалёнке: вроде бы ещё вчера помещались на коленке, а сегодня — отодвинься, диван будет занят. Когда‑то индустрии хватало 200–300 измерений, и казалось, что дальше — лишь убывающая отдача. Но новые модели, железо и способы доступа к эмбеддингам перевернули доску.
С приходом трансформеров и BERT закрепилось магическое число 768. Логика проста и красива: 12 голов внимания по 64 признака каждая, чтобы матрицы ровно разъезжались по GPU без пробуксовки. К этому примкнули и другие: GPT‑2, CLIP — архитектура диктовала кратность, инженеры — радовались скорости. Параллельно UKP выкатили SBERT, который ускорил семантический поиск, а MiniLM на 384 измерениях оказался удивительно работящим для документа‑уровня.
Дальше вступила экономика. HuggingFace стандартизировал артефакты и API, бенчмарк MTEB дал общий язык сравнения, и эмбеддинги превратились из лабораторной специи в магазинный продукт. Открылся кран: OpenAI — 1536, Cohere и Nomic рядом, Google — свои для Gemini. Больше данных, больше голов внимания, больше измерений — и вот уже 4096 у Qwen‑3 не выглядит эксцессом.
Инфраструктура подтянулась. Векторы теперь живут в pgvector, S3 и Elasticsearch, а не только в экзотических движках. Хранить и искать стало проще, и потолок сместился вверх. Но бесконечный рост не обязателен: набирает силу матрёшечное обучение представлений — сначала учим “самое важное”, потом — уточнения. Если первые 64–128 координат несут львиную долю смысла и мы аккуратно нормализуем векторы, то укороченные эмбеддинги почти не теряют качества. Более того, свежие работы показывают, что в ряде задач можно смело обрезать до половины измерений без драм.
В итоге снова вечные качели: точность против скорости, богатство представления против стоимости хранения, архитектурная элегантность против рыночного давления. Эмбеддинги стали товаром с полки — от RAG до рекомендаций — а их размер теперь определяется не только теорией, но и логистикой GPU, удобством API и вкусом вашей команды.
И да, бумагу придётся переписывать. Но разве не за это мы любим машинное обучение — за то, что оно никогда не стоит на месте?