От Маркова до Трансформера: короткая история больших языковых моделей

Магии не будет: шляпа пустая, кролик — это attention. И всё же путь к этому «крольчонку» оказался длинным: от скромных n-грамм Маркова до трансформера, который переубедил индустрию силой параллелизма.

Сначала — проклятие размерности. Ручные правила споткнулись о живой язык, и в 2003-м Бенжио подсказал выход: распределённые представления. Слова — не таблички, а векторы, между которыми есть «близости». На этом фундаменте Миколов собрал стремительные CBOW и skip-gram: мало слоёв, много данных — и вдруг векторы начали «решать» аналогии уровня king − man + woman ≈ queen. Красиво, но это ещё не язык как процесс.

Затем пришли последовательности. Seq2seq на RNN/LSTM научился переводить и резюмировать, но упирался в узкое горлышко фиксированного контекст-вектора. Бахдану добавил «внимание» и позволил декодеру смотреть на разные части входа по мере генерации. Луонг разложил внимание на варианты — дот-продукт, аддитивное, локальное/глобальное — и стало ясно: механизм работает, осталось упростить и ускорить.

В 2017-м прозвучало: «Attention Is All You Need». Трансформер выкинул рекуррентность, заменив её self-attention, масками и позиционными кодировками. Главное — параллелизм и масштабируемость: multi-head видит разные «ракурсы» зависимости, а модель учится быстрее и глубже.

Но архитектуры мало. Предобучение на задачке предсказания следующего токена превращает огромные корпуса в универсальные представления (GPT), BERT учит двунаправленные зависимости через маскирование. Дальше — настройка под задачи и, главное, RLHF: люди ранжируют ответы, из этого рождается награда, а политика доучивается быть «полезной, честной, безвредной».

Итог «горького урока» прост: побеждают простые идеи, которые масштабируются. Лексика, внимание, предобучение и немного человеческой обратной связи — вот шестерёнки, из которых собрана сегодняшняя «магия» языка.