Получи случайную криптовалюту за регистрацию!

Curriculum Learning: A Regularization Method for Efficient and | Говорит AI

Curriculum Learning: A Regularization Method for Efficient and Stable Billion-Scale GPT Model Pre-Training
https://arxiv.org/abs/2108.06084

TL;DR
Microsoft показали, что возможно делать pre-training больших (1.5B) GPT-модели с большим размером батча (bs 4К), более стабильно (без скачков лосса) и без потери в качестве - если плавно увеличивать максимальную длину последовательности в ходе обучения.

Суть подхода
Для pre-training огромных трансформеров, как правило, нужно много GPU + большой размер батча, чтобы модель обучалась за разумное время. Но при увеличении размера батча обучение становится более нестабильным, а модель медленнее (относительно использованного числа токенов) сходится к нужным метрикам. Цель, которую поставили перед собой авторы статьи - не терять в стабильности и качестве при обучении с большим размером батча. Анализ проводили на двух GPT-моделях - “маленькой” (117M параметров) и “большой” (1.5B) и с batch size 512 и 4096, в качестве оптимизатора использовали только Adam (с другими не сравнивали).

Подход авторов состоит в постепенном повышении длины последовательности по линейной “pacing function” (пробовали также другие - дискретные, степенные и т.д. - линейная работает лучше всего). У такой pacing function всего 2 параметра - стартовая длина последовательности seqlen1 (брали 8/64 токенов для маленькой/большой модели) и число шагов T до максимальной длины последовательности. В графиках в основной части статьи авторы пробуют обучают модель с несколькими вариантами T.

В конце статьи авторы также предлагают эвристику для подбора этих параметров: сначала на небольшом числе шагов (num LR warmup steps х небольшой множитель) увеличивать seqlen1 до исчезновения сильных колебаний перплексии на валидации. Затем на том же числе шагов бинарным поиском найти максимальный T, на котором не возникает тех же колебаний перплексии. Утверждается, что результаты при подборе по такой эвристики не хуже, чем при переборе по grid search (полный перебор делали только для модели 117М).