Получи случайную криптовалюту за регистрацию!

Результаты Применяемый подход сравнивали с обучением со “станд | Говорит AI

Результаты
Применяемый подход сравнивали с обучением со “стандартными” параметрами, а также с двумя работами конкурентов - 1) с дискретным 2-ступенчатым увеличением длины последовательности (“2-stage CL“) и 2) плавным увеличением размера батча (“Bsz Warmup 45”). Метрики меряли по перплексии на валидации, перплексии на WikiText и accuracy на LAMBADA. Для анализа “нестабильности” обучения предложили метрику “loss ratio” - отношение текущего лосса к минимальному за все предыдущие шаги, и сравнивали по ней модели (еще смотрели на максимальный накопленный variance state в Адаме).

Pre-training “большой” модели с размером батча в 4К с применением CL-подхода авторов проходит на 65% быстрее (121 час vs 341), чем при обучении с размером батча в 512, достигая при этом метрик не хуже на LAMBADA/WikiText (и использует для обучения суммарно на 23% меньше токенов - 121 млрд vs 157 млрд). Для сравнения, при обучении с размером батча в 4К со стандартными параметрами целевые (как с маленьким размером батча) метрики не достигаются даже при обучении на полном объеме токенов.

Также при применении авторского-CL подхода практически полностью исчезла нестабильность в обучении - максимальный loss ratio остается в пределах 1.02-1.06х (против 5х+ при стандартном обучении). В работах конкурентов есть ускорение по сравнению со стандартным подходом, но меньшее + не решается проблема нестабильности обучения (как по loss ratio, так и по max variance state в Адаме)