2021-10-14 22:54:48
Scale Efficiently: Insights from Pre-training and Fine-tuning TransformersTay et al. [Google]
arxiv.org/abs/2109.10686
Scaling Laws не работают на downstream-задачах
Авторы решили проверить заявление Scaling Laws о том, что качество модели растёт от чила параметров и слабо зависит от того как именно мы его увеличили (в разумных пределах). В результате авторы натренировали кучу моделей Т5 и увидели, что
a) перплексия и правда слабо зависит от этого (странно в контексте статьи про Scaling Laws for Neural Machine Translation, которую мы обозревали недавно);
b) downstream-задачи не следуют power law от числа параметров и там всё хитрее.
В результате предлагают более эффективные трансформеры. Под эффективностью понимают число FLOPS для их тренировки. В результате приходят к довольно популярному выводу, что скейлить глубину выгоднее, чем скейлить ширину, но до определённого предела (~36 слоёв). Вместо Base(12L, 768H, 3072FF) предлагают Small(22L, 512H, 2048FF), который требует 9.3TFlops для тренировки против 11 и даёт то же качество. Проблема глубоких моделей в том, что инферить их обычно чуть-чуть дольше, тк слои нелья параллелить.
Эти новые шейпы моделей выглядят интересно, но не кажется что буст достаточно заметный, чтобы все начали ими пользоваться. Было бы интересно получить такие новые шейпы для огромных моделей (~100B параметров), но авторы говорят что их правила неуниверсальны и могут не работать для маленьких/больших моделей.
1.7K viewsnlpcontroller_bot, edited 19:54