2021-01-21 15:01:12
Многие из вас наверняка еще помнят шумиху вокруг
GPT-3 — языковой модели от OpenAI, которая оказалась способной создавать новые сверхреалистичные статьи, а также решать множество различных NLP задач. Больше всего в GPT-3 поражает ее немалый размер — это 1
75 миллиардов параметров. Обучение такой модели требует невероятного количества вычислительных ресурсов, времени и данных.
И вот, 7 месяцев спустя, теперь уже команда Google аннонсировала
Switch Transformer — новую языковую модель с
1 триллионом параметров! В своей статье, опубликованной на прошлой неделе, исследователи описывают метод, позволяющий масштабировать модели трансформеров. Ключевая идея лежит в их подходе
Mixture of Experts (MoE), который позволяет обучать несколько более разреженных моделей, вместо одной плотной. При этом, в отличии от большинства трансформеров, которые используют одни и те же параметры для любых входных данных, данная модель выбирает разные параметры для каждого отдельного примера.
Больше деталей в оригинальной статье
2.6K views12:01