Gato от DeepMind —
модель,
которая умеет решать сразу кучу задач: language modeling, image captioning, играть в игры, передвигать предметы робо-рукой и т.д.
Идея Gato очень проста. Смотрите, у нас есть GPT-3 — авторегрессионная модель, которая умеет предсказывать следующий токен по входной последовательности. Что если другие задачи — image captioning, RL и т.п.— тоже представить в виде "предскажи следующий токен по предыдущим"?
Например, преобразуем картинки в последовательность токенов, будем подавать их на вход модели и ждать ответ — caption картинки. Иля для RL: представим информацию о состоянии среды и предыдущих действиях агента в виде последовательности. Подадим модели на вход и будем ждать ответ — следующее действие для агента.
Получается, Gato — это GPT-3 для решения сразу 604( ) задач, которые представляются в таком виде.
Как информация для разных задач кодируется в последовательности токенов и какие задачи решает Gato, читайте в блоге DeepMind и в статье на arxiv.