Gato от DeepMind — модель, которая умеет решать сразу кучу за | DLStories | Нейронные сети и ИИ

Gato от DeepMind — модель, которая умеет решать сразу кучу задач: language modeling, image captioning, играть в игры, передвигать предметы робо-рукой и т.д.

Идея Gato очень проста. Смотрите, у нас есть GPT-3 — авторегрессионная модель, которая умеет предсказывать следующий токен по входной последовательности. Что если другие задачи — image captioning, RL и т.п.— тоже представить в виде "предскажи следующий токен по предыдущим"?

Например, преобразуем картинки в последовательность токенов, будем подавать их на вход модели и ждать ответ — caption картинки. Иля для RL: представим информацию о состоянии среды и предыдущих действиях агента в виде последовательности. Подадим модели на вход и будем ждать ответ — следующее действие для агента.

Получается, Gato — это GPT-3 для решения сразу 604( ) задач, которые представляются в таком виде.

Как информация для разных задач кодируется в последовательности токенов и какие задачи решает Gato, читайте в блоге DeepMind и в статье на arxiv.

DLStories | Нейронные сети и ИИ

👨‍🎨 13.15K
Технологии

Новинки искусственного интеллекта и нейронных сетей. Разборы статей. Ну а вообще, посчу, что захочу :) . Сотруд�...

Join
▲ Vote (1)

Gato от DeepMind — модель, которая умеет решать сразу кучу за | DLStories | Нейронные сети и ИИ

Login