я обучала одну модель

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 2.61K

Описание канала:

Shitposting on various subjects
Ответственная за шитпост: @exitcodezero

▲ Vote (1)

Рейтинги и Отзывы

5.00

3 отзыва

Оценить канал def_model_train и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 4

2022-02-02 22:20:52 DeepMind выпустил AlphaCode, который прогает лучше половины твоих знакомых.

Во многом похож на Codex, но есть отличия.

Основной подход:
1. Encoder-decoder, 41B параметров
1. Декодер обучается предсказывать следующее слово, а энкодер делает MLM. Всё end2end.
1. Заскрапили датасет задачек с Codeforces и зафайнтюнили на нём модель
1. Во время тестирования семплили очень большое количество решения (до миллиона) и потом выбирали из них с помощью кластеризации, эвристик и, самое главное, проходят ли они открытые тесты которые приложены к задачке. Сабмитили на финальную проверку только топ-10.

По результатам: AlphaCode решает задачки лучше, чем 54% пользовалетей Codeforces (не очень альфа пока что, но стремится туда).

Небольшие технические отличия от Codex:
1. Максимальная длина для энкодера 1536, для декодера 768
1. Использовали Multi-query attention, модификацию attention, которая использует одни и те же K и V для разныех голов – позволило улучшить потребление памяти и скорость декодирования
1. Очень маленький словарь токенизатора, 8К.
1. Во время файтнюнинга использовали температуру 0.2, которая делает распределение более острым. При тесте температура не использовалась, назвали это tempering.
1. Файнтюнились и на правильных и на неправильных решениях, при этом моделе заранее сообщается сигнал корректное ли это решения.
1. Для файнтюнинга использовали лосс, который называется GOLD. По сути это взвешенная кросс-энтропия, несмотря на то, что выглядит как RL.

Вот тут можно посмотреть на визуализацию attention, а ещё есть популярно написанный блогпост

1.3K views19:20

Открыть/Комментировать

2022-01-28 00:42:44

OpenAI релизнули (и вроде даже можно дергать через API) InstructGPT – сетку, которая должна лучше считывать интент пользователя, то есть генерировать что-то более специфичное вроде объяснения/саммари/парафраза/что попросят. До это уже можно было колдовать…

1.8K views21:42

Открыть/Комментировать

2022-01-28 00:42:28 OpenAI релизнули (и вроде даже можно дергать через API) InstructGPT – сетку, которая должна лучше считывать интент пользователя, то есть генерировать что-то более специфичное вроде объяснения/саммари/парафраза/что попросят. До это уже можно было колдовать с промтами, но авторы приводят графики с доказательствами, что качество тут все же выше
Как Jan Leike сам пишет в твиттере, там не чтобы новые методы или модель: через краудсорс куча человек написало ответы к промтам, на это натюнили GPT-3, потом ответы GPT-3 также краудсорсеров попросили проранжировать. Дальше с помощью этих размеченных данных учат модель с помощью RL, кокретно через Proximal Policy Optimization (PPO). Если кратко суть PPO в том, чтобы повышать вероятность выбора действий, которые дают больше выгоды (reward), чем изначально ожидалось (такие изначальные оценки полезности получаются из отдельной MLP сетки), и понижать для тех, что оказались хуже. Но при этом нужно учитывать, что это действие приносит такую большую (или наоборот такую отрицательную) пользу только на этом участке игры, поэтому сильно уходить от текущей стратегии может быть глупо, и вообще можно так вылететь в плохой стейт, где все действия нас особо никуда не ведут, и в нем застрять, – поэтому выше и ниже определенного порога веса апдейтнуть нельзя. Если хочется подробнее, вот отличное и математичное объяснение интуиции за PPO

В целом конечно underwhelming ситуэйшн так как основной понт тут в краудсорсе, но как утверждает все тот же Jan Leike, модель научилась хорошо генерализироваться – например, выполнять задачи на других языках помимо английского или объяснять код, хотя код и тексты на других языках составляют очень небольшой процент тренировочных данных. Это как будто круто для генерализации для всяких не-conversational чатботов, от которых требуются конкретные действия/ответы, и как будто отсюда легко натюнить бота под конкретные задачи, чтобы он был не совсем retrieval-based, то есть не просто дергал ответы из базы знаний. Но все равно ы

1.7K views21:42

Открыть/Комментировать