Получи случайную криптовалюту за регистрацию!

InstructGPT: новое поколение GPT от OpenAI Архитектурно это в | DLStories | Нейронные сети и ИИ

InstructGPT: новое поколение GPT от OpenAI

Архитектурно это всё та же GPT-3, вся фишка в дообучении:
1. Сначала, они её немного зафайнтюнили на чистых данных.
2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать.
3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.

В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.

P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.

Статья, блог, GitHub