2023-04-26 23:46:52
Я днём: пишу, что вот, мол, релизнут модельку, обученную писать код, а потом доучат на языке (как OpenAI)
Я вечером: китайцы...
Тезисно:
— Китайцы натренировали MOSS, модель на 16B параметров
— Модель и данные доступны на HuggingFace
— Модель инициализирована из предтренированной CodeGen, которая, как очевидно из названия, была обучена...на коде
— Base-версия moss-moon-003-base (ссылка) видела во время тренировки 700B токенов - это достаточно много (у оригинальной GPT-3 было ~300B токенов, и она была сильно недоучена, и при этом больше по размеру)
— дальше модель дообучали на диалогах, чтобы сделать модель-ассистента, которая умеет отвечать и связывать новые команды со старыми сообщениями
— значимая часть этих данных была собрана с ответов GPT-3.5 и ChatGPT: The data is consisting of 570K English and 590K Chinese conversations generated by text-davinci-003; The data is generated by gpt-3.5-turbo from a seed set of user prompts collected through our early deployed MOSS-002 API.
— (начинается интересное) модель отдельно учили использовать инструменты (tools). Это как плагины у ChatGPT - вы ей пишете, мол, "если ты хочешь вызывать калькулятор - напиши Calculator: {expression}, а мы вернём результат команды". То же - для поиска в браузере, исполнения Python кода. Да и вообще хоть какой внешний API можно превратить в tool, просто описав, как модели им пользоваться
— Дообученная модель использует: поисковик, преобразование текста в изображение (text-2-image), калькулятор и решатель уравнений. По идее, обучение с предыдущего шага должно позволять лучше понимать новые инструменты в zero-shot режиме
— для этих моделей также выложены квантизованные int4/int8 модели, чтобы их можно было гонять даже на одной видеокарточке игровой (24/12 гигов соотвественно)
— модель также учили на RLHF, чтобы она генерировала результаты, которые люди оценивают выше (preference model), однако она, а также финальная модель, дообученная с плагинами и диалогами на этом наборе данных, пока недоступна (moss-moon-003-plugin, очень ждём)
— модель тренировалась на английском и китайском в соотношении 1:5, так что не нужно быть азиатом, чтобы ей пользоваться
— для модели есть код демки, который запускает в браузере аналог сайта с ChatGPT, и прям там же под капотом используются плагины. Самый главный, конечно - поиск в интернете.
Документация (в репозитории)
7.0K viewsedited 20:46