Что происходит у ChatGPT «под капотом»Многие думают, что ChatGPT отлично разбирается во всем, что пишет, и еще лучше умеет выдумывать истории. На самом же деле,
модель-трансформер предсказывает, какое слово наиболее вероятно должно идти в тексте следующим.
Выпускник Стэнфорда Грант Сандерсон выпустил
30-минутное видео о том, как устроен GPT. Ниже краткий FAQ о механизме подбора слова. Спойлер: не обещаем, что будет просто, но точно проще, чем в учебниках.
Процесс генерации текста можно описать 3 словами: Предсказание → Добавление → Повтор. Большие языковые модели (LLM) предсказывают следующее слово в тексте, добавляют его к тексту, а затем повторяют операцию.
На первом этапе модель делит текст на токены: слова, части слов или комбинации символов.
Что именно означает каждое слово модель определяет по контексту и месту слова во фразе. Для этого используется
механизм внимания. При этом токены могут «общаться» друг с другом для уточнения контекста: например, чтобы отличить «модель» ML от «фотомодели». По итогу этого «общения» данные по каждому токену обновляются.
Следующий этап — модель задает к каждому токену множество вопросов: является ли это существительным, на каком языке оно написано и т.д. За этот этап отвечает
многослойный перцептрон.
После многочисленных повторов этих двух операций появляется список слов, которые, скорее всего, могут следовать в тексте далее. Каждому слову присвоена вероятность, модель выбирает слово с наивысшей вероятностью. После чего трансформер ищет следующее слово.
Таймкод лекции: Процесс поиска слова.
Главная идея глубокого ML.
Где находится искомое слово.
Как слова превращаются в векторы.
Почему ChatGPT забывает контекст.
Посмотреть полностью обзор на трансформеры можно
тут.
Также по теме: Почему генеративный ИИ ошибается?
Лекция Майкла Вулриджа «Какое будущее ждет генеративный ИИ?»
@hiaimedia