Получи случайную криптовалюту за регистрацию!

В 2017 году трансформер представили исследователи из проекта G | ТЕХНО: Яндекс про технологии

В 2017 году трансформер представили исследователи из проекта Google Brain. Архитектура быстро набрала популярность с распространением больших языковых моделей, для создания которых её в основном используют. Например, GPT расшифровывается как Generative Pre-trained Transformer (генеративный предобученный трансформер). Сегодня на основе архитектуры трансформер работают практически все большие языковые модели: GPT-4, YandexGPT, Llama, Claude, Gemini и другие.

В основе этой архитектуры лежит механизм внимания, а статья, в которой она была впервые описана, называлась “Attention is all you need” («Всё, что вам нужно, — это внимание»). В рекуррентных сетях (RNN), которые до этого чаще всего применяли для работы с текстом, входной текст приходилось «упаковывать» в сжатый вид, из-за чего часть информации неминуемо терялась. Трансформеры же на каждом шаге своей работы «смотрят» на весь входной текст и обращают внимание на самое важное в нём.

Такой подход позволяет нейросети понимать контекст и при этом синтезировать на выходе связный и логичный ответ. Помимо этого трансформеры обладают способностью к обобщению, то есть могут работать с данными, которые не были им известны во время обучения.

Подписывайтесь @techno_yandex

Не пропускайте новости Яндекса тут @yandex