Получи случайную криптовалюту за регистрацию!

6 лет назад, 12го июня (ну да, опоздал чуток ) 2017го года, в | Сиолошная

6 лет назад, 12го июня (ну да, опоздал чуток ) 2017го года, вышла статья "Attention is All You Need", представившая архитектуру трансформера

Про авторов статьи, про то, что с ними стало, я недавно писал на канале - все успешные люди, все красавцы

Немного информации и фактов:
— В Трансформере не изобрели механизм внимания (Attention), а просто использовали существующий принцип на пределах возможного. Первая статья про Attention была опубликована за 3 года до этого (2014 г.) и имела непритязательное название: «Neural Machine Translation by Jointly Learning to Align and Translate» из лаборатории Yoshua Bengio (тоже очень известного чувака в мире глубокого обучения). Многие из вас, вероятно, не слышали о ней, но это одна из цитируемых статей в NLP, не в последнюю очередь благодаря Трансформеру: сейчас там 29 тысяч цитат (по сравнению с 77 тысячами у "Attention is All You Need").
— Ни в Трансформере, ни в оригинальной статье про Attention не говорилось об использовании модели как универсального компьютера для обработки произвольных последовательностей. Вместо этого оба решения были задуманы как инструменты для одной узкой и конкретной проблемы: машинный перевода. Предстьавте, что Google Translate - это дедушка AGI
— Transformer был опубликован на NeurIPS 2017 - одной из ведущих мировых конференций по искусственному интеллекту. При этом для статьи не было устной презентации, и даже наград за проделанный труд (обычно отмечают особые работы). А в 2022м году на NeurIPS было выбрано 3 лучших доклада, у которых вместе сейчас всего 529 цитирований.

Напоминаю, что лекцию по трансформерам (техническую) от меня можно глянуть вот тут.

На гифке: принцип работы механизма внимания (Attention), который позволяет при обработке каждого слова учиытвать все другие слова с некоторыми "весами" (которые модель выучивает сама - ничего из этого не нужно задавать руками). То есть когда мы пишем первое слово перевода — мы обращаем внимание на каждый "кружочек" (представление) других слов.