Получи случайную криптовалюту за регистрацию!

Новости NLP одной строкой #7 1. Поддержка int8 для всех модел | DL in NLP

Новости NLP одной строкой #7

1. Поддержка int8 для всех моделей в Transformers . Обещают есть в 4 раза меньше памяти при минимальных потерях в качестве. Сейчас в бете, скоро обещают статью и релиз. Подробнее тут.
1. Графовые сети не нужны, трансформеры могут отлично решать графовые задачи, если использовать правильный метод эмбеддинга.
1. Модель Atlas это такой RETRO, но где более правильно тюнят и retreiver и language model. Atlas-11B обходит PALM-540B на QA задаче. Вообще в статье очень хороший анализ того как правильно варить retreival-augmented модели.
1. Интересная статья Meta AI о том как обучать conversational модель после деплоя.
1. Branch-Train-Merge — забавный метод где в начале тренируют кучу не очень больших LM на разных доменах а потом их ансамблируют. В результате обошли GPT-3.
1. Multiplying Matrices Without Multiplying — кажется я уже когда-то видел статю с таким названием, но всё равно забавная идея. Предлагают хитрый способ ускорения матричного умножения который не требует операций умножения (которые для процессора гораздо дороже сложения).
1. Робастность трансформеров и CNN на vision задачах на удивление близка. Вообще забавно смотреть на то что уже почти два года пошло после ViT, на CNN так и не сдают.