В октябре Алиса AI стала умнее за счёт нового семейства моделе | ТЕХНО: Яндекс про технологии ✔

В октябре Алиса AI стала умнее за счёт нового семейства моделей Alice AI. Сегодня разработчики Яндекса выложили на Хабр подробный рассказ о том, как создавали эти модели и как они соотносятся с предыдущим поколением и конкурентами.

Открываем серию постов про эти модели и рассказываем про первую модель из семейства — Alice AI LLM. Она прошла полный цикл обучения на данных и инфраструктуре Яндекса: от претрейна до финального дообучения для решения реальных задач пользователей. А ещё Alice AI LLM — первая нейросеть Яндекса на базе архитектуры MoE — Mixture of Experts (группа экспертов). Рассказываем, что это такое и как это помогает делать нейросети эффективнее.

Как работает MoE?

Когда обычная LLM получает запрос пользователя, она использует всю свою мощь для генерации ответа. MoE-нейросети работают оптимальнее: активируют только те части модели, которые лучше всего подходят для решения текущей задачи. Эти части называют экспертами, а за их выбор отвечает роутер — небольшая нейросеть, которая выбирает, кто из экспертов лучше справится с генерацией следующего токена.

Зачем это нужно?

Чтобы сделать нейросеть в разы быстрее, сохранив качество ответов

Или сделать её в разы больше и умнее, не замедляя работу

Подписывайтесь @techno_yandex