DLStories | Нейронные сети и ИИ

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 13.15K

Описание канала:

Новинки искусственного интеллекта и нейронных сетей. Разборы статей.
Ну а вообще, посчу, что захочу :)
Сотрудничество/предложения: @atmyre
Поддержать: https://t.me/dl_stories/521

▲ Vote (1)

Рейтинги и Отзывы

2.50

2 отзыва

Оценить канал dl_stories и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 9

2022-02-05 17:36:17 Нейросети становятся все более сложными и "тяжелыми" — количество обучаемых параметров увеличивается, и, соответственно, растет и время на обучение и inference таких сетей. Современные модели, такие как GPT-3 или ViT, уже не натренируешь "на коленке" с нуля: для этого требуются огромные вычислительные ресурсы, деньги и время.

Усложнение моделей неизбежно: недавние работы показали, что для получения хорошей генерализации и робастности количество обучаемых параметров сети должно быть довольно большим. В пользу зависимости "больше параметров -> лучше генерализация" говорит также и то, что модели-гиганты вроде GPT-3 хорошо справляются с задачами в zero-shot режиме. То есть, действительно достигают хорошей генерализации.

В связи с этим возникает задача: научиться строить такие архитектуры моделей, у которых было бы достаточно параметров для хорошей генерализации, но при этом их обучение занимало бы меньше времени и вычислительных ресурсов (было более эффективным). Одна из идей, как это можно сделать — использовать условные вычисления (conditional computation). Суть этого подхода в том, что при подаче на вход модели данных активируются не все участки сети, а только некоторые. И для разных видов входных данных активируются разные части модели. Модель как бы состоит из ансамбля более легких сетей, и это позволяет сильно сократить количество вычислений и время для обучения и инференса модели.

В начале января Google AI представили новую архитектуру — Vision Mixture of Experts (V-MoE). Это модель для решения задач CV, основанная на Vision Transformer. Архитектура V-MoE следует подходу conditional computation — большая часть модели состоит из "набора экспертов" — более легковесных нейросетей. При подаче данных на вход модели обучаемый "медиум" определяет, какой из экспертов должен обрабатывать эти данные. На картинке к посту показана архитектура encoder'а V-MoE.

Результаты модели впечатляют — она достигает SOTA на JFT-300M и ImageNet, требуя в 2.5 раза меньше затрат на вычисления, чем аналоги!

Такие идеи для повышения эффективности обучения тяжелых сетей (и архитектура V-MoE в частности) сейчас выглядят очень многообещающе. Если вы хотите лучше разобраться в идее подхода и понять, насколько же этот подход действительно прорывной, то у меня есть для вас кое-что:

Ребята из ICT.Moscow сделали большой материал по V-MoE: они поговорили с одним из его разработчиков — Карлосом Рикельме, — а также со специалистами в области ИИ из Яндекса, SberDevices, Intento, EORA, Tortu, ЦРТ.
С ними обсудили:
● в чем именно новизна подхода Google и как разработчики к нему пришли;
● какие преимущества у V-MoE по сравнению с обычными нейросетями;
● почему разработчики считают подход перспективным, но пока не спешат внедрять его в свою практику;
● в каких сферах нейросети со слоями-«экспертами» могут применяться, а в каких — вряд ли, и почему;
● как они будут развиваться в будущем.

Ссылки:
блогпост Google AI
статья о V-MoE на arxiv
материал ICT.Moscow о V-MoE

2.4K views14:36

Открыть/Комментировать

2022-02-05 17:36:15

2.1K views14:36

Открыть/Комментировать

2022-02-04 16:54:51 Нейронка для решения (некоторых) задачи олимпиадной математики

Помните нейронку от OpenAI, которая училась решать школьные математические задачи? Так вот, OpenAI ее улучшили и новая модель способна решать более сложные задачи и решать их лучше.

Нейросеть — языковая модель, она оперирует псевдоязыком программирования, на котором генерирует доказательства теорем. Архитектура модели — Transformer-like, похожа на архитектуру GPT-3. На картинке к посту показан пример выдачи модели в ответ на условие задачи.

Что тут интересно — это процесс обучения сети. Модель обучается не в обычном end-to-end supervised режиме, где на вход подается условие задачи, а вывод модели сравнивается с верным текстом решения задачи. Вместо этого обучение — микс supervised learning и reinforcement learning.

Вообще обучение нейросетей для решения математических задач в RL-парадигме — не новинка, такое применяется давно. Формальное доказательство математической задачи сильно похоже на стратегию (траекторию) выигрыша в игре, поэтому логично возникает желание применить RL к тренировке моделей для решения задач. Однако сделать это все же не так просто: тут возникает несколько проблем. Одна из них — что пространство действий агента бесконечно. OpenAI в своей работе предлагают методы решения двух возникающих проблем, и в результате итоговый процесс обучения сети выглядит интересно. Подробно о нем читайте в статье OpenAI.

Полученная модель достигает 41.2% качества на бенчмартке miniF2F. Среди прочего, модели удалось успешно решить парочку довольно сложных заадч с таких олиспиад, как AIME, AMC, IMO.

Однако нельзя считать, что эта работа — прорыв, и что скоро сетки будут умнее людей. Сами OpenAI пишут в блогпосте:
"Хотя эти результаты чрезвычайно интересны, поскольку они демонстрируют, что модели глубокого обучения способны к нетривиальным математическим рассуждениям при взаимодействии с формальной системой, мы все еще очень далеки от лучших результатов учащихся на этих соревнованиях, так как у нейросетей только время от времени, а не постоянно, получается найти решение для сложных олимпиадных задач."

Ссылки:
статья
блогпост

1.1K views13:54

Открыть/Комментировать

2022-02-04 16:54:50

1.1K views13:54

Открыть/Комментировать

2022-02-03 17:42:06

После анонса AlphaCode: как считаете, заменит ли AI в итоге программистов?)

Anonymous Poll

31%

конечно

69%

неа, такого не будет

694 voters1.9K views14:42

Открыть/Комментировать

2022-02-03 17:35:45 Наверное, все уже слышали, а если не слышали, то вот: DeepMind представили AlphaCode: нейросеть, которая решает задачи с Codeforces лучше, чем 54% пользователей.

В архитектуре AlphaCode нет ничего необычного: это encoder-decoder с 41 миллиардом параметров. Как и в стандартных NLP задачах, encoder принимает на вход условие задачи, decoder генерирует ответ токен за токеном. Обучается все end-to-end без всяких хитростей. Обучается это все на датасете, который был собран с GitHub, всего около 715.1 Gb кода.

Интересная же часть AlphaCode — это то, как выбирается итоговое решение. Чтобы получить хороший ответ, AlphaCode подают на вход условие задачи и просят модель выдать огромное количество вариантов решения — около миллиона. Затем из этого миллиона кучей эвристик выбирается несколько (около 10) лучших решений. Эвристики включают:
- фильтрацию решений по прохождению тестов к задаче (не скрытых, а тех, что даны в условии задачи). Выбираются только те решения, которые прошли все тесты. Такая фильтрация сразу выкидывает около 99% выданных решений.
- кластеризацию оставшихся после фильтрации решений. Для этого DeepMind натренировали еще одну модель, которая может генерировать тесты к задачам. Сгенеренные тесты не всегда получаются валидными, но этого досататочно, чтобы кластеризовать выдачу AlphaCode на кластеры по результатам прохождения этих псевдо-тестов. Далее из каждого кластера выбираются по нескольку лучших решений. Эти решения и сабмитятся на Codeforces.

Такая вот штука. Если покопаться в памяти (и нашем канале, хехе) можно вспомнить, что нечто похожее делали OpenAI — Codex. Напомним, Codex — модель для помощи написания кода: она может дополнять код программиста большими логичными кусками. О Codex мы писали тут. Если интересно, в чем отличие архитектуры Codex и AlphaCode — читайте вот тут.

Ссылки:
блогпост DeepMind
статья DeepMind
твит DeepMind

2.3K views14:35

Открыть/Комментировать

2022-02-01 18:47:51

Зацените: neural.love — сайт, где с помощью нейронок можно улучшать изображения и видео. Только посмотрите на гифку к посту: как круто работает модель для генерации реалистичных портретов! Судя по результатам, известной проблемы high-resolution подходов, что при улучшении изображений теряется семантика (например, меняется цвет кожи или что-то подобное) у сервиса не наблюдается.

Сейчас на сайте можно делать high-res изображений, high-res видео и генерировать реалистичные портреты (например, "осовременить" черно-белое смазанное фото или сгенерировать реалистичный портрет на основе картины, как на гифке к посту). Обратите внимание, что бесплатные только несколько первых генераций.

Сайт делают ребята из @MLArt. Думаю, в скором времени выкатят еще больше моделек на сайт (или еще лучшие версии существующих моделей), так что следим

623 views15:47

Открыть/Комментировать

2022-01-31 16:56:23

InstructGPT: новое поколение GPT от OpenAI

Архитектурно это всё та же GPT-3, вся фишка в дообучении:
1. Сначала, они её немного зафайнтюнили на чистых данных.
2. Потом вручную разметили качество получающихся аутпутов и обучили reward модель его предсказывать.
3. Далее в ход пошёл Reinforcement Learning алгоритм (PPO), который по этой reward модели ещё чуть-чуть затюнил GPT.

В итоге InstructGPT стала менее токсичной, реже путается в фактах и в целом лучше справляется со всеми задачами. Говорят, что даже 1.3B новая модель лучше, чем 175B старая.

P.S. Похоже, что RL теперь снова в моде благодаря языковым моделям.

Статья, блог, GitHub

1.0K views13:56

Открыть/Комментировать

2022-01-30 22:45:58

Никто:
Любая статья про ГАНы:

(Простите, но мне очень понравился этот мем )

1.9K views19:45

Открыть/Комментировать

2022-01-30 15:36:48 Понемногу возвращаемся к AI-новостям =) Давно вот эту новость задолжали:

Помните, как в Сбере запилили русскую версию DALL-E? Если вдруг пропустили, то мы об этом писали тут, а вот тг-бот, где можно играться: вводить текстовое описание на русском и получать картинки от ruDALL-E.

В этом посте расскажу о двух новых модельках, которые натренировали в Сбере:

ruDALL-E Emojich — тг-бот с версией ruDALL-E, которая умеет генерировать стикеры. Пользоваться просто: вводите текстовое описание на русском языке, бот выдает вам на него 36 вариантов стикеров. Далее вы можете выбрать лучшие картинки и сделать из них стикерпак =)
Ссылки:
- тг-бот
- статья на Хабре о том, как обучали модель

ruCLIP — в Сбере обучили и русскоязычную версию CLIP. CLIP — это нейросеть, которая выучивает общее пространство эмбеддингов для изображений и текста. Это позволяет ей, в частности, оценивать, насколько текстовое описание соответствует изображению. Подробно о CLIP мы писали тут.
ruCLIP — отличное дополнение к ruDALL-E. Если вы уже игрались с ruDALL-E, вы знаете, что ruDALL-E генерирует несколько изображений на каждый текстовый запрос (обычно 16 штук). Из этих 16 сгенерированных картинок некоторые — огонь , а некоторые — треш и стыд). И раньше отделять классные картинки от страшных нужно было самому. Теперь же ruCLIP может помочь в этом: после генерации 16 изображений с помощью ruDALL-E нужно просто прогнать эти картинки и текст, по которому они сгенерированы, через CLIP. CLIP поставит каждой паре (картинка, описание) оценку: чем оценка выше, тем более, по мнению CLIP, картинка соответствует описанию. А значит, тем более эта картинка "адекватная".
Как говорят в Сбере, "если ruDALL-E - это художник, то ruCLIP - это критик".
Ссылки:
- статья на Хабре о ruCLIP (с объяснениями принципов работы CLIP)
- еще статья на Хабре о ruCLIP и некоторых версиях ruDALL-E
- GitHub с кодом и моделями ruCLIP

2.0K views12:36

Открыть/Комментировать