DLStories | Нейронные сети и ИИ

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 13.15K

Описание канала:

Новинки искусственного интеллекта и нейронных сетей. Разборы статей.
Ну а вообще, посчу, что захочу :)
Сотрудничество/предложения: @atmyre
Поддержать: https://t.me/dl_stories/521

▲ Vote (1)

Рейтинги и Отзывы

2.50

2 отзыва

Оценить канал dl_stories и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения

2022-06-24 12:01:38 DALL-E 2 -> Imagen -> Parti

В последнее время все привыкли, что лучшие text-to-image модели основаны на диффузии. Таковыми были и DALL-E 2, и Imagen. Но тут Google представил еще одну свою text-to-image модель: Parti. Она не использует диффузию, но при этом генерит отличные картинки по текстовым запросам. Примеры ее работы — на 1 картинке к посту. Только посмотрите, как круто модель передает все детали!

Архитектура Parti:
Устроена Parti довольно просто (см. 2 картинку к посту). Идея ее работы такая же, как у Seq2Seq Transformer'ов для задачи машинного перевода (MT). Я не буду здесь рассказывать про Seq2Seq архитектуру для MT, но если вам хочется подробнее узнать про нее, то у меня есть лекция в DLS о Seq2Seq и задаче MT.

Так вот, Parti использует для генерации картинок ту же идею. На вход encoder'у, как и в задаче MT, подается текст, а на выходе decoder генерирует последовательность токенов изображения.

Осталось понять, что это за "токены изображения" и как из них получить итоговую картинку.
Для получения токенов по изображениям и обратно авторы обучили Autoencoder-like модель ViT-VQGAN. Эта модель учится переводить картинку в последовательность токенов и обратно. В итоге во время обучения decoder Seq2Seq части учится выдавать последовательность токенов картинки по текстовому запросу, а затем эти токены с помощью генеративной части ViT-VQGAN (detokenizer) переводятся в итоговое изображение.

Вот такая простая идея. Она не новая: на такой же идее image tokenizer + autoregressive model были основаны и прошлые подходы к генерации изображений. Среди них — первая версия Dall-E, CogView, Make-A-Scene.

Еще несколько поинтов о Parti:
- Модель, описанная выше, учится генерировать картинки размера 256х256. После генерации ее растягивают до размера 1024х1024 с помощью модели для super-resolution. Такая же техника применялась и в Imagen и в многих других моделях для text-to-image.
- Авторы обучили несколько моделей Parti с разным количеством параметров: от 350М до 20В. Как меняется качество генерации при увеличении количества параметров, видно на третьей картинке к посту (оочень сильно!)
- В Seq2Seq части перед обучением модели генерировать картинки по тексту авторы предобучали encoder. Можно сказать, что в качестве encoder был взят предобученный BERT. Это помогает улучшить результаты больших моделей (с 3B и 20B параметров)
- Parti отлично показывает себя в zero-shot режиме на датасете MS-COCO. Более того, авторы также протестировали модель на описаниях картинок из датасета COCO. Описания в COCO отличаются тем, что они намного более длинные (см. 4 картинку к посту). Parti вл время обучения не видела таких длинных описаний, но, при этом, она хорошо справляется с генерацией картинок по ним. По этому умению Parti опережает Imagen.

Вот такая вот модель. То, что Parti офигенная и работает не на диффузии, доказывает, что не нужно выкидывать все прошлые идеи для генерации картинок и восхвалять одну диффузию. Это напоминает еще о том, как становились популярными Visual Transformer'ы: многие называли их "убийцами сверток" и считали, что свертки больше не нужны. Но время доказало обратное: были придуманы хорошие сверточные и даже полносвязные сети для работы с картинками.
Хороший повод для размышлений =)

Ссылки:
Блог Google research
Статья на arxiv

@dl_stories

1.1K views09:01

Открыть/Комментировать

2022-06-24 12:01:36

1.2K views09:01

Открыть/Комментировать

2022-06-23 13:12:33

Яндекс выложил в опенсорс языковую модель YaLM на 100 млрд параметров. В статье на Хабре и в английской версии на Медиуме они делятся не только моделью, но и опытом её обучения (а также примерами диалогов с YaLM 100B):

Вот ссылка на Гитхаб. Модель обучалась 60 дней на 1,7 ТБ текстов из интернета, книг и множества других источников с помощью 800 видеокарт A100.
Сейчас это самая большая в мире GPT-подобная нейросеть в свободном доступе как для английского, так и для русского языков. В Яндексе YaLM уже больше года является частью бэкенда Поиска и Алисы.

1.2K views10:12

Открыть/Комментировать

2022-06-22 14:06:22 Подборка #веселыеновости:

1. Google официально отказывается от TensorFlow и переходит на JAX. JAX — это тоже фреймворк от гугл, по удобству схожий с PyTorch. Еще из его плюсов — наличие библиотек для специфических вычислений: например, симуляции процессов физики элементарных частиц или работы с NTK (Neural Tangent Kernel).
Ну что, будет новое противостояние: PyTorch vs JAX
P.S. Только недавно писала о новом курсе Эндрю Ына по машинке. В новом курсе он перешел с Matlab на Python, но вот DL часть там на TensorFlow. Только курс вышел, а уже опять устарел))

2. Dall-E сгенерировал обложку для журнала Cosmopolitan. Казалось бы, ничего удивительного: очередная генерация картинки с помощью Dall-E, но шуму это навело достаточно) Снова начались страхи и возгласы по поводу "AI заменит художников".
Про то, как обложка создавалась, и оды в адрес Dall-E можно почитать в статье Cosmopolitan. Градус хайпа и запугивания художников можно понять уже про фразам "World’s Smartest Artificial Intelligence" и "a neural network [is] a type of algorithm that mimics the workings of the human brain" =)

3. Ладно обложка к журналу, таким вас уже не удивишь. А как насчет пива? В Новом Орлеане запустили производство пива по рецепту от AI-модельки. Пиво назвали AI Blonde Ale.
Моделька для генерации рецепта вообще-то довольно проста. Рисерчеры собрали отзывы посетителей пивоварни на различные сорта пива и заставили модель сгенерить некий "усредненный" рецепт пива, которое понравилось бы большинству. К сожалению, что именно эта была за модель, я найти не смогла.
Кстати, в Baton Rouge сейчас проходит конференция CVPR: хорошая возможность для посетителей конфы заскочить в Новый Орлеан попробовать AI-пива =)

861 viewsedited 11:06

Открыть/Комментировать

2022-06-22 14:06:20

786 views11:06

Открыть/Комментировать

2022-06-21 13:23:16

Учитесь кодить?
Мы создали курс «Профессия Data Scientist PRO» как раз затем, чтобы с нуля обучать людей науке о данных. Подробности по ссылке: https://clc.to/U9-fBg

Многие думают, что для работы в Data Science нужно закончить технический вуз и пройти через все круги матана. Конечно, лишним не будет, но опыт говорит, что заниматься работой с данными можно и без такого бэкграунда.
Для кого этот курс:
— для новичков;
— для программистов;
— для начинающих аналитиков.
Вы с нуля освоите Python, SQL, научитесь собирать и анализировать данные, получите необходимый теоретический минимум по математике, теории вероятности и статистике. Знания закрепите на практике — решите задачи на основе реальных кейсов и добавите проекты в портфолио. Устроитесь на стажировку по выбранной специальности уже во время обучения.

Не упустите возможность начать карьеру в одной из самых востребованных IT-профессий!
#промо

1.1K views10:23

Открыть/Комментировать

2022-06-18 20:57:33

Chinchilla: оптимальная языковая модель (by DeepMind)

Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).

Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.

Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправидливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.

Статья

1.8K views17:57

Открыть/Комментировать

2022-06-17 20:32:16 Мне тут уже несколько человек сказали и еще у пары людей в каналах/сториз увидела, что Andrew NG перезапустил свой курс по машинному обучению. Говорят, и прошлая версия была огонь, а эта, наверное, еще лучше. Я прошлую версию сама не проходила, но проходила курсы Andrew NG по DL (о них я тут писала), и они действительно были офигенными. Поэтому охотно верю, что курс крутой. А учитывая, что прошлый курс был на matlab, а новый — на Питоне, то тем более =)

В общем, вот ссылка на курс на Coursera. Если будете проходить, поделитесь потом отзывом, пожалуйста =)

P.S. Глянула программу, и там не только классический ML, а еще и DL, RL, рекомендательные системы и unsupervised learning! Правда, DL на Tensorflow, но на нем тоже полезно уметь работать, в принципе.

1.9K viewsedited 17:32

Открыть/Комментировать

2022-06-16 14:06:51

Тут недавно была новость о том, как инженер из Google обучил большую языковую модель и уверовал, что у нее есть сознание.

Кратко, если кто пропустил:
Инженера зовут Блейк Леймон. В Google он долго работал над LM под названием LaMDA, и под конец, "пообщавшись" с моделью, реально поверил в то, что она обладает сознанием и развел огромный кипиш. Он даже обвинил Google в «неэтичном поведении» и нанял адвоката представлять интересы модели LaMDA ⚆ _ ⚆
Google отправила Блейка в оплачиваемый отпуск и отстранила от доступов к внутренним сервисам компании.

Писать много мыслей на тему "есть ли у LaMDA сознание" я не буду, за меня это уже сделали мои коллеги: вот их посты на каналах Denis Sexy IT и NN for Science. От себя скажу, что я разделяю их видение и считаю, что у LaMDA, конечно же, никакого сознания нет.
Почитать переписку Блейка с моделью, на основе которой он уверовал в ее "сознательность", можно тут

Ну а я этот пост написала ради картинки выше. Мне кажется, это лучший TL;DR ко всей этой истории

1.4K views11:06

Открыть/Комментировать

2022-06-15 18:29:37 ИИ опять творит полезности, учёные из Израиля использовали его для обнаружения одного из самых ранних свидетельств использования контролируемого огня человеком ~800 000 лет назад.

Существует теория под названием «гипотеза приготовления пищи», которая утверждает, что использование огня имело решающее значение в эволюции homo sapiens, так как огонь сделал пищу более безопасной для употребления (и позволил варить еду, которую без варки не съешь, типа круп и тп). Увы, было очень сложно найти подтверждение этому факту до недавнего времени, ведь уголь и зола исчезли после стольких лет.

В своём исследовании учёные отправились в экспедицию в Эвронский карьер на севере страны, где в ходе прошлых раскопок находили окаменелых животных и орудия труда периодом от 800 000 до 1 млн. лет, в общем местная «капсула времени».

Перед этим исследователи натренировали ИИ-модель, которая могла анализировать химический состав материалов и на основе этого оценивать шаблоны, в которых они нагревались. То есть с таким инструментом можно искать молекулярные сигналы у каменных инструментов и орудий, которыми пользовались обитатели карьера миллион лет назад.

Анализ теплового воздействия 26 кремниевых инструментов показал, что температура некоторых из них превышала 600°C (я загуглил, температура горения дерева от 500°C до 800°C), бивень вымершего слона также имел признаки нагрева.

Помимо того, что это самое ранее свидетельство использования огня людьми, так еще тепловые сигнатуры говорят о том, что древние люди могли экспериментировать с различными материалами, короче метод действенный и его собираются продвигать в массы.

На фото как раз те самые древние орудия.

Меня всегда впечатляют попытки науки заглянуть на тысячи лет в прошлое.

@Denis

1.6K views15:29

Открыть/Комментировать