Получи случайную криптовалюту за регистрацию!

эйай ньюз

Логотип телеграм канала @ai_newz — эйай ньюз
Адрес канала: @ai_newz
Категории: Технологии
Язык: Русский
Количество подписчиков: 45.95K
Описание канала:

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.
В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.
Aвтор: @asanakoy

Рейтинги и Отзывы

3.33

3 отзыва

Оценить канал ai_newz и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

1

4 звезд

1

3 звезд

0

2 звезд

0

1 звезд

1


Последние сообщения 8

2024-03-05 16:33:22
Stable Diffusion 3: статья с деталями

А вот и зарелизили папиру про SD3, о которой я уже хинтил ранее. Называется "Scaling Rectified Flow Transformers for High-Resolution Image Synthesis".

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

@ai_newz
13.8K views13:33
Открыть/Комментировать
2024-03-04 20:08:40
MAS: Multi-view Ancestral Sampling for 3D motion generation using 2D diffusion

Тут подвезли диффузию для генерации 3d motion любых персонажей (людей и животных), обучаясь только на 2D данных!

Качественных Mocap 3D данных движения людей и животных очень мало. Например, их почти нет для таких видов спорта как баскетбол или танцев, а уж тем более для животных. Причина тому — дороговизна и недобство сбора таких данных (нужно оборудование, нацеплять трекеры на тело и тд.). А генерировать 3D motion очень хочется - например для анимации, игр и VR.

В этой статье предлагается научить дифуузию генерить 2d траектории движения, а затем использовать эту сетку, чтобы генерить 2d проекции трехмерного моушена с разных камер. Чтобы проекции были консистентными предлагается дополнительной блок, который после каждого шага диффузии решает задачу оптимизации и находит ближайший 3D скелет, который лучше всего удовлетворяет всем проекциям, затем это решение опять проецируется на все камеры и кормится в следующий шаг дифуузии. В итоге на выходе имеет полноценный 3D моушен, хотя в тренировке модель никода не видела 3D!

Сайт проекта
Статья

@ai_newz
15.0K viewsedited  17:08
Открыть/Комментировать
2024-03-02 20:25:25 Кажется, всем уже стало очевидно, что для создания топовых моделей кроме тысяч видеокарт нужны и петабайты хороших данных. И компании, которые имеют много данных будут стараться монетизировать это.

И вот как раз прошла новость о том, что Reddit заключил сделку с Google - им продают права тренировать модели на всем контенте с Reddit. По слухам, это будет стоить Гуглу $60M в год. Reddit выходит на IPO в ближайшее время, и им очень хочется подкачать свой кеш флоу перед этим, чтобы увеличить оценку (говорят, что она будет ~$5 млрд).

Так что, если вы хоть когда-то постили на Reddit, то новая итерация Gemini сможет заговорить вашими словами. Кстати, наверное все видео и картинки с Редитта тоже закинут в топку для тренировки гугловских Generative AI моделей. Не понятно только, как они будут отфильтровывать вещи, на которые у самих юзеров реддита не было прав копировать и постить на форуме. И обидно, что за тексты, которые юзеры нагенерили на сайте, они не получат ни копейки.

П.С. я думаю, Реддит и так уже спарсили все, кому не лень, но теперь это будут делать и крупные игроки официально.

@ai_newz
13.5K viewsedited  17:25
Открыть/Комментировать
2024-02-29 18:10:03
Staff Research Scientist: Персональный апдейт

У меня ещё есть классная новость, которой я бы хотел с вами поделиться! В понедельник я запромоутился до E6, иными словами я теперь Staff Research Scientist в Meta GenAI.

Удалось это благодаря очень широкому импакту от проекта в Generative AI, который я сам предложил, вел и завершил в прошлом году. Проект пока не публичный, поэтому я не могу рассказать о нем детально.

До этого я был на терминальном уровне - Senior Research Scientist, на котором многие застревают навсегда. Требуются дополнительные усилия и персональные качества (я о них писал тут), чтобы выйти из этого лимба и стать Стаффом. Зато теперь у меня открылся новый ladder E6+, качать таланты в котором на порядок сложнее чем между Джуном и Синьором. Но в этом есть и челлендж и возможность дальнейшего развития!

Exciting stuff!

#карьера #мойпуть

@ai_newz
15.1K views15:10
Открыть/Комментировать
2024-02-29 14:17:27
Инженерные грейды в Big Tech (ч2)

Все инженеры глобально делятся на две категории: просто инженеры (E3-E5) и Стафф+ (E6+) инженеры. Тут под инженерами я также имею в виду и сайнтистов - их глобально не отделяют и грейды у них такие же.

Когда в компании говорят про "leadership" роли, то обычно подразумевают именно Стафф+. Количество E6+ инженеров и сайнтистов в компаниях всего примерно 10%-15% .

E6, Staff: С этого уровня начинается новая игра. Стафф обладает исключительным техническим мастерством, имплементирует самые сложные фичи, решает задачи, которые мало кто может решить. Кроме того от него ожидаются еще и серьезные коммуникативные и лидерские качества. Он сам предлагает новые проекты и лидит их, ставит цели своей команде и влияет на другие команды.

E7, Senior Staff: Тут ожидают все тоже самое, что и на E6, но с еще большим импактом и ценностью для организации. Синьор стафф драйвит идеи от появления до реализации, попутно правильно расставляя приоритеты, понимая стратегию и тренды на масштабе всей компании.

E8, Principal Engineer/RS: Ты признанный эксперт в одной или нескольких областях как внутри компании так и за ее пределами. Твои проекты и идеи имеют влияние на всю компанию, а также на людей из твоей сферы в индустрии. В случае с наукой — ты исключительный эксперт, статьи которого узнают на конференциях. Как пример — Kaiming He, автор ResNet, который был где-то на E8-E9, пока не ушел из Меты в MIT.

Сложность перехода на каждый следующий уровень после Синьора (E5) растет экспоненциально, и количество людей на каждом следующем уровне убывает тоже по экспоненте.

Начиная с E6 появляются архетипы инженеров, например "фиксер", "архитектор", "тех лид", "Coding Machine" и другие. Про это поговорим позже. Но если вам любопытно, то подробнее про E6+ можно почитать на staffeng.com, там собраны истории людей на E6+ из разных крупных компаний.

#bigtechlevels #карьера

@ai_newz
14.0K viewsedited  11:17
Открыть/Комментировать
2024-02-29 03:46:10
Инженерные грейды в Big Tech (ч1)

Меня часто спрашиваю про грейды в Big Tech компаниях. В MAANG и прочих Биг-Техах существует четка иерархия инженерных уровней, которая определяет ваш карьерный рост и компенсацию. Чем выше ваш грейд, тем больший масштаб импакта от вас ожидается, и тем шире должно быть ваше влияние на коллег вокруг, то есть требуется больше лидерских качеств.

В этом посте поговорим только про инженеров (SWE) и иcследователей (RS), которые, как правило, прокачиваются по одной и той же лестнице грейдов.

Система уровней в Meta и в Google считается христоматийной - она у них почти идентичная. Ее мы и рассмотрим.

E3, Junior: Начальный уровень - это джун, которого наняли без опыта после бакалавра или магистратуры. От джуна ожидается выполнять назначенные таски без большой помощи извне и не бояться задавать вопросы, если застрял. В Мете дают 2 года, чтобы запромоутиться с E3 до E4, иначе на выход.

E4, Middle: Средний уровень, на который хайрят после 1-5 лет опыта либо свежих выпускников с PhD. Мидл берет на себя отдельные фичи в проекте (много тасок) и выполняет их с минимальным руководством извне. На этом уровне ставят жесткие рамки в 3 года, чтобы стать E5.

E5, Senior: Это независимая боевая единица в компании, эксперт в своей сфере. Синьор владеет целыми фичами или системами и успешно завершает свои проекты. Это терминальный уровень в том смысле, что на этом уровне можно оставаться до пенсии. Промоушен на E6 никто обещать не может, так как прыжок с E5 на E6 на порядок сложнее чем с E4 на E5.

Про E6+ расскажу в следующем посте.


#bigtechlevels #карьера

@ai_newz
14.2K views00:46
Открыть/Комментировать
2024-02-22 18:30:26
Еще генераций от Stable Diffusion 3.

Интересна первая генерация по промпту: “Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat”.

Не понятно, на сколько долго это черипикали, но выглядит так, что модель неплохо понимает пространственную композицию объектов. Точно лучше чем SDXL.

@ai_newz
17.1K views15:30
Открыть/Комментировать
2024-02-22 18:12:25
Stable Diffusion 3 на подходе!

Stability.ai наконец публично анонсировали то, о чем я упоминал в этом посте.

Модель основана на DiT трансформере (статья от Meta AI), только теперь она text-conditioned, и там будет интересный трюк, как это сделали в архитектуре SD3.

- За счет этого модель умеет круто генерить текст.

- Будут несколько моделй от 800M параметров до 8B. Трансформер хорошо масштабируется.

- В основе лежит формуляция диффузии через Flow Matching (статья от Meta AI). То есть учатся именно на линейных траекториях между шумом и реальными картинками.

Статьи пока нет
Вэйтлист

@ai_newz
20.7K views15:12
Открыть/Комментировать
2024-02-21 00:36:54 А вот и обещанная двухчасовая лекция от Карпатого про все подробности токенизации в GPT, включая BPE и не только.

Го смотреть!

#ликбез
@ai_newz
14.1K viewsedited  21:36
Открыть/Комментировать
2024-02-19 19:54:19
Как ускорить диффузию ч2 - Samplers & Low-level optimizations

Продолжаем серию постов про основные методы для ускорения диффузионных моделей. [Ссылка на часть 1].

Optimized Sampling Efficiency by new samplers:
Есть подходы на основе численных методов, которые позволяют более эффективно решать дифференциальное уравнение, задающее траекторию обратной диффузии (это когда мы из шума движемся к картинке).
STSP: Sampling with splitting numerical methods
В эту категорию тоже можно отнести всякие замысловатые солверы, такие как DDIM, DPM, PNDM, PLMS, UniPC [пост].
Итеративный метод Пикарда, который позволяет распараллелить семплинг, ценой больших вычислений [пост].

Low-level optimizations:
Профайлером анализируем узкие места в сети и переписываем отдельные операции на CUDA и вручную оптимизируем и фьюзим кернелы. Тут общие советы трудно давать, все зависит от вашей архитектуры.
FlashAttention-2 - ускоряет flash-attention блоки, которые являются одними из самых прожорливых по ресурсам в архитектуре Unet, широко используемой в диффузиях.

#ликбез
@ai_newz
13.5K views16:54
Открыть/Комментировать