эйай ньюз

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 45.95K

Описание канала:

Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.
В свободное время работаю как Staff Research Scientist в Meta Generative AI в Швейцарии.
Aвтор: @asanakoy

▲ Vote (1)

Рейтинги и Отзывы

3.33

3 отзыва

Оценить канал ai_newz и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 6

2024-03-28 21:04:00

Jamba - вроде Mamba, вроде MoE, вроде трансформер, и в то же время ничто из этого

Заявляют, что по бенчам на уровне Mixtral 8x7b, параметров в целом чуть больше (52B vs 46.7B у Mixtral), но активируется чуть меньше (12B vs 12.9B у Mixtral). Говорят что поддерживается контекст вплоть до 256к, но относиться к этому стоит скептически. В целом не заслуживало бы внимания, если бы не архитектура.

А вот архитектурно это ОЧЕНЬ странная модель – мешают сразу три типа слоёв (см. вторую каритнку). В каждом блоке в 8 слоёв 4 MoE, 3 Mamba и 1 классический трансформерный. То есть на бумаге там 16 экспертов, из них активных 2, но тем не менее половина активируемых параметров при работе модели – dense.

Зачем так сделали – непонятно, но вроде работает. Главное преимущество по сравнению перед Mixtral - поддержка очень длинного контекста - 140к на одной A100, против 64k у Mixtral, причём на длинных контекстах Jamba вплоть до 3 раз быстрее. Главная проблема таких заявлений – непонятно как эта модель ведёт с такими огромными контекстами. Результатов для Needle In a Haystack бенчмарка нет.

В целом ничего не понятно, но очень интересно.

Веса
Блогпост

@ai_newz

13.4K views18:04

Открыть/Комментировать

2024-03-27 17:06:29

DBRX - новый лидер открытых моделек от Databricks

Обгоняет все открытые модельки на большинстве бенчмарков, в том числе опубликованный неделю назад Grok (который в два раза больше). Лицензия похожая на лицензию ламы - все кто меньше телеграма могут спокойно использовать в своих коммерческих продуктах.

Архитектурно это Mixture of Experts (16 экспертов, из них 4 активных), 132 миллиарда параметров (из них 36 миллиардов - активные), тренировали пару месяцев на 3 тысячах H100 и 12 триллионах токенов, длина контекста - 32к, Модель тренировали в fp8, что дало 1.4x-1.5x прирост по сравнению с bf16. В целом она тренируется при том же компьюте в 4 раза эффективнее чем их же прошлогодняя MPT - 2x прироста идёт от MoE, 2x от датасета получше.

В минимальных требованиях - 320 гигабайт видеопамяти, что недоступно для простых смертных.

Демка
Instruct модель (доступ дают сразу после подписания лицензии)
Базовая модель (доступ одобряют отдельно)
Код
Блогпост с анонсом модели
Блогпост с деталями тренировки

@ai_newz

17.0K viewsedited 14:06

Открыть/Комментировать

2024-03-26 16:03:43

RadSplat - качество рендеринга как NeRF, но в 900FPS!

Переносить реальные пространства в VR в высоком разрешении - это то к чему многие ресерчеры стремятся. Но для реального применения, тут важно уметь быстро рендерить реалистичную картинку отсканированных объектов.

Концептуально в новом методе RadSplat всё очень просто: сначала тренируем нерф и запекаем его в гауссовый сплат. Потом, сравнивая с нерфом, определяем важность каждого элемента сплата и обрезаем ненужные. От такого прунинга качество, внезапно, даже растёт.

Для ускорения на больших сценах предлагают разбить сцену на несколько кластеров, определить что из каждого кластера видно и рендерить только это. В чём-то это похоже на VastGaussian, о котором я рассказывал пару недель назад.

В целом оно быстрее обычных нерфов вплоть до 3 тысяч раз(!), что по скорости примерно на уровне метода Re-ReND от нашей команды, где мы запекали нерф в light-field на меши, что позволяло рендерить со скоростью до 1000FPS на GPU и 74 FPS на шлеме Quest Pro.

Сайт проекта

@ai_newz

14.2K viewsedited 13:03

Открыть/Комментировать

2024-03-25 18:43:53 Увидел в Threads анекдот: Bloomberg потратил ~$10 миллионов (в AWS SageMaker) на тренировку BloombergGPT (50B параметров на 700B токенов), специально для финансовых задач. Иииии.... модель всухую проиграла на этих же финансовых тасках GPT-4, которая вышла за две недели до этого.

И тут всё было бы очевидно: "нужно сдаваться GPT-4". Если бы не одна маленькая деталь — GPT-4 в свою очередь либо проигрывала либо еле-еле перегоняла (используя Chain of Thoughts) специализированные файнтюны таких динозавров как BERT (2018, 110 лямов параметров) и RoBERTa Large (2019, ~700 млн параметров).

Мораль басни такова: если вы не лидер AI гонки, то не соревнуйтесь с OpenAI в общих задачах, это дорого и трудно. Но если есть прямые руки и конкретный таск — перегнать даже SOTA general purpose модель вполне возможно. А, и ещё: тренировать в AWS безумно дорого

@ai_newz

14.1K views15:43

Открыть/Комментировать

2024-03-23 14:02:38 Кажется, Stability.ai себя не очень хорошо чувствует как компания (нестабильно).

Сегодня Эмад ушел с поста CEO и из совета директоров, а ранее на этой неделе уволились ключевые авторы Stable Diffusion. Думаю, парни просто организуют что-то новое, а Стабилити как компания скоро может перестать существовать.

@ai_newz

14.7K viewsedited 11:02

Открыть/Комментировать

2024-03-22 18:39:06

Вдогонку, еще результаты SD3-Turbo:

Как улучшаетcя качество SD3-Turbo после применения DPO-LoRa.

==

Как фейлится модель на сложных промптах.

==

Сравнение 4-х шаговой SD3-Turbo с другими моделями, включая DALLE-3, MJ6 и Ideogram-1.0. Тут, конечно, есть сомнения, так как использовалась очень мелкая выборка промптов из PartiPrompts.

@ai_newz

12.9K views15:39

Открыть/Комментировать

2024-03-22 18:21:50

SD3-Turbo: Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

Вслед за Stable Diffusion 3 мои друзья опуликовали препринт о дистилляции SD3 в 4-шага, сохраняя качество.

Новый метод - Latent Adversarial Diffusion Distillation (LADD), который похож на ADD (был пост про него), но с рядом отличий:

И учитель и студент тут на архитектуре SD3 на базе трансформеров. Самая большая и самая лучшая модель - 8B параметров.

Вместо DINOv2 дискриминатора, работающего на RGB пикселях, в этой статье предлагают всеже вернуться к дискриминатору в latent space, чтобы работало быстрее и жрало меньше памяти.

В качестве дискриминатора берут копию учителя (то есть дискриминатор тренировался не дискриминативно, как в случае DINO, а генеративно). После каждого attention блока добавляют голову дискриминатора с 2D conv слоями, классифицирующую real/fake. Таким образом дискриминатор смотрит не только на финалный результат, но и на все промежуточные фичи, что усиливает тренировочный сигнал.

Тренят на картинках с разным aspect ratio, а не только на квадратах 1:1.

Убрали L2 reconstruction loss между выходами Учителя и Студента. Говорят, что тупо дискриминатора достаточно, если умно выбрать распределение семплирования шагов t.

Во время трейна более часто сеплируют t с большим шумом, чтобы студент лучше учился генерить глобальную структуру объектов.

Дистиллируют на синтетических данных, которые сгенерил учитель, а не на фото из датасета, как это было в ADD.

Еще из прикольного показали, что DPO-LoRA тюнинг хорошо так добрасывает в качество генераций студента.

Итого, получаем SD3-Turbo модель, которая за 4 шага выдает красивые картинки. Судя по небольшому Human Eval, который авторы провели всего на 128 промптах, по image quality студент сравним с учителем. А вот prompt alignment у студента хромает, что в целом ожидаемо.

Ещё показали, что SD3-Turbo лучше чем Midjourney 6 и по качеству и по prompt alignment, что удивляет . Ждем веса, чтобы провести reality check!

Статья

@ai_newz

12.6K views15:21

Открыть/Комментировать

2024-03-21 17:18:19 Она, правда, много откуда недоступна (во всей Европе не работает). Из Грузии, Казахстана и США должно работать.

Нужно менять регион в настройках гугл аккаунта.

Так что расчехляем випиэны.

@ai_newz

13.6K viewsedited 14:18

Открыть/Комментировать

2024-03-21 16:09:27 По слухам Chat GPT-5 зарелизят в ближайшие месяцы (mid-year)

Уважения к Business Insider за их бесконечные сливы у меня особенно нет, но довольно часто их слухи оказываются правдой. На этот раз они сообщают, что Open ai уже разослала демку долгожданной 5-ой версии некоторым партнёрам для тестов. К сожалению (или к счастью), о agi пока речи не идёт, но говорят что эта модель "значительно лучше".

Так же источник намекнул на возможность новой модели взаимодействовать с агентами внутри экосистемы open ai для выполнения сложных задач и автоматизации. Хорошая фича для корпоративных клиентов. И это похоже на правду, учитывая, что плагины удалили. За время беты ими мало кто пользовался и их накопилось чуть больше 1000.

Модель все еще тренируется, поэтому, конечно, ещё рано судить о том будет это революшен или минорный апдейт. Кто-то говорил, что нас ждет скачок сопоставимый с выходом 4й версии, а теперь говорят, что модель просто "значительно лучше". Как-то не слишком воодушевляет. Да и Sama вдруг заговорил о том, что они хотят двигаться "маленькими шажками".

Ещё, судя по презентации Nvidia, текущая GPT-4 возможно имеет около 1.8Т параметров, и новое железо от Nvidia позволит задеплоить GPT модели размером до 27Т параметров. Поэтому разумно предполагаю, что GPT-5 будет в диапазоне от 2T до 27Т.

@ai_newz

13.0K viewsedited 13:09

Открыть/Комментировать

2024-03-20 00:02:16

Чел в кожаной куртке : “ChatGPT момент для роботов может быть уже за углом”

На вчерашнем ивенте Дженcен Хуанг, CEO Nvidia, представил новые GPU, а также анонсировал GR00T - Generalist Robot 00 Technology.

GR00T (отсылка к Марвелу) позиционируется как foundation модель для будущих роботов, от простых манипуляторов до робо-гуманоидов. Моделька способна обрабатывать мультимодальные данные, такие как видео, текст и другие сенсоры, выдавая действия робота в ответ на различные ситуации. В придачу с ним можно разговаривать и голосом – LLM-ка все осилит. Кроме того, GR00T может обучаться эмулировать действия, наблюдая за человеком.

Однако данных для тренировки таких роботов не наберешься, как я уже говорил, например здесь. Поэтому Nvidia представила обновленный Isaac Lab – среду для обучения роботов c помощью RL в симуляции, максимально приближенной к реальному миру.

Так например натренировали Isaac Manipulator – это умная роборука. Эта штука может выполнять простые задания получая на вход текстовые указания и на лету адаптироваться к изменяющимся условиям, находя новое решение для задачи. Скоро на заводах тоже пройдут лэйофы, ведь люди больше не будут нужны : )

А гоняется моделька GR00T на мобильном GPU-чипе Jetson Thor (800 TFlops в FP8), специально разработанном для управления роботом с минимальной задержкой.

Похоже, Nvidia хорошо так притопила в разработке роботов. В ближайший год стоит ждать больше и больше новостей про умных гуманоидов.

@ai_newz

29.4K viewsedited 21:02

Открыть/Комментировать