Получи случайную криптовалюту за регистрацию!

В платной версии ChatGPT появилась мультимодальная модель GPT- | Digital Ниндзя

В платной версии ChatGPT появилась мультимодальная модель GPT-4V(ision). Она может понимать изображение и писать ответ на присоединённый к изображению промпт. Сходу тяжело найти какое-то применение этой фичи в бизнесе. Можно сканировать документы и доставать оттуда данные, переводить тексты с одного языка на другой — но такие продукты уже есть.

И мне попало на глаза исследование с >100 реальными случаями применения этой модели. Оно увлекательное, я провёл с этим пейпером пару вечеров. Вот, что меня удивило. Эта модель:

1. Находит дефекты в изделяих и продуктах на картинке. От болтов до орехов.

2. Может определять, куда кликнуть в интерфейсе или что вводить в поля форм. Тут сотни сценариев использования зарыто: от онлайн покупок до помощи в реальной работе.

3. Оценивает ущерб при авариях. Модель работает тем точней, чем больше данных по стоимости запчастей и работ ей дадут.

4. Пишет код по картинке flow chart’а. Эта схема из блоков, которые программисты частенько рисуют себе, чтобы спланировать написание того или иного фукнционала.

5. Работает с последовательностями снимков. Например, ей можно скормить покадрово видео, и она может объяснить, что происходит на нём.

6. Помогает соблюдать технику безопасности. Модель не просто может определить, надеты ли каски на строителях, но и какие-то более хитрые сюжеты, типа определения, находится ли кто-то в небезопасной зоне, суёт руки в станок или что-то подобное.

7. Детектит, что находится в корзине у покупателя. Если вгрузить в неё цены на продукты, она посчитает их стоимость.

8. Может быть «глазами» для разных роботов. Она может ориентироваться в пространстве и помогать роботу выполнять задачи: типа метнуться до холодильника за пивком для кожаного мешка.

Даже успел сам воспользоваться. Помогал делать домашнее задание по биологии ребёнку: нужно было определить по фотографии саженца в банке с водой, что с ним будет через несколько дней. Модель выдала ответ, и рассказала, что надо делать с растением, чтобы оно не погибло.

Я давно не ловил wow-эффект от технологий, но кажется, что у этой функциональности огромный потенциал. С помощью такого «зрения», будет дизраптиться ни одна отрасль.

Deep talk шоу «Антоха и Саня» | Instagram | YouTube