2023-03-03 09:00:34
Microsoft представила модель искусственного интеллекта, которая понимает содержание изображений и решает визуальные головоломки
Microsoft представила Kosmos-1, мультимодальную модель, которая может анализировать изображения, решать визуальные головоломки, выполнять визуальное распознавание текста, проходить визуальные тесты IQ и понимать инструкции на естественном языке.
Исследователи полагают, что мультимодальный ИИ, который объединяет различные режимы ввода, такие как текст, аудио, изображения и видео, имеет решающее значение для создания искусственного общего интеллекта, который может выполнять общие задачи на уровне человека. Они пишут, что "мультимодальное восприятие" необходимо с точки зрения приобретения знаний и привязки к реальному миру. Kosmos-1 - это модель, которая может принимать ввод изображения путем предварительного перевода изображения в специальную серию токенов.
Подробнее
#arstechnica
22 views06:00