Сиолошная

Адрес канала:

Категории: Технологии

Язык: Русский

Количество подписчиков: 43.36K

Описание канала:

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.
Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://t.me/ i_XzLucdtRJlYWUy

▲ Vote (1)

Рейтинги и Отзывы

1.50

2 отзыва

Оценить канал seeallochnaya и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

4 звезд

3 звезд

2 звезд

1 звезд

Последние сообщения 7

2023-06-14 00:58:39

6 лет назад, 12го июня (ну да, опоздал чуток ) 2017го года, вышла статья "Attention is All You Need", представившая архитектуру трансформера

Про авторов статьи, про то, что с ними стало, я недавно писал на канале - все успешные люди, все красавцы

Немного информации и фактов:
— В Трансформере не изобрели механизм внимания (Attention), а просто использовали существующий принцип на пределах возможного. Первая статья про Attention была опубликована за 3 года до этого (2014 г.) и имела непритязательное название: «Neural Machine Translation by Jointly Learning to Align and Translate» из лаборатории Yoshua Bengio (тоже очень известного чувака в мире глубокого обучения). Многие из вас, вероятно, не слышали о ней, но это одна из цитируемых статей в NLP, не в последнюю очередь благодаря Трансформеру: сейчас там 29 тысяч цитат (по сравнению с 77 тысячами у "Attention is All You Need").
— Ни в Трансформере, ни в оригинальной статье про Attention не говорилось об использовании модели как универсального компьютера для обработки произвольных последовательностей. Вместо этого оба решения были задуманы как инструменты для одной узкой и конкретной проблемы: машинный перевода. Предстьавте, что Google Translate - это дедушка AGI
— Transformer был опубликован на NeurIPS 2017 - одной из ведущих мировых конференций по искусственному интеллекту. При этом для статьи не было устной презентации, и даже наград за проделанный труд (обычно отмечают особые работы). А в 2022м году на NeurIPS было выбрано 3 лучших доклада, у которых вместе сейчас всего 529 цитирований.

Напоминаю, что лекцию по трансформерам (техническую) от меня можно глянуть вот тут.

На гифке: принцип работы механизма внимания (Attention), который позволяет при обработке каждого слова учиытвать все другие слова с некоторыми "весами" (которые модель выучивает сама - ничего из этого не нужно задавать руками). То есть когда мы пишем первое слово перевода — мы обращаем внимание на каждый "кружочек" (представление) других слов.

7.5K views21:58

Открыть/Комментировать

2023-06-13 20:48:06

Новая функция вызова в Chat Completions API
Обновленные и более управляемые версии gpt-4 и gpt-3.5-turbo
Новая версия gpt-3.5-turbo с 16k контекстом (вместо стандартного 4k)
Снижение стоимости нашей самой передовой модели embeddings на 75%
Снижение стоимости входных токенов для gpt-3.5-turbo на 25%
Убраны из использования модели gpt-3.5-turbo-0301 и gpt-4-0314

обещают закрыть список ожидания на API GpT4, выдав модель всем!

про функцию новую сделаю отдельный пост

почитать больше тут

@aihappens

7.2K views17:48

Открыть/Комментировать

2023-06-11 22:20:45

МЭМЫ с генеративными сетками

Спасибо продвинутому автозаполнению за проделанную работу!

Источник

UPD: в комменты еще пару веселых скинули)

5.2K viewsedited 19:20

Открыть/Комментировать

2023-06-11 10:02:45

Промпт-инженера с опытом 5 лет искали? Нет? А теперь можно!

Ровно 5 лет назад вышла статья "Improving Language Understanding by Generative Pre-Training" от OpenAI, в народе известная как GPT-1. Или, насколько я знаю, модели так начали называть позже (со второго поколения).

И именно в этой статье для одной из задач был применен трюк с промптами — первый на моей памяти. Есть такой датасет, SST-2, который состоит из положительных и отрицательных отзывов на фильмы, и нужно предсказать positive или negative, то есть сентимент отзыва.

Как сейчас ясно на примере ChatGPT, можно просто написать "вот отзыв: <отзыв>. Он положительный или отрицательный?". То же делали и с GPT-1, только 1) не было первой части "вот отзыв" 2) в конец дописывали слово "very".

То есть модель должна была дописать positive или negative. Вот такой простой прием позволил улучшить качество классификации сентимента без всякой тренировки. Именно из семечка этой идеи в будущем и вырастет направление Instruct-моделей и промпт-инженеринга.

Из смешного: модель тренировали на 8 видеокарточках на 5 гигабайтах текста в течение месяца. Сейчас такой объем студент на одной игровой видеокарте за выходные прокрутит...

#перечитываяклассику блогпост со статьей: тут

7.4K views07:02

Открыть/Комментировать

2023-06-11 00:56:03 (настоящая причина почему получился нетехнический вечер — потому что у меня открыто 30 вкладок про новости AI, и я не могу выбрать, про что писать )

7.6K viewsedited 21:56

Открыть/Комментировать

2023-06-11 00:54:42

И продолжая нетехнический вечер, давайте поговорим про кино.

Мой любимый жанр (если это является жанром?) — это камерное кино. Если верить интернету, "камерными мы называем те фильмы, в которых всё действие (или почти всё) происходит в замкнутом пространстве с ограниченным количеством персонажей". Такие фильмы часто строятся на диалогах, психологии и (иногда) играх со временем.

Самый любимый представитель жанра — это Phone Booth ("Телефонная Будка") с Колином Фарреллом. Фильм аж 2002-го года! Крайне рекомендую, раз 20 пересмотрел.
Из недавнего мне понравился Bullet Train, а вот Free Fire (он 2016го, но посмотрел буквально 2 месяца назад) не зашёл — персонажей будто недокрутили, хотя актёрский состав весьма солидный.
Ещё в юношестве я смотрел "О чём говорят мужчины" (лол, навероное тоже камерный? в некотором смысле), а моё знакомство с Тарантино началось с The Hateful Eight, за которым последовал Reservoir Dogs.

А дальше у меня в списке на посмотреть The Sunset Limited.

В комментарии кидайте свои рекомендации и предложения, что посмотреть и почему!

7.6K views21:54

Открыть/Комментировать

2023-06-09 23:58:37

Посмотрите на приложенный скришот. Бред, не так ли? Почему суперультрамегамощная GPT-4 не может решить очень простую задачу — даже просто повторить строку на входе!

Все дело в том, как GPT "видит" текст. Для каждой модели существует "словарь", состоящий из токенов. Этот словарь определяется один раз перед тренировкой модели, фиксируется и не меняется. Модель, в свою очередь, для каждого токена в словаре выучивает вектор, указывающий на некоторую точку в "пространстве смыслов". Разные точки означают разные смыслы, и именно так модель и понимает, что вы ей пишете (больше про это в подкасте тут).

Для того, чтобы "выучить" вектор, модели нужно встретить токен, ему соответствующий, в тексте во время тренировки. Понятно, что какие-то слова встречаются чаще, какие-то реже, и некоторые вектора остаются недообученными, то есть не в полной степени отражают смысл, который должен быть.

Сам словарь перед тренировкой формируют следующим образом: берут все тексты, что есть, и ищут в них самые частовстречающиеся буквосочетания. Многие из них являются целыми словами (что логично), однако очень сложно понять, в какой момент осмысленные частицы и слова кончаются, и в словарь начинает попадать какая-то муть. Так произошло и здесь - в словарь попал токен " davidjl", что — вы не поверите — является частью ника одного пользователя Reddit. Да не случайного, а самого активного в сабреддите r/counting, где люди...просто пишут числа по порядку (да, 1,2,3,...и так 150 тысяч раз ). Видимо, страницы спарсили при подготовке данных, и вот таким вот образом человек себя "увековечил" в модели. А та, в свою очередь, не выучила для его ника вектора — поэтому путается, и не может "прочитать" его, чтобы написать осмысленный ответ.

И это не единичный случай - вот тут можно более подробно прочитать про способ нахождения аномальных токенов, и посмотреть на десятки примеров.

8.4K viewsedited 20:58

Открыть/Комментировать

2023-06-09 23:35:16

Фух, спасибо, что эти ваши GPT при тренировке выучиваются быть Helpful Ассистентами! Реально выручил!

(ситуация конечно кек)

Источник: тут (мне приятель скинул)

8.6K viewsedited 20:35

Открыть/Комментировать

2023-06-09 23:29:13

На неделе компания Magic.dev анонсировала модель LTM-1 (Long-Term Memory network): большую языковую модель с поддержкой контекста в 5'000'000 токенов

Нет, это не ошибка, пять миллионов. У GPT-4 есть версия на 32'000 токенов, конкурент OpenAI предлагает модель Claude с поддержкой окна контекста 100'000 - в 50 раз меньше, чем LTM-1. Сценарий использования у модели — это написание кода и помощь разработчикам.

Вот тут и тут можно посмотреть примеры юзкейсов. Однако меня это не сильно впечатлило — с помощью правильного промпта и эвристик в целом получалось то же самое (см. промпт GitHub Copilot тут).

Проект интересен по другой причине. AI Software Engineer, как это называет компания Magic.dev, впечатляет, но по настоящему такой длинный контекст раскроется в других областях. Подумайте, что будет дальше:
— Целые проекты в промптах (большие наборы функций на все случаи жизни)
— Инструкции для модели длинной в книгу, с описанием всех тонкостей
— Подстановка K примеров выполнения схожей задачи, где K равно не 10-30, как сейчас, а 10'000
— При этом каждый пример может быть по 30 страниц - это тоже влезет в промпт!

Те, кто заявлял о неминуемой смерти промпт-инженеринга до того, как появились модели с длинным контекстом, скорее всего просто обладали слабым воображением! Мы по сути еще и не начали писать (и генерировать!) промпты на полную.

И немного о компании: открылись в 2022м году, подняли раунд $23M (в том числе от соавтора GitHub Copilot, лол), нанимают инженеров, в том числе низкоуровневы - потому что нужно делать очень специфичные решения для масштабирования. К слову, LTM-1 хоть и видит больше контекста, чем GPT, но имеет меньше параметров, чем современные топовые модели, что делает её менее способной. А зная, насколько сильно масштабирование модели улучшает производительность GPT, можно помечтать о том, во что превратится и этот монстр!

Пока доступ к модели только по спискам, встать в очередь можно тут: https://magic.dev/waitlist

8.2K viewsedited 20:29

Открыть/Комментировать

2023-06-08 01:38:15

Вчера вышла Diablo IV — продолжение культовой серии, возвращающее нас в Санктуарий (название вымышленного мира) спустя более чем 10 лет после "тройки". У критиков игра получила хорошие оценки (88-93 балла на Metacritic, в зависимости от платформы), а от…

9.7K viewsedited 22:38

Открыть/Комментировать