Получи случайную криптовалюту за регистрацию!

​​Два типа неопределенности и один нейромедиатор. Вот чего не | Малоизвестное интересное

​​Два типа неопределенности и один нейромедиатор.
Вот чего не хватало ИИ, чтобы испытывать любопытство.

Абсолютное превосходство алгоритмов над людьми в интеллектуальных играх уже доказано (шахматы, Го, консольные игры …).
Но чтобы использовать колоссальный потенциал алгоритмов за пределами игр (в реальной жизни), алгоритмам, в первую очередь, не хватает исключительно важного свойства живых агентов – любопытства. Именно его исследователи ИИ пытаются моделировать и вкладывать в ИИ уже более 10 лет.

Два года назад компания OpenAI довольно убедительно продемонстрировала преимущества «любопытного ИИ», показавшего супер-класс в Atari-игре «Месть Монтесумы». Эта далеко не самая сложная на свете игра была крайне неудобна для ИИ из-за её сходства с нашей жизнью – в ней отсутствует вознаграждение за каждый сделанный ход.

• Дело в том, что обучающийся ИИ, обычно, требует т.н. «подкрепления» - вознаграждения за каждый правильный ход.
• А в жизни людей всё не так. Сначала нужно сделать десятки или сотни действий («ходов»), и лишь затем (возможно) приходит вознаграждение.

Источником мотивации в поисках нового и неизведанного у людей служит лишь любопытство. Вот почему наличие у ИИ любопытства просто необходимо для решения не игровых, а жизненных задач.

На примере игры «Месть Монтесумы», это удалось сделать OpenAI. Но они натолкнулись на неразрешимые ситуации, названные «Проблема ТВ-помех». Они возникают, когда ИИ запрограммирован на поиск нового опыта, но зацикливается на случайных паттернах, подобно телевизору, поймавшему при настройке статический шум и запоминающего его как ТВ-канал. Причина в том, что «любопытный ИИ» ищет «интересное» и «новое» с помощью прогнозирования будущего и оценки «ошибок предсказаний». Прежде чем сделать ход, ИИ прогнозируют, как после него изменится игра. Если предсказание верное, ИИ может решить, что столкнулся с уже известной частью игры.

А поскольку статический шум непредсказуем, «любопытный ИИ» при столкновении с «ТВ-помехами» (или иным непрогнозируемым стимулом), как бы превращается в бандерлога, загипнотизированного игрой с шумом помех. ИИ просто зависает на «ТВ-помехах», подобно азартным игрокам, что не в силах оторваться от игровых автоматов, будучи «загипнотизированы» непредсказуемостью результатов. Как это выглядит, показано на гифке.

Опубликованный позавчера препринт англо-американской работы предлагает решение «Проблемы ТВ-помех» крайне любопытным и очень перспективным способом - моделированием вознаграждения ИИ за его любопытство на манер холинергического метода управления возбуждением синапсов мозга посредством нейромедиатора ацетилхолина.

Фишка вот в чем.
Существуют 2 типа неопределенности: эпистемическая и алеаторная.
Эпистемическая неопределенность измеряет ненадежность предсказаний модели, которая может быть минимизирована с помощью дополнительного опыта. Если использовать эпистемическую неопределенность в качестве внутренних вознаграждений, то агент будет искать новизну - динамику, с которой он ранее не сталкивался.
С другой стороны, ошибки предсказания из-за алеаторной неопределенностей неизбежны. Они, по определению, являются результатом непредсказуемой динамики. Ошибки прогнозирования из-за непредсказуемой динамики обездвиживают агентов, движимых любопытством. Что и происходит в «Проблеме ТВ-помех».

Развивая модель Парра-Фристона, авторы предположили, что уровень ацетилхолина растет с ростом ожидаемой алеаторной неопределенности, а уровень норадреналина увеличивается, когда животные сталкиваются с эпистемической неопределенностью (ожидаемой и неожиданной).

Уменьшая вознаграждения в ситуациях алеаторной неопределенности, авторы работы на практике научили ИИ эффективно обходить стохастические ловушки класса «Проблем ТВ-помех».

ИТОГО:
- мы стали ближе к «любопытному ИИ»;
- держитесь подальше от алеаторной неопределенности


#ИИ