2022-06-26 11:56:18
Безопасность AI - base level МотивацияВ последнее время много думаю над безопасностью AI, много обсуждаем с друзьями, с @caffeinum созвоны на 15 минут растягиваются на часы. Вот знаете, есть такие вещи, которые будоражат что-то очень глубоко внутри. Думаю не только я, Илон Маск серьезно обеспокоен темпами развития AI, Виталик Бутерин донатит исследователям безопасности AI, на которые я буду ссылаться ниже. Сфера развивается безумными темапми, например в мае Google выпустил GATO - сетку, которая решает одновременно 600 разных задач - шахматы, разметка изображений, игры атари и тд. Решает их одной моделью для всех задач. И 450 задач лучше медианного эксперта В середине июня один инженер гугла после того, как попереписывался с сеткой про буддизм, сказал что у внутренней NLP модели появился разум и потреебовал начать этическое расследование. Можете здесь почитать разговор, это что-то с чем-то. Понятно, что пока можно выражать скепсис на тему сильных моделей, но область правда быстро развивается. Такой генерации иллюстраций, как делает DALLE-2 сейчас, еще 3 года назад было невозможно вообразить.
В связи с этим начала задавать себе вопрос - как бы мог выглядеть сильный AI? Когда он может родится? Ниже привела базовый уровень рассуждений про безопасность АИ.
Paperclip maximizerРассмотрим класический игрушечный пример AI из 2003. Paperclip maximizer, как пример сильного AI, которые не настроен враждебно, но приводит к апокалипсису. Допустим, есть сетка, которая оптимизирует количество скрепок на заводе. В какой-то момент происходит фазовый переход - он называется instrumental convergence, сетка начнет оптимизировать себя и свое окружение, чтобы лучше максимизировать число производимых скрепок. Она начинает заботится о своей безопасности, делать так, чтобы ее было сложно отключить, начинает оптимизировать свою архитектуру, ставить свое обучение на новые машины, захватывая ресурсы. Все это может привести к тому, что все компы мира считают скрепки, все сервисы перестают работать. Это может произойти за минуту. Забавен в этом тот факт, что сильный ИИ рождается на внешне простой задаче. Пока учится делать эту безумно примитивную задачу безумно хорошо.
Причем тут aligment и безопасность
AIДальше, если верить в то, что instrumental convergence возможен — кажется есть 2 варианта. В первом нужно не допустить, чтобы AI развивалась настолько, чтобы произошел instrumental convergence. То есть ограничивать размеры сетки, количество доменов, на которых она может одновременно тренироваться. Но кажется через запреты много не достигнешь - всегда кто-то может обойти. Еще один вариант - нужно чтобы цель ИИ совпадала с оптимизацией человеческой цели. Дальше возникакет 2 класса вопросов - первый, как учесть счастье человека, и более того, человечества. Во-первых, счастье одних противоречит счастью других, во вторых всегда есть читы. Например можно оптимизировать число улыбающихся лиц, распечатав много лиц на бумаге. Вторая тема - допустим, мы знаем эту функцию счастья человечества, как сделать так, чтобы у любой сетки всегда была добавлена оптимизация этой функции счастья. Вот тут уже начинается формализованная красивая инженерия, все как мы любим. Почитать можно тут.
Что в итогеУверена, что в случае, если AI возникнет, задача про безопасность AI - это буквально последняя задача, которую мы можем и должны решить. Если эту задачу решить, то будем жить в мире, где нам приезжает еда каждый день, делается массаж, зелено и красиво. Конечно счастье одних может пересекаться со свободой других, поэтому возможно это будет симуляция, для каждого своя, в которой каждый из нас счастлив (где он может думать про безопасность AI или думать, что он вышел из симуляции хах).
Или это все может закончиться, потому что ИИ решил сделать много скрепок.
Короче - здорово думать про безопасность ИИ, и что-то делать. Потому что, на самом деле, нет ни метрики, ни стратегии, ни роадмапа.
Плюс это безумно интересно. Безопасность ИИ можно назвать моим текущим хобби.
Люди, который тоже любят lesswrong, Redwood Research Project и MIRI - найдитесь.
3.2K viewsedited 08:56