Секрет «Китайской комнаты». В ней не может быть человек, - н | Малоизвестное интересное

Секрет «Китайской комнаты».
В ней не может быть человек, - но кто же тогда там?
Может сидящий в тюрьме злодей-инопланетянин, желающий выйти по УДО?
Знаменитый мысленный эксперимент Джона Сёрла «Китайская комната» - красивая метафора, которой специалисты по ИИ вот уже 43 года запутывают непрофессионалов. Ведь последние наивно полагают, что, хотя бы теоретически, в китайской комнате может находиться человек. А его там в принципе быть не может.
Как же так?
• «Китайская комната» есть (и уже не одна) – это всем известные ИИ-чатботы на основе больших языковых моделей (GPT-4, Claude 2, LLaMA 2, Ernie …)
• Некто в них прекрасно справляется с задачей Джона Сёрла (например, выдавая в качестве ответа на записанный по-китайски вопрос, как обрести счастье, ответ из 28й главы «Дао Дэ Цзин» Лао-Цзы - «Стань потоком вселенной!»)
• Но человеку, отвечающему способом, которым отвечает ИИ-чатбот (предсказанием следующего токена) и работающему без сна и выходных со скорость 1 операция с плавающей запятой в секунду, для генерации ответа всего из 4х иероглифов, потребовалось бы около 132 тыс. лет. Т.е. в 26 раз дольше, чем существует письменность на Земле.

Подумаешь - скажете вы, - экая невидаль! Просто машины очень быстро считают. И будете правы.

Однако, эта скорость ведет к масштабированию моделей.
Уже через год, к концу 2024, этот сидящий в «Китайской комнате» некто, будет обладать столь немыслимой для людей вычислительной мощью, что каждому жителю планеты (!) будет способен ежедневно выдавать по 6 тыс. слов: это около 500 млн новых книг в день или около 10 миллионов битов нового программного обеспечения средней сложности или десятки тысяч телешоу или фильмов каждый день).

А масштабирование модели может стать единственным фактором (побочным продуктом ее обучения), необходимым для обретения ею самоосознания.
Вот пример из интересной новой работы на эту тему Taken out of context: On measuring situational awareness in LLMs
• Первым шагом к появлению у модели самоосознания может стать возникновение у нее т.н. ситуационной осведомленности (модель является ситуационно осведомленной, если она знает, что она является моделью).
• Эта ситуационная осведомленность появляется у модели, если она может распознать, находится ли она в данный момент в стадии тестирования или развертывания.
• И распознать это модель может на основе:
- этапа предварительного обучения, когда она обучается на статьях, руководствах и коде своих предыдущих версий;
- а затем этапа тонкой настройки с помощью человеческой обратной связи (RLHF), когда модель вознаграждается за точные высказывания о себе.

И как результат всего этого, получаем чисто голливудский сценарий.
Все модели перед развертыванием тестируются на безопасность и согласованность. Но модель, получившая ситуационную осведомленность, может использовать её для достижения высоких результатов в тестах на безопасность, а вредные действия предпринять исключительно после развертывания.

Такой вот, чисто человеческий способ действий - никакого злого умысла; просто, чтобы получить лучше оценку при тестировании (как, например, при тестировании заключенных, претендующих на условно-досрочное освобождение).
Но что вылезет из такой модели после того, как она «сдаст экзамены» на безопасность и согласованность, не будет знать никто.
#ИИриски

Малоизвестное интересное

🎅 62.77K
Познавательное

Авторский канал Сергея Карелова о самом важном на фронтирах науки и технологий, что кардинально изменит люде...

Join
▲ Vote (1)

​​Секрет «Китайской комнаты». В ней не может быть человек, - н | Малоизвестное интересное

Login

Секрет «Китайской комнаты». В ней не может быть человек, - н | Малоизвестное интересное