2021-10-18 16:00:29
Nvidia и ETH Zürich учат робособак ходить по любой поверхности в симуляции. Маневры вроде бега по пересеченной местности или подъема по ступенькам сложно оформить в виде рукописного кода, и инженерам оказалось проще пойти по стопам природы, использовав старое доброе обучение с подкреплением (как у животных и нейросетки, обыгравшей людей в го).
Хаотичная кавалькада 4000 роботов по эшероподобным пейзажам — то еще зрелище, но интересно, что сами исследователи приравнивают эти тренировки к игре с возрастающей сложностью. Ощущается в этом некий анти-прескриптивистский элемент: коду необязательно быть «чистым» или «аккуратным», для взаимодействия с непредсказуемой реальностью может быть достаточно самой реальности, и чем она сложнее, тем эффективнее движение. Может, частично поэтому дети (как у людей, так и у приматов) порой не внимают указаниям родителей и больше учатся «на своей шкуре» намного эффективнее, чем благодаря сводам правил, да и вековые истины могут в один момент банально устареть и потерять способность к полному описанию реальности.
Еще на этом примере ясно нащупываются границы применимости популярной теории магического круга у Хёйзинга — по-настоящему обучающая игра может быть не сдержана какой-то конечной территорией или временем (у него-то больше про пространство ритуала). Возможно, в рамках открытой и сложной системы вообще нельзя действительно научиться чему-то до конца, как бы это ни звучало в духе Нассима Талеба с его антихрупкостью, или это пространство ритуала у нас настолько расширилось. Например, можно научиться идеальному спидрану какой-нибудь видеоигры: ее время объективно разбито на кадры и тики процессора, пространство имеет четкие границы; но едва ли бизнес-школа может дать хоть какие-нибудь гарантии того, что через 5 лет полученные в ней знания не потеряют актуальности, а вы станете CEO стартапа-единорога. Короче, эта штука с роботами, которые вроде и до этого неплохо бегали по лестницам, удачно подчеркивает справедливость дзен-концепций вроде шошин АКА «ум новичка» и напоминает, что если уж кому-то присуждать венец творения, то таким «профессиональным новичкам».
P.S. Консервным банкам на этом поле мы уже понемногу сдаем позиции, пока за нами остаются целеполагание и рефлексия. Бостромская проблема этой ситуации для нас в том, что если машины будут учиться молниеносно по сравнению с нами (чипы от Nvidia в сабжевых испытаниях дали 100-кратный прирост в обучении), то любая наша ошибка в целеполагании будет столь же стремительно масштабироваться.
907 views13:00