Получи случайную криптовалюту за регистрацию!

Посмотрите на приложенный скришот. Бред, не так ли? Почему суп | Сиолошная

Посмотрите на приложенный скришот. Бред, не так ли? Почему суперультрамегамощная GPT-4 не может решить очень простую задачу — даже просто повторить строку на входе!

Все дело в том, как GPT "видит" текст. Для каждой модели существует "словарь", состоящий из токенов. Этот словарь определяется один раз перед тренировкой модели, фиксируется и не меняется. Модель, в свою очередь, для каждого токена в словаре выучивает вектор, указывающий на некоторую точку в "пространстве смыслов". Разные точки означают разные смыслы, и именно так модель и понимает, что вы ей пишете (больше про это в подкасте тут).

Для того, чтобы "выучить" вектор, модели нужно встретить токен, ему соответствующий, в тексте во время тренировки. Понятно, что какие-то слова встречаются чаще, какие-то реже, и некоторые вектора остаются недообученными, то есть не в полной степени отражают смысл, который должен быть.

Сам словарь перед тренировкой формируют следующим образом: берут все тексты, что есть, и ищут в них самые частовстречающиеся буквосочетания. Многие из них являются целыми словами (что логично), однако очень сложно понять, в какой момент осмысленные частицы и слова кончаются, и в словарь начинает попадать какая-то муть. Так произошло и здесь - в словарь попал токен " davidjl", что — вы не поверите — является частью ника одного пользователя Reddit. Да не случайного, а самого активного в сабреддите r/counting, где люди...просто пишут числа по порядку (да, 1,2,3,...и так 150 тысяч раз ). Видимо, страницы спарсили при подготовке данных, и вот таким вот образом человек себя "увековечил" в модели. А та, в свою очередь, не выучила для его ника вектора — поэтому путается, и не может "прочитать" его, чтобы написать осмысленный ответ.

И это не единичный случай - вот тут можно более подробно прочитать про способ нахождения аномальных токенов, и посмотреть на десятки примеров.