Получи случайную криптовалюту за регистрацию!

АнглИИский язык ChatGPT и аналоги научились неплохо мимикриро | Дизраптор

АнглИИский язык

ChatGPT и аналоги научились неплохо мимикрировать под людей, по-человечески формулируя мысли, соблюдая грамматику, а иногда и вовсе намеренно допуская неточности. Однако, частые юзеры ИИ-чатботов заметили, что машины очень любят использовать некоторые отдельные слова. Например, “explore”, “tapestry”, “testament”, “leverage” и прочие. А также слово "delve", которое на русский переводится примерно как "копнуть", "исследовать" или "погрузиться в тему".

Цимес в том, что ИИ-чатботы используют эти слова гораздо чаще, чем пользователи в интернете. Особенно слово "delve", от которого нейросети прям кайфуют. Например, если глянуть статистику по "delve" через базу медицинских исследований PubMed, то в 2024 г. оно встретится примерно в половине работ (это почти в 100 раз больше, чем было до 2022 года). В то время как использование этого слова реальными людьми в интернете не изменилось.

На этот парадокс обратили внимание несколько месяцев назад, но тогда думали, что это некая скрытая особенность "черного ящика" внутри LLM. Однако, реальность оказалась интереснее:

Дело в том, что нейросети дообучают через RLHF (обучение с подкреплением на основе человеческих предпочтений). RLHF включает как банальную оценку ответов нейросети через лайки/дизлайки, так и дообучение на человеческих фразах. То есть, по сути, человек пишет ответ на запрос, а нейросеть включает его в базу для обучения.

RLHF требует огромных трудовых затрат, поэтому в целях экономии разрабы генеративного ИИ отдают эти задачи на аутсорс в более дешевые страны, где местное население является английскими native-speakers. Например, в Кению или Нигерию. Я как-то писал про историю "кенийских разметчиков", которых угнетают и эксплуатируют не хуже, чем их предков на сахарных плантациях. Так вот, если мы глянем на нигерийский или кенийский сегмент сети, то там слово delve - это настоящий хит.

Получается, генеративный ИИ говорит на African English. А самое забавное, что, учитывая распространение нейросетей, теперь уже мы впитываем новые языковые нормы от машин. Короче говоря, черные ребята снова шорткатят распространение своей культуры (пусть и невольно). Прям как с джазом или рэпом.

P.S. Интересно, кто-то исследовал статистику по слову "братан" в нейросетях Яндекса и Сбера?

Дизраптор