Получи случайную криптовалюту за регистрацию!

Как СМИ бесплатно обучают нейросети Нейросети, которые захват | Мы и Жо

Как СМИ бесплатно обучают нейросети

Нейросети, которые захватывают мир в последние месяцы, принципиально похожи на T9 в телефоне. Вы задаете им контекст, они используют заложенную ранее информацию, чтобы выдать наиболее вероятное расположение слов в ответ.

А откуда берется эта информация? Ведь понятно, если в процессе обучения заложить мусор, на выходе тоже получится мусор. Готовятся специальные корпуса текстов и наборы данных. OpenAI не раскрывает состав заложенного в ChatGPT, но кое-что известно, например, об источниках данных для нейросетей Google и Meta.

The Washington Post обработал один из таких корпусов — C4 (Colossal Clean Crawled Corpus). Это очищенный — кто-то может сказать «отцензурированный» — набор данных с сайтов, проиндексированных роботами Google. Статья интерактивная — обязательно поищите, какую долю в корпусе занимают ваши любимые сайты. Чтобы сэкономить клик — pornhub есть, но его мало.

Роль медиа очень велика. В десятке пять позиций занимают СМИ
(The New York Times, The Los Angeles Times, The Guardian, Forbes, HuffPost), остальное в значительной части — справочная и научно-техническая информация (научные статьи. Википедия, патентные архивы). Есть, впрочем, RT (65 место), Breitbart (159), а также маргиналы вроде неонацистского stormfront или трансфобного kiwifarms. Впрочем, популярность последних в корпусе очень мала.

Что все это значит и чего ждать?

Если ответы нейросети зависят от ее информации, то можно сформировать идеологически послушную сеть, главное подобрать нужные источники.

◆ СМИ рано или поздно попытаются монетизировать свое присутствие в корпусах для обучения нейросетей. Первые такие заявления уже были, и OpenAI подтвердила, что готова оплачивать эту информацию, как и любую другую (наборы специализированных данных могут быть довольно дорогими).

◆ Следует ожидать «суверенных» нейросетей. Провластные «Известия» пишут, что нечто подобное уже начинается. «Яндекс» собирается обучать свою нейросеть YaLM 2.0 — аналог ChatGPT. Для этого откроют сотни вакансий для гуманитариев — журналистов, педагогов и филологов. Какими будут правила отбора и обучения, неизвестно.

◆ Будут ли они только модераторами или начнут создавать собственный контент — пока не очень ясно. Представитель «Яндекса» называет эти роли «AI-тренер или их руководитель».

◆ Что-то похожее собираются делать в VK и Ростелекоме, но об их проектах еще меньше данных.

Мы и Жо. Подписаться | Заходите в медиачат