2023-04-20 12:58:57
Как СМИ бесплатно обучают нейросети
Нейросети, которые захватывают мир в последние месяцы, принципиально похожи на T9 в телефоне. Вы задаете им контекст, они используют заложенную ранее информацию, чтобы выдать наиболее вероятное расположение слов в ответ.
А откуда берется эта информация? Ведь понятно, если в процессе обучения заложить мусор, на выходе тоже получится мусор. Готовятся специальные корпуса текстов и наборы данных. OpenAI не раскрывает состав заложенного в ChatGPT, но кое-что известно, например, об источниках данных для нейросетей Google и Meta.
The Washington Post обработал один из таких корпусов — C4 (Colossal Clean Crawled Corpus). Это очищенный — кто-то может сказать «отцензурированный» — набор данных с сайтов, проиндексированных роботами Google. Статья интерактивная — обязательно поищите, какую долю в корпусе занимают ваши любимые сайты.
Чтобы сэкономить клик — pornhub есть, но его мало.
Роль медиа очень велика. В десятке пять позиций занимают СМИ (The New York Times, The Los Angeles Times, The Guardian, Forbes, HuffPost), остальное в значительной части — справочная и научно-техническая информация (научные статьи. Википедия, патентные архивы). Есть, впрочем, RT (65 место), Breitbart (159), а также маргиналы вроде неонацистского stormfront или трансфобного kiwifarms. Впрочем, популярность последних в корпусе очень мала.
Что все это значит и чего ждать?
◆ Если ответы нейросети зависят от ее информации, то можно сформировать идеологически послушную сеть, главное подобрать нужные источники.
◆ СМИ рано или поздно попытаются монетизировать свое присутствие в корпусах для обучения нейросетей. Первые такие заявления уже были, и OpenAI подтвердила, что готова оплачивать эту информацию, как и любую другую (наборы специализированных данных могут быть довольно дорогими).
◆ Следует ожидать «суверенных» нейросетей. Провластные «Известия» пишут, что нечто подобное уже начинается. «Яндекс» собирается обучать свою нейросеть YaLM 2.0 — аналог ChatGPT. Для этого откроют сотни вакансий для гуманитариев — журналистов, педагогов и филологов. Какими будут правила отбора и обучения, неизвестно.
◆ Будут ли они только модераторами или начнут создавать собственный контент — пока не очень ясно. Представитель «Яндекса» называет эти роли «AI-тренер или их руководитель».
◆ Что-то похожее собираются делать в VK и Ростелекоме, но об их проектах еще меньше данных.
Мы и Жо. Подписаться | Заходите в медиачат
1.9K views09:58