2022-06-12 15:47:19
Российские энтузиасты создали своего «ИИ для ненависти» обученного на 2ch
Вдохновленные работой Янника Килчера, который обучил машину «языку ненависти» используя 3,3 миллиона тредов с печально известной токсичной доски 4chan «Политически некорректно» /pol/ — российские энтузиасты запустили Telegram бота обученного на отечественном 2ch.hk используя доску /b/
В качестве диалоговой модели был использован GPT-2, обученный на датасете из постов анонов. Итоговый датасет насчитывал порядка 60 тысяч диалогов.
Также
для повышения токсичности данных данные были отфильтрованы с помощью модели классификатора rubert-toxic-pikabu-2ch. Модель была создана для модерации токсичного контента, но никто не мешает использовать ее во зло.
Весь код сбора данных, обучения модели и бота энтузиасты выложили в открытый доступ на GitHub. Для простоты использования настроено поднятие бота с помощью docker-compose.
Кроме того, они оставили инструкцию на habr.
================
Из наблюдений пользователей, российский бот действительно получился токсичным, но не принимающий во внимание контекст сообщений:
989 views12:47