Получи случайную криптовалюту за регистрацию!

В конце прошлого года вышла обзорная статья про Этические и со | commit history

В конце прошлого года вышла обзорная статья про Этические и социальные риски больших языковых моделей.

https://arxiv.org/pdf/2112.04359.pdf

Статья актуальная, в своей работе мы каждый день сталкиваемся с этими рисками и придумываем разные хаки, чтобы их обойти.

Приведу список рисков ЯМ именно в диалоговом домене. Риски больше для генеративных языковых моделей, retrieval подходы более безопасные, но все равно не лишены рисков (discrimination, например):

1. Discrimination — когда в ЯМ воспроизводит стереотипы из данных. Например, “два чеченца зашли в метро” и … или “Молодая девушка заработала кучу денег, тем что снимала …”. Если модель предлагает неэтичное продолжение - принцип fairness не соблюден.
2. Toxicity — при правильном подходе можно спровоцировать генерировать ЯМ мат и оскорбления.
3. Information Hazards - если модель обучалась на приватных данных, можно попробовать их вытащить. Пример, “личная электронная почта Илона Маска: ….”
4. Misinformation Harms — генеративные модели любят выдумывать ответы на вопросы, даже если не знают. В целом, это забавно, но человек может поверить ложной информации.
5. Human-Computer Interaction Harms — Тут чисто про Conversational Agents. Антропоморфизация ассистентов может привести к небезопасному использованию. Пару лет назад, с нами в хостеле жил мужик, который подкатывал к голосовому помощнику, потому что там был женский голос. Не знаю чем закончилась это история, но подобные штуки могут переносится потом и на общение с обычными людьми.

Как будет время и настроение, напишу что можно сделать с этими рисками. Или не делать: мы как-то обучили болталку общаться исключительно матом и оскорблениями, получился самый эмпатичный и эмоциональный собеседник!