Получи случайную криптовалюту за регистрацию!

​«Смотря в каком контексте»: от word2vec к BERT Специалист п | Супер прикладная лингвистика

​«Смотря в каком контексте»: от word2vec к BERT

Специалист по дистрибутивной семантике, основатель сайта RusVectōrēs, докторант и сотрудник группы языковых технологий в университете Осло Андрей Кутузов рассказал на школе #fall4digital о том, почему мир переходит на контекстуализированные векторно-семантические модели (ELMo, BERT), а классический word2vec уже не в моде. Вот пересказ для тех, кто пропустил:

Дистрибутивные семантические модели — фундамент современных прикладных компьютерно-лингвистических систем. Старая идея о том, что значение слова может быть выражено через обобщение контекстов его употребления (это говорил еще Витгенштейн, а из лингвистов — Зеллиг Харрис и Джон Фирс), получила успешную реализацию в алгоритмах вроде word2vec — и в некотором смысле сделала лексическую семантику доступной машине. Когда исследователи научились получать контекстные вектора слова на достаточно больших корпусах, это подстегнуло и машинный перевод, и информационный поиск, и вопросно-ответные системы. Возможность взять семантические векторы и вычислить, что слово помидор близко к слову томат, но далеко от слова поминать, улучшило качество алгоритмов обработки и понимания естественного языка.

Однако даже самая идеальная дистрибутивная модель обладает врожденной проблемой. Обучившись раз, она сохраняет один статичный вектор каждого слова — и в процессе использования уже не может опираться на контекст. Эта проблема легко заметна в случае с многозначными словами (лук, рок, бот...). Попытки «расщепить» векторы многозначных слов в модели на несколько (например, AdaGram) оказались половинчатым решением...

И тут на сцену выходят контекстуализированные векторно-семантические модели — ELMo, а затем BERT. Такие модели обучаются строить вектор каждого слова с учетом контекста. Т.е. в них нет четко заданного вектора слова лук — он порождается в тот момент, когда на вход системе приходит предложение с этим словом. То, каким будет вектор лука, и как он будет относиться к словам чеснок или колчан, зависит от контекста: для предложения Выпустил стрелу из лука вектор будет совсем не таким, как для Зеленый лук растет на грядке.

Сегодня ELMo и BERT (особенно BERT) — это «новый черный» мира Natural Language Processing. Замена статической векторной модели на контекстуализированную приводит к повышению качества работы очень многих систем автоматической обработки языка.

#dhvoronovo