«
Смотря в каком контексте»:
от word2vec к BERT Специалист по дистрибутивной семантике, основатель сайта RusVectōrēs, докторант и сотрудник группы языковых технологий в университете Осло Андрей Кутузов рассказал на школе #fall4digital о том, почему мир переходит на контекстуализированные векторно-семантические модели (ELMo, BERT), а классический word2vec уже не в моде. Вот пересказ для тех, кто пропустил:
Дистрибутивные семантические модели — фундамент современных прикладных компьютерно-лингвистических систем. Старая идея о том, что значение слова может быть выражено через обобщение контекстов его употребления (это говорил еще Витгенштейн, а из лингвистов — Зеллиг Харрис и Джон Фирс), получила успешную реализацию в алгоритмах вроде word2vec — и в некотором смысле сделала лексическую семантику доступной машине. Когда исследователи научились получать контекстные вектора слова на достаточно больших корпусах, это подстегнуло и машинный перевод, и информационный поиск, и вопросно-ответные системы. Возможность взять семантические векторы и вычислить, что слово
помидор близко к слову
томат, но далеко от слова
поминать, улучшило качество алгоритмов обработки и понимания естественного языка.
Однако даже самая идеальная дистрибутивная модель обладает врожденной проблемой. Обучившись раз, она сохраняет один статичный вектор каждого слова — и в процессе использования уже не может опираться на контекст. Эта проблема легко заметна в случае с многозначными словами (
лук,
рок,
бот...). Попытки «расщепить» векторы многозначных слов в модели на несколько (например, AdaGram) оказались половинчатым решением...
И тут на сцену выходят контекстуализированные векторно-семантические модели — ELMo, а затем BERT. Такие модели обучаются строить вектор каждого слова с учетом контекста. Т.е. в них нет четко заданного вектора слова
лук — он порождается в тот момент, когда на вход системе приходит предложение с этим словом. То, каким будет вектор
лука, и как он будет относиться к словам
чеснок или
колчан, зависит от контекста: для предложения
Выпустил стрелу из лука вектор будет совсем не таким, как для
Зеленый лук растет на грядке.
Сегодня ELMo и BERT (особенно BERT) — это «новый черный» мира Natural Language Processing. Замена статической векторной модели на контекстуализированную приводит к повышению качества работы очень многих систем автоматической обработки языка.
#dhvoronovo