Получи случайную криптовалюту за регистрацию!

В поисках здравого смысла Обработка естественного языка (НЛП) | Новое электричество

В поисках здравого смысла

Обработка естественного языка (НЛП) в последнее время достигла больших успехов, но насколько ИИ понимает то, что читает? По мнению исследователей из Департамента компьютерных наук USC - меньше, чем можно предположить. В недавней статье доцент Сян Рен и аспирант Ючэнь Линь подтвердили, что, несмотря на успехи, ИИ все еще не обладает здравым смыслом, необходимым для создания правдоподобных предложений.

«Современные модели генерации текста могут написать статью, которая будет убедительной для многих людей, но они по сути имитируют то, чем их “кормили” на этапе обучения», - говорит Линь. «Наша цель в этой статье - изучить проблему того, могут ли современные модели генерации текста писать предложения, описывающие естественные сценарии нашей повседневной жизни».

Понимание сценариев повседневной жизни

Рен и Линь проверили способность моделей рассуждать и показали, существующий огромный разрыв между современными моделями генерации текста и возможностями человека. НЛП моделям была поставлена ​​задача создать правдоподобные предложения, описывающие повседневный сценарий используя набор самых распространенных существительных и глаголов. Хотя модели генерировали грамматически правильные предложения, они часто были логически бессвязными.

Например, вот одно предложение, созданное современной моделью со словами «собака, фрисби, бросить, поймать»:
«Две собаки бросают друг в друга фрисби».

Тест основан на предположении, что связные идеи (в данном случае: «человек бросает фрисби, а собака ее ловит») не могут быть получены без более глубокого понимания концепций здравого смысла. Другими словами, здравый смысл - это больше, чем просто правильное понимание языка - это означает, что вам не нужно все объяснять в разговоре. Это фундаментальная задача при разработке универсального ИИ, и помимо академических кругов она более чем актуальна и для конечных потребителей.

Без понимания языка чат-боты и голосовые помощники, построенные на современных моделях обработки естественного языка, уязвимы для сбоев, что становится все заметнее конечному потребителю при общении со службой поддержки банков и прочих компаний. Это крайне важно, если мы хотим, чтобы роботы чаще присутствовали в повседневной человеческой жизни. В конце концов, если вы попросите робота принести чаю, вы ожидаете, что он поймет, что вам нужна чашка с заваренным чаем, а не упаковка с пакетиками.

Проверка здравого смысла

Здравый смысл или способность делать выводы, используя фундаментальные знания о мире - например, факт, что собаки не могут бросать фрисби друг другу - головная боль исследователей ИИ многих десятилетий. Современные модели глубокого обучения показывают точность до 90%, поэтому может показаться, что НЛП неумолимо приближается к своей цели. Это только кажется.

Рен, специалист по обработке естественного языка, и его ученик Линь, в своей статье, опубликованной на прошлой неделе, 16 ноября, на конференции «Выводы эмпирических методов в обработке естественного языка» (EMNLP) ставят под сомнение эффективность эталонных тестов и, следовательно, уровень прогресса, достигнутого в данной области.

Для оценки различных моделей исследователи разработали тест CommonGen, который предлагается использовать в качестве эталона при проверке здравого смысла моделей генерации текста. Проведя тестирование современных моделей они обнаружили, что даже самая эффективная из них достигла уровня точности только 31,6% по сравнению с 63,5% для людей.

«Даже самая сильная модель, T5, после обучения с большим набором данных все еще делает глупейшие ошибки», - говорит Линь.

Можно утверждать, что все без исключения предыдущие тесты не проверяли модели на здравый смысл, но вместо этого проверяли насколько хорошо они имитируют “съеденное” на обучении.