Получи случайную криптовалюту за регистрацию!

Рубрика «Экономлю ваше время» Проблема: люди пишут много отзы | SEO-секретики

Рубрика «Экономлю ваше время»

Проблема
: люди пишут много отзывов, но читать их не хотят.

Пример: у московского ГУМ'а 25 тысяч отзывов и само собой все эти отзывы никто не будет читать.

Задача: прочитать самим все отзывы за пользователей (автоматическими методами), агрегировать и переформатировать в более удобный формат и выдать это пользователям в виде так называемых аспектов (еда, развлечение и т.п.). Затем к этим аспектам проставить процентовки, типа еда 86% или развлечение 43%. Таким образом, можно быстро понять, что в заведении кормят хорошо, но развлекают плохо.

Для того, чтобы высчитывать все аспекты, они сначала использовали регулярные выражения (библиотека Remorph). Данная библиотека умеет воспринимать слова как символы и выполняет простые задачи на ограничения: отдать пару слов, где первое слово прилагательное, а второе существительное.

Первую выборку они задавали вручную. Сами собирали пары слов в виде прилагательное-существительный и другие, затем к существительным (аспектам) подбирали синонимы. При этом прилагательные они называли контекстом.

Основная задача Remorph была в том, чтобы быстро найти аспект и отдать рядом стоящий контекст.

Как определяли тональность отзывов? Учитывая, что у каждого отзыва есть рейтинг (от 1 до 5), то логично, что можно пары аспект-контекст воспринимать с определенной тональностью. Чем выше оценка, тем позитивнее тональность. Ошибки могут быть, но чаще всего все именно так. Кстати, интересный момент, они заметили, что чем позитивнее тональность, тем короче сам текст отзыва и наоборот. Поэтому, учтите этот важный естественный фактор при работе по SERM.

Минус Remorph в том, что он не может хорошо понимать русский язык, так как он сам по себе сложен. Синтаксических шаблонов в русском языке слишком много, поэтому они решили отказаться от регулярок в принципе и перешли на алгоритм языковой модели BERT (привет Google!).

BERT сам по себе хорошо обучен и устроен так, что можно его довольно быстро дообучить на относительно небольшой выборке данных. В итоге, они пришли к тому, что BERT решал поставленные задачи гораздо лучше чем регулярки.

Еще замечали наверняка, что жирным выделяют какие-то моменты в отзывах в Яндекс.Бизнесе. Они это называют главным аспектом в отзыве. Определяет это снова сам BERT.

Изначально они охватили только тематику кафе и ресторанов и там было всего 8 аспектов (еда, персонал и т.д.). Потом они решили перейти и на другие тематики (торговые центры, фитнес клубы, салоны красоты и т.д.) и применяли там общие аспекты тоже (персонал ведь есть везде). И снова пошли копать вручную все эти новые тематики. Сначала для асессоров (толокеров) собрали сборку текстов отзывов этих тематик и сформировали популярные биграммы. Затем уже удалили дубли, всякие глупости и в целом, проверяли корректно ли формируются аспекты.

Сеошники мутят техничку, расширяют структуру под спрос, строят ссылочное и крутят поведенческие, в то время как сотрудники Яндекса решают вот такую задачу: «Какую языковую модель применить для определения тональности отзывов?». Ставь огоньки, если было интересно читать.

Оригинальное видео со всеми подробностями:



@seosekretiki