Получи случайную криптовалюту за регистрацию!

Собрал пак советов по оффлайн разметке. Больше о разметке в | commit history

Собрал пак советов по оффлайн разметке.

Больше о разметке в контексте NLP. Часть советов покажутся очевидными, но все равно упомяну. Подходит и для in-house разметки, и для outsource разметки в сервисах (толока, mturk)

1. Прежде чем составить задание на разметку, попробуйте сами разметить пару десятков примеров. Так вы поймете, насколько данные и классы корректны.

2. В самом задании добавьте по паре примеров на класс для понимания. Здорово, если добавите сложный пример и в скобках объясните логику.

3. Сначала сделайте небольшой пробный батч и скорректируйте задание если нужно.

4. Примеры, которые вы разметили сами – используйте как оценочные для разметчиков, чтобы размечали только добросовестные разметчики.

5. Используйте меру согласованности между разметчиками (например, Fleiss’ kappa). Несогласованные сэмплы - либо треш, либо спорные сэмплы, которые наоборот помогут модели лучше разделить классы. 

6. Даже если ресурсов мало, разметьте хотя бы golden set, на котором оценивайте метрики и другие способы разметки (active learning, разметкой эвристиками итп.)

7. Есть такая частая проблема в текстовых классификациях, что необходимые классы в сумме составляют только 0.001% от выборки. А остальное – класс other. Чтобы не тратить впустую деньги на разметку ненужных данных, обучите модель на небольшом куске разметки, насэмплите рандома в other и разметьте моделью выборку. А потом уже отправляйте на разметку, только то что разметилось, как не other.

8. Чтобы выжать максимум из разметки, помимо обычной дедупликации, можете сделать еще дедупликацию по нечетким совпадением или по близости эмбеддингов по порогу.

9. Что делать если данных нет? Ищите открытые датасеты по своей задаче. Если датасет на другом языке - можно перевести. 

10. Можно скрапить сайты и выдачу из поиска. Как-то нам нужны были примеры, где люди рассказывают о себе и своих увлечениях, я наскрапил примеров с сайта для знакомств в духе анкет в газете 2000х.

11. Если данных совсем нет, можно сделать следующее: вручную написать по паре десятков разных примеров на класс. Векторизовать их sentence encoder и поискать ближайшие по косинусу в большом корпусе.

12. Если вам нужна специализированная разметка, а разметчиков-специалистов мало, то попробуйте переформулировать задачу для более простой разметки. Пример: нам нужно было разметить часть текстовых сообщений из логов, на предмет корректности их интента (>1k классов). Некоторые интенты похожи между собой. В них разбираются только внутренние разметчики. Задачу из "прочитать описания интентов и определить нужный" мы переформировали в "kind of NLI". Даны 4 предложения (размечаемый сэмпл + 3 примера из интента) - нужно найти лишний. Если разметчики верно выделяли сэмпл, значит он скорее всего не из этого интента. Спорные примеры уже размечали специалисты.

13. Что делать, если датасет после разметки оказался грязный? Если меньшая часть примеров из классов ошибочно приписаны в другой, то вместо того, чтобы переразмечать весь датасет, то можно разделить датасет на фолды -> обучить по кругу модель и предсказать leave-one-fold -> сохранить предикты с каждого цикла обучения -> переразметить сэмплы, в которых предсказание не совпадает с лейблом. 

Напишите в комменты, что бы еще добавили?