Получи случайную криптовалюту за регистрацию!

#чтивонаночь Недавно от заказчика пришел запрос сделать класс | градиент обреченный

#чтивонаночь

Недавно от заказчика пришел запрос сделать классификатор текстов. При этом ни обучающих данных, ни домена, ни количества классов он предоставлять не стал.

Штош. Сделал TF-IDF + логрег, засунул в два докера — train и predict, написал как пользоваться и отдал.

Через какое-то время ко мне вернулись со словами, что балалайка не работает. Подумал. Так как это бейзлайн и хоть как-то он работать должен, то дело может быть в их разметке.

Попросил взять немного данных, дать нескольким сотрудникам на разметку и посмотреть совпадут ли они с между собой и с обучающей выборкой.

Тут заказчик сознался, что классов несколько сотен, тексты размечаются автоматически на уровне рандома и что человеки само собой тоже путаются. А на самом деле им нужно поделить на два класса спам/не спам.

Общайтесь с заказчиком и сначала делайте бейзлайн. Аминь.