Получи случайную криптовалюту за регистрацию!

Как я дообучал Tesseract и что из этого получилось https://hab | PythonDigest

Как я дообучал Tesseract и что из этого получилось
https://habr.com/ru/post/669020/?utm_campaign=669020&utm_source=habrahabr&utm_medium=rss

Решал я как-то задачку по поиску сущностей в отсканированных документах. Чтобы работать с текстом, надо его сначала получить из картинки, поэтому приходилось использовать OCR. Выбор пал на одну из самых популярных и доступных библиотек Tesseract. С ее помощью задача решается очень неплохо и процент распознавания текста достаточно высокий, особенно на хороших сканах. Но нет предела совершенству, а так же ввиду наличия большого количества документов сомнительного качества, по-улучшав пайплайн разными методами, было принято решение попробовать улучшить и сам тессеракт.