PaddleOCR - мощная альтернатива tesseract. Эта OCR работает на основе нескольких нейронных сетей. Первая корректирует угол наклона изображения. Вторая находит границы слов. А третья распознает! Tesseract начинает морально устаревать и требует огромного количества предобработки перед распознаванием, paddle является отличной заменой!
Из особенностей:
— Рекомендуется запускать на GPU
— Поддерживает десятки языков
— Активное развивается
— Работает очень точно
Ставится командой
(для GPU) python -m pip install paddlepaddle-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple
Ставится командной
(для CPU) python -m pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple
Документация и примеры кода здесь.