Релиз открытой системы распознавания текста Tesseract 5.5.0

от автора

Состоялся релиз открытой системы распознавания текста Tesseract 5.5.0. Проект поддерживает Unicode и работает с более чем 100 языками. Итоговый результат распознавания может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Решение развивается при участии работников компании Google. Исходный код проекта написан на языке программирования C++ и опубликован на GitHub под лицензией Apache 2.0.

Предыдущая стабильная версия Tesseract 5.4.1 вышла в июне этого года. Релиз Tesseract 5.0.0 состоялся в ноябре 2021 года. Выпуск Tesseract 1.0 состоялся в июне 2006 года.

По информации OpenNET, проект Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкции AVX2, AVX, AVX512F, NEON или SSE4.1.

Основные изменения и доработки в Tesseract 5.5.0:

  • добавлена поддержка векторных расширений RISC-V V, на базе которых подготовлены ассемблерные оптимизации для систем с процессорами RISC-V;

  • при записи результата в формате hOCR обеспечено выставление в создаваемом файле параметров ocrp_dir и ocrp_lang;

  • модернизирован код для определения доступных языковых моделей;

  • улучшен код для формирования файлов в формате hOCR и убрано преобразование имён файлов на платформе Windows;

  • разрешено указание символьных значений в опциях «—oem» и «—psm»;

  • в коде произведена замена функций access и _access на метод std::filesystem::exists(). Функции tprintf заменены на использование потока tesserr;

  • удалена поддержка платформы машинного обучения Tensorflow, которая в своё время была реализована, но так и не была задействована для выполнения ИИ-моделей распознавания;

  • улучшен установщик для платформы Windows;

  • субмодуль googletest обновлён до версии 1.15.2.


ссылка на оригинал статьи https://habr.com/ru/articles/857522/


Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *