
Состоялся релиз открытого Android-приложения FairScan 2.0 (доступно на GitHub, а также в Google Play или F-Droid)для сканирования документов. Выпуск FairScan 1.0 состоялся в сентябре 2025 года. Исходный код проекта написан на Kotlin и опубликован под лицензией GNU General Public License v3.0.
Главная особенность новой версии — добавление поддержки оптического распознавания символов (OCR) с использованием Tesseract для создания PDF‑файлов с возможностью поиска текста из отсканированных изображений. Разработчик FairScan Пьер‑Ив Николя подробно пояснил в своём техническом блоге о добавлении этой функции и объяснил, почему она не была добавлена ранее.
«Это выглядит неплохо, так почему же FairScan не имел этого раньше? Потому что FairScan был к этому не готов: меня бы не устроило, если бы FairScan выдавал неправильный текст в половине случаев. Для получения хороших результатов от механизма OCR необходимо предоставить ему читаемое изображение. Если его трудно прочитать человеку, то, безусловно, его трудно прочитать и механизму OCR», — написал Пьер‑Ив Николя.
В течение последнего года автор FairScan работал над различными аспектами автоматической обработки изображений в своём приложении для преобразования фотографий документов в PDF-файлы, удобные для чтения человеком, включая отработку таких аспектов:
-
обнаружение документов;
-
коррекция перспективы;
-
уменьшение теней;
-
повышение яркости и контрастности.
Вся эта работа по обработке изображений помогла FairScan создавать качественные PDF-файлы и теперь также может способствовать повышению эффективности распознавания текста, пояснил Пьер‑Ив Николя.
Примечание: новая версия FairScan использует пермишен INTERNET для загрузки дополнительных языковых файлов OCR. Вся обработка документов остаётся локальной на устройстве пользователя.

ссылка на оригинал статьи https://habr.com/ru/articles/1050154/