Как можно распознать текст с изображения или сканера? : Linux

Occul · █ 07.02.2020 13:21

Для получения текста из файлов изображений, либо PDF, можно воспользоваться системой оптического распознавания символов Tesseract, а также графической утилитой gImageReader.

Установим Tesseract и набор файлов для русского языка:

Код:

sudo dnf install tesseract tesseract-langpack-rus

Установим утилиту gImageReader с интерфейсом на Qt (для пользователей KDE, LXQt):

Код:

sudo dnf install gimagereader-qt

Установим утилиту gImageReader с интерфейсом на GTK3 (для пользователей Gnome, XFCE, LXDE, Mate, Cinnamon и т.д.):

Код:

sudo dnf install gimagereader-gtk

Запустим gImageReader, в левой боковой панели выберем отсканированный файл (для наилучших результатов разрешение при сканировании должно быть не меньше 300 DPI), PDF, либо устройство сканирования, зададим режим распознавания и используемые в документе языки, затем нажмём кнопку Распознать всё.

Результат может быть сохранён в файл с панели результатов распознавания.