Для получения текста из файлов изображений, либо PDF, можно воспользоваться системой оптического распознавания символов Tesseract, а также графической утилитой gImageReader.
Установим Tesseract и набор файлов для русского языка:
Код:
sudo dnf install tesseract tesseract-langpack-rus
Установим утилиту gImageReader с интерфейсом на Qt (для пользователей KDE, LXQt):
Код:
sudo dnf install gimagereader-qt
Установим утилиту gImageReader с интерфейсом на GTK3 (для пользователей Gnome, XFCE, LXDE, Mate, Cinnamon и т.д.):
Код:
sudo dnf install gimagereader-gtk
Запустим gImageReader, в левой боковой панели выберем отсканированный файл (для наилучших результатов разрешение при сканировании должно быть не меньше 300 DPI), PDF, либо устройство сканирования, зададим режим распознавания и используемые в документе языки, затем нажмём кнопку Распознать всё.
Результат может быть сохранён в файл с панели результатов распознавания.