Итак, понадобилось мне pdf разобрать. Для чего заметку оставил, что есть pdf2html, которая из PDF делает кучу картинок, а есть pdftohtml, входящая в состав пакета и нормально работающая. Везде из-за этого каша страшная и я потратил немало времени, чтобы обнаружить, почему же я получаю не то, что надо. В общем, пример перед глазами
Код:
pdftohtml -c -p -zoom 2 -hidden Том 9. Структура БД, v1028.2.pdf
и вот такой результат, по моему не плохо
SM+ v. 1.028.2