Закодированные PDF. Как скопировать закодированный текст.
Про защиту pdf файлов от печати и копирования думаю слышали многие. Наверняка кому-то довелось и убирать такую защиту, всё это довольно просто снимается, при желании. Однако, сегодня речь пойдет немного о другом, более редком виде защиты pdf документов, в которых на первый взгляд нет никакой видимой защиты и всё разрешено. Текст скопировать можно... вот только вместо текста копируются непонятные символы.
Вы можете спокойно читать и распечатывать файл – перед вами нормальный текст, а при копировании получаем набор левых символов.
Для чего это нужно? Скажем, PDF лежит в открытом доступе на сайте и необходимо запретить копирование текста или избежать индексирования содержимого pdf документа поисковиками.
Что же делать, если вам попался такой PDF-файл, а перспектива набора 10-20 страниц вручную не добавляет радости в жизнь. Искать другой источник или распечатать и потом распознать? Можно поступить проще.
Возможно для кого-то станет откровением, но ABBYY FineReader распознает pdf-файлы как обычные графические! Открываем в FineReader закодированную pdf, указываем язык распознавания и сохраняем результат в нужном формате (мне было просто необходимо в html). Вот и весь секрет. Если кто-то знает иной, более простой или правильный способ, не поленитесь, напишите о нем в комментариях.
Комментариев: 13
Не думаю, что это защита pdf файла.
Скорее, это отсутствие нужного шрифта в системе.
Я как-то с таким сталкивался, однако, найти нужный шрифт так и не удалось. Честно говоря не помню, как именно вышел из ситуации. Может, и через распознавание в FR.
Возможно вы правы. Где-то встречал упоминание программы Infix Pro, позволяющей создавать PDF с неправильной кодировкой. Надо будет опробовать в свободное время, потому как ответа на вопрос в сети не нашел.
Даже если это просто такой побочный эффект неверной кодировки или шрифта, то как защита он крайне эффективен.
На днях распознавал белорусский язык с такого документа, затем как вебстраницу загнал в Хром и перевёл
В итоге основная масса текста на русском, но есть над чем посмеяться после перевода
http://www.pdfdecrypter.com/ поможет
А не проще ли отправить в печать на виртуальный принтер для сохранения в новый PDF файл, чтобы потом спокойно скопировать данные?
Спасибо! сколько искал программу, которая сможет помочь скопировать текст без иероглифов всяких, и наконец то нашел, ваш совет помог! ABBYY FineReader распознала без проблем))
Способ рабочий, хорошо, что нашел эту статью, помогла, очень благодарен автору
Текст можно копировать открыв pdf-документ в программе STDU Viewer
Спасибо, целый вечер промучался, а при помощи Вашего варианта все получилось!
pdf decrypter вскрывает запароленный pdf, обычный он игнорирует (проверено на версии 4.2.0). STDU лично мне тж не помог. Так что да, пока только распознавание (((
Спасибо!
Adobe Acrobat XI Standard
Файл/сохранить как/ html
и ву-а-ля
https://www.onlineocr.net/ru/