0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Ссылки и вложенные файлы в PDF

Выберите Инструменты > Редактировать PDF > Ссылка > Добавить или изменить.

Курсор превращается в перекрестие (+), и любые ссылки, существующие в документе, в том числе невидимые, временно становятся видимыми.

Перейти к странице

Нажмите кнопку «Далее», чтобы установить номер страницы и масштаб в текущем документе или в другом документе (например, во вложенном файле), а затем нажмите Установить ссылку .

Выберите файл назначения и нажмите «Выбрать». Если файл является документом PDF, то укажите, каким образом следует открыть документ (например, в новом окне или в существующем окне) и нажмите «ОК».

Если имя файла слишком длинное и не умещается в текстовом поле, то средняя часть имени урезается.

Введите URL-адрес веб-страницы назначения.

Нажмите кнопку «Далее», чтобы открыть диалоговое окно Свойства ссылки . В этом диалоговом окне можно назначить любое действие, например чтение статьи или выполнение команды меню, которая будет связана со ссылкой.

Извлечение данных из PDF-файлов для «чайников»

Журналисты получают множество данных в формате PDF – это могут быть таблицы с данными, встроенные в отчеты, или электронные таблицы, которые были тщательно сохранены в виде PDF-файлов, прежде чем их отправили вам по электронной почте. Но пока вы не преобразуете эти данные в электронную таблицу, то никак не сможете их использовать.

К счастью, есть несколько отличных инструментов, которые могут быстро и сравнительно легко переформатировать ваши данные. Ниже я перечислила некоторые из тех, которые перепробовала (хотя, без сомнения, их намного больше), а также дала несколько советов по извлечению некоторых более сложных типов PDF-файлов, включая повернутые таблицы, конвертацию сканированных PDF-файлов и PDF-файлов, защищенных паролем.

Tabula

Я люблю Tabula. Это мой выбор номер один. Во-первых, потому что он бесплатный, а во-вторых, потому что он чрезвычайно прост в использовании. На их веб-сайте сказано, что он был создан “журналистами для журналистов”, и, вероятно, поэтому он так популярен среди таких “нетехнарей”, как я.

Читайте так же:
Быстрая переустановка Windows 10 — 8 полезных советов

Мне часто нужно извлекать таблицы данных из огромных PDF-файов. Tabula позволяет загружать весь документ и выбирать только нужные вам таблицы. Вы можете конвертировать по одной таблице или сразу несколько, в зависимости от компоновки вашего документа, в CSV, TSV JSON-файлы, которые можно импортировать в Google Sheets (бесплатно), Libre Office Calc (бесплатно), Excel (не бесплатно) или любую другую предпочитаемую вами программу.

Единственный случай, когда я не иду прямиком в Tabula, – это когда имею дело со сканированными PDF-файлами или когда таблицы, которые я хочу конвертировать, повернуты на 90 градусов. Но об этом позже.

Cometdocs

Этот инструмент также популярен среди журналистов – не в последнюю очередь потому, что члены организации Журналистов и редакторов-расследователей (IRE) получают бесплатный доступ премиум-класса, а еще потому что Cometdocs очень удобен в использовании. Вы можете конвертировать до пяти документов в неделю бесплатно, но вам придется оформить подписку, если вы захотите сделать больше. Мне очень нравится тот факт, что вы можете подписываться на месяц за $ 9,99, но если вам действительно понравиться, можно получить пожизненное членство примерно за $130.

Вот как это работает: загрузите или импортируйте PDF-документ, который хотите преобразовать, нажмите кнопку конвертировать и выбирайте между Excel и .ODS (который вы можете открыть в Libre Office). К сожалению, опции .CSV нет. Если у вас нет одного из этих пакетов электронных таблиц, вы можете загрузить файл на Google Диск и открыть его в Google Таблицах.

Cometdocs работает быстро и качественно, но его особое преимущество – то, что он выполняет оптическое распознавание символов (OCR), поэтому способен конвертировать сканированные PDF-файлы. Однако желательно сверять конвертированный документ с оригиналом, чтобы убедиться, что всё преобразовано правильно. Как и Tabula,этот инструмент не может обрабатывать перевернутые таблицы.

Читайте так же:
Установка и настройка MariaDB на CentOS 7

Adobe Export PDF

Этот инструмент не бесплатный, но тоже не слишком дорогой – около 24 долларов в год. Если вы используете Adobe Reader, который является бесплатным PDF-распознавателем Adobe, Export PDF позволяет конвертировать PDF-документ, который вы открыли в Acrobat Reader, в Excel, Word, PowerPoint или RTF. Он хорошо и быстро работает с довольно большими документами. Но, как и Tabula, он не обрабатывает сканированные документы или перевернутые таблицы.

Nitro Pro

Если у вас есть компьютер с Windows, Nitro – отличный инструмент для обработки и конвертирования PDF-файлов в полезные форматы, но он не бесплатный (около $ 160), а тот факт, что он работает только с Windows, означает, что он недоступен для меня и моего MacBook. Тем не менее, я пробовала поработать с ним на чужой машине, и он меня впечатлил.

Acrobat Pro

Этот доступен для пользователей Mac, но также не является бесплатным (около 15 долларов в месяц и годовое обязательство).

Zanran

Эта британская компания разработала программное обеспечение для автоматизации обработки PDF. Оно не бесплатное, но вы можете увидеть его возможности, опробовав его демоверсию – если ваш документ весит 1,5 МБ или меньше. Вы загружаете свой PDF-файл, указываете, во что хотите его конвертировать, даете им свой адрес электронной почты, и они отправляют вам конвертированный документ.

Zamzar

Еще один инструмент онлайн-конвертации, куда вы можете загрузить свой документ, выбрать формат, в который хотите его конвертировать, и получить конвертированный документ на выбранный вами адрес электронной почты.

Перевернутые таблицы

Иногда таблицы в PDF-документах повернуты на 90 градусов. До того, как инструмент преобразования сможет идентифицировать их как текст, вам нужно вернуть таблицы обратно в нормальное положение. Обычное вращение страницы в Acrobat Reader или Preview не сработает. Вам нужно повернуть непосредственно саму таблицу. Для этого вам нужен правильный PDF-редактор, такой как Acrobat Pro или Nitro Pro.

Читайте так же:
Отправка приглашения для друга в Skype

Если у вас есть Acrobat Pro, вот что нужно сделать:

  • Если ваши таблицы являются частью более крупного документа, откройте свой документ и, используя опцию «Упорядочить страницы», извлеките страницы c таблицами, которые вы хотите повернуть. Если вы хотите извлечь несколько последовательных страниц, легче извлечь их отдельными файлами.
  • Откройте страницу с таблицей. Перейдите в меню «Вид» и поворачивайте таблицу, пока она не окажется в нужном положении.
  • Если есть верхние и нижние колонтитулы или любой другой текст, который не вращается в том же направлении, что и ваша таблица, удалите их с помощью функции «Редактировать PDF». Вам нужно именно удалить их, прикрыть не получится.
  • Перейдите к опции «Расширенные сканы» (Enhance Scans) и выберите «Распознать текст» (Recognize Text); проверьте настройки, чтобы убедиться, что выбрана опция «Сохранить как редактируемый текст и изображения» (Save as editable text and images). Это может занять несколько минут, и после этого ваша таблица будет снова повернута на 90 процентов.
  • Вернитесь назад в “Просмотр” и поворачивайте страницу до тех пор, пока она снова не кажется в нужном положении. Затем сохраните файл.
  • Вы можете попытаться преобразовать свою страницу в электронную таблицу Excel с помощью функции «Преобразование PDF» (Export PDF), но, как по мне, Tabula делает это лучше.
  • Всегда сверяйте преобразованные данные с оригинальными документами, потому что иногда восьмерки могут быть ошибочно приняты за шестерки или букву ”B”. Но даже если ваш конвертированный документ не будет абсолютно идеальным, преобразовать его таким образом намного быстрее, чем вручную вводить все в электронную таблицу.

Преобразование сканированных PDF-файлов

В сканированном PDF-файле таблица будет идентифицироваться как изображение, а не текст, поэтому, если вы хотите извлечь данные из таблицы, вам сначала нужно преобразовать ее в текст с помощью чего-то с оптическим распознаванием символов (OCR). Вы можете использовать Cometdocs, Acrobat Pro или Nitro Pro. Инструмент Acrobat Pro Enhance Scans должен распознавать текст в вашем PDF-файле, если качество сканирования не ужасное. Иногда стоит попробовать сделать из скриншота таблицы, которую вы хотите извлечь, отдельный PDF-файл, прежде чем использовать инструмент Enhance Scans. После того, как сканированный документ преобразуется в текст и изображения, я все равно сохраняю его как PDF и преобразовываю в CSV с помощью Tabula. И, конечно же, всегда сверяйте свои данные с оригиналом.

Читайте так же:
Загрузка драйверов для ноутбука Lenovo G550

Защищенные паролем PDF-файлы

Иногда PDF-файлы защищены паролем, поэтому вы не можете редактировать их или преобразовывать в любой другой формат. Если у вас есть Mac с предварительным просмотром, попробуйте открыть PDF в режиме предварительного просмотра, а затем выберите пункт «Экспорт как PDF» в меню «Файл». Откройте новую версию своего PDF-файла и попробуйте преобразовать ее в электронную таблицу.

У вас есть любимый инструмент для извлечения данных из PDF-файлов? Дайте мне знать. Вы можете найти меня на Twitter: @laurajgrant.

Это третья часть очередной серии о полезных инструментах для журналистов, работающих с данными, из “Инструментария журналиста» от Media Hack Collective. Мы перепечатываем ее с разрешения.

Лора Грант – журналистка данных и управляющий партнер Media Hack Collective проекта, посвященного цифровому сторителлингу. Она работает в журналистике более 20 лет и является бывшим заместителем редактора цифровых и информационных проектов в Mail & Guardian в Южной Африке, где создавала материалы на основе данных, интерактивную графику и карты.

PDFMate

Обзор онлайн-сервисов завершили. Теперь рассмотрим программное обеспечение для выполнения нашей задачи. Для примера рассмотрим бесплатную утилиту PDFMate.

Программа имеет достаточно дружественный и понятный интерфейс (на русском языке).

После запуска программы нужно сделать небольшие настройки. Для этого в меню сверху необходимо выбрать пункт «Настройки».

Слева выбираем иконку «Image» и устанавливаем параметр «Извлекать только изображения».

Настройка Pdfmate

Далее добавляем нужный файл, выбираем формат, в который хотим преобразовать PDF (в нашем случае «Image»), указываем, куда сохранять результаты и нажимаем кнопку «Создать».

Перенос PDF в JPG в программе Pdfmate

После выполнения процесса преобразования будет создана папка с таким же именем как название файла. В этой папке будут находиться изображения из PDF в хорошем качестве.

Читайте так же:
Как проверить температуру видеокарты

Использование программного обеспечения для сохранения изображений из PDF, на мой взгляд, является наиболее правильным решением. Дело в том, что работа с онлайн сервисами в большинстве случаев связана с какими-либо ограничениями. Это может быть ограничение на количество обрабатываемых страниц, качество изображений и т.д. Также при использовании сторонних сайтов появляется вопрос конфиденциальности ваших данных. Поэтому лучше потратить немного больше времени на закачку/установку программы и получить более качественный результат.

голоса
Рейтинг статьи
Ссылка на основную публикацию
ВсеИнструменты
Adblock
detector