Вам нужен текст из PDF, но его не получается выделить или скопировать. Возможно, PDF — отсканированный документ, возможно, выделение текста ограничено, или вам просто нужна чистая текстовая версия. Инструмент PDF to Text извлечёт каждое слово из вашего PDF за считанные секунды.
Что вам понадобится
- PDF-файл, содержащий текст, который нужно извлечь
- Веб-браузер
- Не нужны ни аккаунт, ни установка программ
Пошаговое руководство
Откройте инструмент PDF to Text
Перейдите к инструменту PDF to Text. Он полностью работает в вашем браузере без какой-либо настройки.
Загрузите PDF
Нажмите на область загрузки или перетащите PDF-файл. Инструмент обработает файл и извлечёт всё читаемое текстовое содержимое.
Скопируйте или скачайте извлечённый текст
Извлечённый текст появляется в текстовой области. Вы можете выделить и скопировать отдельные фрагменты или скачать весь текст как файл. Текст чистый и готов для вставки в любой документ, письмо или редактор.
Полезно знать Всё извлечение текста происходит локально в вашем браузере. Ваш PDF никогда не отправляется на сервер, поэтому конфиденциальные документы остаются в безопасности.
С какими PDF это работает?
Цифровые (нативные) PDF
PDF-файлы, созданные из документов Word, веб-страниц или любого приложения, генерирующего текстовые PDF. Они дают лучшие результаты, потому что текст уже хранится в файле в виде символов.
Отсканированные PDF
PDF-файлы, созданные из отсканированных бумажных документов, по сути являются изображениями. Извлечение текста из отсканированных PDF зависит от возможностей OCR инструмента. Результаты обычно хорошие для чистых сканов со стандартными шрифтами, но рукописный текст и сканы очень низкого качества могут дать неполные результаты.
Смешанные PDF
Некоторые PDF содержат сочетание цифрового текста и отсканированных изображений. Инструмент извлекает все текстовые данные, доступные в структуре файла.
Совет Для лучших результатов извлечения из отсканированных документов убедитесь, что скан имеет разрешение не менее 300 DPI и текст хорошо читаем. Перекошенные или размытые сканы дают результат более низкого качества.
Типичные случаи использования
- Цитирование текста в письме или документе: извлеките точную формулировку из PDF-отчёта или статьи.
- Поиск по содержимому: после извлечения вы можете использовать функцию поиска текстового редактора для нахождения конкретных фрагментов.
- Ввод данных: извлеките текст из PDF-форм или счетов в электронную таблицу.
- Доступность: конвертируйте содержимое PDF в обычный текст для программ чтения с экрана или синтеза речи.
- Перевод: извлеките текст, вставьте его в инструмент перевода и переведите содержимое.
Советы для чистых результатов
Проверяйте разрывы строк: при извлечении текста из PDF иногда вставляются разрывы строк посреди предложений, потому что оригинальный PDF использует колонки фиксированной ширины. Возможно, придётся поправить разрывы строк в текстовом редакторе.
Обратите внимание на колонтитулы: повторяющиеся верхние и нижние колонтитулы, а также номера страниц из PDF появятся в извлечённом тексте. Удалите их вручную, если они загромождают результат.
Таблицы могут потерять структуру: текст в PDF-таблицах извлекается слева направо, сверху вниз. Выравнивание столбцов может не сохраниться в обычном тексте. Для табличных данных, возможно, потребуется вручную реорганизовать их в электронной таблице.
Важно Если PDF защищён паролем и копирование ограничено, инструмент может не извлечь текст. Сначала необходимо снять ограничения PDF.
Часто задаваемые вопросы
Можно ли извлечь текст только с определённых страниц? Инструмент извлекает текст из всего документа. Если вам нужен текст только с определённых страниц, сначала используйте инструмент PDF Page Delete, чтобы выделить нужные страницы, а затем извлеките текст из обрезанного файла.
Сохраняется ли форматирование? На выходе получается обычный текст. Жирный шрифт, курсив, цвета и макет не сохраняются. Вы получаете необработанные слова и абзацы.
Можно ли извлечь текст из файла изображения? Этот инструмент работает с PDF-файлами. Для извлечения текста из отдельных изображений (JPG, PNG) потребуется специализированный инструмент OCR.
Дальнейшие шаги
Теперь, когда у вас есть текст, вы можете вернуться к оригинальному PDF и удалить ненужные страницы, сжать его или очистить метаданные перед отправкой.