Вилучення тексту з PDF, коли копіювання не працює
Ви відкриваєте PDF, намагаєтесь виділити текст — і нічого не відбувається. Курсор нічого не підсвічує. Або, що ще гірше, вам вдається виділити та скопіювати текст, але при вставці в документ ви отримуєте мішанину випадкових символів і зламане форматування.
Це одна з найпоширеніших PDF-проблем, і вона трапляється частіше, ніж можна подумати. Хороша новина: майже завжди є вирішення.
Чому копіювання в PDF не спрацьовує
Не всі PDF однакові. Причина неможливості скопіювати текст залежить від того, як був створений PDF.
Причина 1: PDF — це скановане зображення
Це найпоширеніша причина. Коли ви скануєте паперовий документ, сканер робить фотографію кожної сторінки. Отриманий PDF містить зображення, а не текст. На ваш погляд ви бачите слова на сторінці. Для комп'ютера — це просто пікселі, нічим не відмінні від фотографії.
Зазвичай відсканований PDF можна розпізнати, якщо збільшити масштаб. Якщо текст стає піксельним або розмитим при великому масштабі — це зображення. Текстові PDF залишаються чіткими при будь-якому масштабі.
Чи знали ви? PDF може містити поєднання реального тексту та сканованих зображень на одній сторінці. Деякі сканери виконують базове OCR (оптичне розпізнавання символів) і вбудовують невидимий текстовий шар за зображенням, що робить текст виділеним, навіть якщо видимий вміст є скановане зображення.
Причина 2: PDF захищений
Автори PDF можуть встановлювати обмеження на те, що користувачі можуть робити з документом. Одне з поширених обмежень — заборона виділення тексту та копіювання. Це часто використовується для захищених авторськими правами матеріалів, екзаменаційних робіт або пропрієтарних звітів.
Коли PDF захищений від копіювання, ви зазвичай можете бачити і читати текст, але курсор його не виділяє, або функція копіювання недоступна.
Причина 3: Кодування тексту зламане
Деякі PDF використовують нестандартні кодування шрифтів або вбудовані підмножини, які не відповідають стандартним символам. Текст технічно є, і його можна виділити, але при вставці в інше місце ви отримуєте зашифровані символи на кшталт «Wkh txlfn eurzq ira» замість «The quick brown fox».
Це найчастіше трапляється з PDF, створеними старим програмним забезпеченням, певними конфігураціями LaTeX або інструментами дизайну, що перетворюють текст на контури.
Розуміння двох типів PDF
Щоб вирішити проблему, корисно зрозуміти принципову різницю між двома основними типами PDF-контенту.
Текстові PDF (цифрові)
Створені безпосередньо з текстового редактора, таблиці, веб-сторінки або програми. Текст існує як реальні символьні дані у файлі. Такі PDF можна шукати, виділяти в них текст, і вони зазвичай мають невеликий розмір файлу.
Приклади: Документи, експортовані з Word, Google Docs або веб-браузерів через «Друк у PDF».
Зображень PDF (скановані)
Містять фотографії сторінок. Реальних текстових даних у файлі немає. Кожна сторінка — по суті малюнок. Такі PDF неможливо шукати, у них не можна виділити текст, і вони зазвичай набагато більші.
Приклади: Документи зі стаціонарного сканера, додатка для сканування телефоном або сервісу факс-у-PDF.
Якщо текст не виділяється або вставляється некоректно, вам потрібен інструмент для вилучення тексту.
Як витягти текст, коли копіювання не працює
Для сканованих PDF: OCR
Оптичне розпізнавання символів (OCR) — це технологія, що читає текст із зображень. Сучасні OCR-движки напрочуд точні, особливо для чітко надрукованих документів. Вони аналізують форми символів на зображенні та перетворюють їх на редагований текст.
OCR найкраще працює, коли:
- Документ надрукований (не рукописний)
- Якість сканування прийнятна (150 DPI або вище)
- Текст написаний поширеною мовою
- Сторінка не сильно перекошена або повернута
Увага OCR не є ідеальним. Він може мати труднощі з рукописним текстом, незвичайними шрифтами, низькоякісними сканами або документами зі складним макетом (багатоколонний текст із таблицями та зображеннями). Завжди перевіряйте результат OCR перед використанням у важливих документах.
Для захищених PDF
Якщо PDF має обмеження на копіювання, інструмент для вилучення тексту часто може прочитати базові текстові дані незалежно від налаштувань дозволів. Текст присутній у файлі — заблокована лише функція копіювання у стандартних переглядачах PDF.
При проблемах кодування
Якщо текст існує, але спотворений, інструменти вилучення іноді можуть правильно інтерпретувати символьні таблиці та отримати чистий результат. Якщо це не допомагає, OCR може обробити сторінку як зображення та повторно розпізнати символи.
Практичні поради для кращого вилучення тексту
Спочатку перевірте джерело. Перш ніж вилучати текст із PDF, перевірте, чи можете ви отримати оригінальний документ. Якщо хтось надіслав PDF документа Word — попросіть файл Word.
Покращте якість сканування. Якщо скануєте самостійно, використовуйте не менше 200 DPI і переконайтесь, що папір рівний і добре освітлений. Тіні, зморшки та низька роздільна здатність знижують точність OCR.
Вирівнюйте перекошені сторінки. Якщо скан перекошений або повернутий, виправте це перед запуском OCR. Більшість додатків для сканування мають функцію вирівнювання.
Обробляйте весь документ, а не лише одну сторінку. Деякі інструменти краще справляються, коли можуть обробляти весь документ цілком, бо контекст сусідніх сторінок допомагає підвищити точність.
Перевіряйте результати. Результат OCR завжди потрібно переглядати. Поширені помилки: плутанина «l» з «1», «O» з «0», неправильне читання пунктуації.
Порада Ви можете безкоштовно вилучати текст із будь-якого PDF — включно зі сканованими документами — прямо у браузері. Наш інструмент автоматично обробляє як текстові, так і PDF на основі зображень.
Що можна робити з вилученим текстом
Коли текст отримано, відкриваються різні можливості:
- Редагувати контент у текстовому редакторі
- Шукати конкретну інформацію без прокручування сторінок
- Перекладати текст іншою мовою
- Переформатовувати контент для іншого документа або презентації
- Аналізувати дані з таблиць і форм
- Створювати доступні версії документів для зчитувачів екрана
Поширені сценарії використання
- Студенти вилучають текст з наукових статей і підручників для конспектів
- Юристи виймають пункти зі сканованих контрактів для порівняння
- Бухгалтери вилучають дані зі сканованих рахунків і квитанцій
- Дослідники оцифровують старі друковані матеріали для аналізу
- Адміністративний персонал конвертує скановані форми в редаговані документи
Потрібно вилучити текст із PDF прямо зараз? Дотримуйтесь нашого покрокового посібника: Як вилучити текст із PDF. Працює як із текстовими, так і зі сканованими PDF, прямо у вашому браузері.