PDF🔒 Работает в браузере

Извлечение текста (OCR)

Извлекайте текст из сканов PDF и изображений с помощью OCR (оптического распознавания символов)

📝

Перетащите PDF сюда или нажмите для выбора

.pdf, .png, .jpg, .jpeg, .webp, .tiff, .bmp

Примеры использования

Оцифруйте стопку старых бумажных счетов для бухгалтерского поиска и хранения.
Сделайте отсканированный учебник полнотекстово ищущимся для учёбы.
Извлеките текст из отсканированного контракта, чтобы скопировать пункт в черновик.
Подготовьте отсканированный документ к переводу, сначала извлекая его текст.
Преобразуйте сканы чеков в текстовые поля перед вставкой в таблицу учёта расходов.

О Извлечение текста (OCR)

PDF OCR использует Tesseract.js, работающий в вашем браузере, для распознавания текста внутри отсканированных или основанных на изображениях PDF. Вы можете извлечь обычный текст, создать PDF с возможностью поиска, где распознанный текст накладывается за оригинальное изображение, или экспортировать DOCX. Всё работает локально — никакие документы не загружаются.

Часто задаваемые вопросы

Какие языки поддерживаются?

Через Tesseract.js поддерживается более 100 языков, включая английский, французский, испанский, немецкий, китайский, японский, арабский и многие другие. Вы также можете запустить многоязычный OCR, выбрав сразу несколько языков.

Загружается ли мой PDF на сервер?

Нет. Распознавание текста происходит полностью в вашем браузере через WebAssembly. Ваши файлы никогда не покидают устройство.

Какие форматы вывода доступны?

Распознанный текст доступен в виде обычного текста (.txt). Его можно скопировать или скачать после завершения OCR.

Что означает OCR?

OCR расшифровывается как Optical Character Recognition (оптическое распознавание символов). Технология определяет форму букв на изображениях или сканах документов и преобразует их в настоящий цифровой текст, который можно редактировать и искать. Без OCR скан — это просто картинка; с OCR вы можете копировать, искать, переводить и редактировать содержимое.

Почему OCR работает медленнее, чем ожидалось?

Tesseract.js загружает языковую модель размером 4–10 МБ при первом использовании и выполняет проходы компьютерного зрения для каждой страницы в основном потоке браузера. Ожидайте ~3–8 секунд на страницу на современном ноутбуке, дольше на телефонах или для больших документов. Прогресс-бар обновляется в реальном времени, чтобы вы могли планировать. Последующие страницы быстрее, поскольку модель остаётся в памяти.

🔧 Похожие инструменты

Примеры использования

Оцифруйте стопку старых бумажных счетов для бухгалтерского поиска и хранения.

Сделайте отсканированный учебник полнотекстово ищущимся для учёбы.

Извлеките текст из отсканированного контракта, чтобы скопировать пункт в черновик.

Подготовьте отсканированный документ к переводу, сначала извлекая его текст.

Преобразуйте сканы чеков в текстовые поля перед вставкой в таблицу учёта расходов.