PDF🔒 Bezi ve vasem prohlizeci

Extraktor textu (OCR)

Extrahujte text z naskenovaných PDF a obrázků pomocí OCR (optického rozpoznávání znaků)

📝

Přetáhněte PDF sem nebo klikněte pro výběr

.pdf, .png, .jpg, .jpeg, .webp, .tiff, .bmp

Případy použití

Digitalizujte stoh starých papírových faktur pro účetnické vyhledávání a archivaci.
Učiňte naskenovanou učebnici plnotextově prohledávatelnou pro studium.
Extrahujte text z naskenované smlouvy pro zkopírování klauzule do konceptu.
Připravte naskenovaný dokument k překladu nejprve extrakcí jeho textu.
Převeďte skeny účtenek na textová pole před vložením do tabulky pro sledování výdajů.

O nástroji Extraktor textu (OCR)

PDF OCR používá Tesseract.js běžící ve vašem prohlížeči k rozpoznávání textu uvnitř skenovaných PDF nebo PDF založených na obrázcích. Můžete extrahovat prostý text, vytvořit prohledávatelný PDF, kde je rozpoznaný text vrstven za originální obraz, nebo exportovat dokument DOCX. Vše běží lokálně — žádné dokumenty se nikam nenahrávají.

Často kladené otázky

Jaké jazyky jsou podporovány?

Přes Tesseract.js je podporováno přes 100 jazyků, včetně angličtiny, francouzštiny, španělštiny, němčiny, čínštiny, japonštiny, arabštiny a mnoha dalších. Můžete také spustit vícejazyčné OCR výběrem několika jazyků najednou.

Je moje PDF nahráno na server?

Ne. Rozpoznávání textu probíhá zcela ve vašem prohlížeči pomocí WebAssembly. Vaše soubory nikdy neopustí vaše zařízení.

Jaké výstupní formáty jsou k dispozici?

Rozpoznaný text je k dispozici jako prostý text (.txt). Po dokončení OCR jej můžete zkopírovat nebo stáhnout.

Co znamená OCR?

OCR je zkratka pro Optical Character Recognition (optické rozpoznávání znaků). Jde o technologii, která detekuje tvary písmen v obrázcích nebo naskenovaných dokumentech a převádí je na skutečný, upravitelný a prohledávatelný digitální text. Bez OCR je naskenovaná stránka jen obrázkem; s OCR můžete obsah kopírovat, prohledávat, překládat a upravovat.

Proč je OCR pomalejší, než se očekává?

Tesseract.js načte 4–10 MB jazykový model při prvním použití a spouští průchody počítačového vidění na stránku v hlavním vlákně prohlížeče. Očekávejte ~3–8 sekund na stránku na moderním notebooku, déle na telefonech nebo u velkých dokumentů. Indikátor průběhu se aktualizuje živě, takže můžete plánovat odpovídajícím způsobem. Následující stránky jsou rychlejší, protože model zůstává v paměti.

🔧 Související nástroje

Případy použití

Digitalizujte stoh starých papírových faktur pro účetnické vyhledávání a archivaci.

Učiňte naskenovanou učebnici plnotextově prohledávatelnou pro studium.

Extrahujte text z naskenované smlouvy pro zkopírování klauzule do konceptu.

Připravte naskenovaný dokument k překladu nejprve extrakcí jeho textu.

Převeďte skeny účtenek na textová pole před vložením do tabulky pro sledování výdajů.