Extrakce textu z PDF, když kopírování nefunguje
Otevřete PDF, pokusíte se vybrat text a nic se nestane. Kurzor nic neoznačí. Nebo se vám podaří text vybrat a zkopírovat, vložíte ho do dokumentu a dostanete změť náhodných znaků a rozbitého formátování.
Jde o jednu z nejčastějších frustrací s PDF a děje se to častěji, než byste čekali. Dobrou zprávou je, že řešení téměř vždy existuje.
Proč kopírování z PDF selhává
Ne všechna PDF jsou si rovna. Důvod, proč text nelze zkopírovat, závisí na tom, jak bylo PDF vytvořeno.
Důvod 1: PDF je naskenovaný obrázek
Toto je nejčastější příčina. Když naskenujete papírový dokument, skener pořídí fotografii každé stránky. Výsledné PDF obsahuje obrázky, nikoli text. Pro vaše oči vidíte slova na stránce. Pro počítač jsou to jen pixely, nic jiného než fotografie.
Naskenované PDF obvykle poznáte přiblížením. Pokud se text při vysokém přiblížení stane pixelovaným nebo zrnitým, jde o obrázek. Textová PDF zůstávají ostrá při jakémkoli přiblížení.
Věděli jste? PDF může obsahovat směs skutečného textu a naskenovaných obrázků na téže stránce. Některé skenery provádějí základní OCR (optické rozpoznávání znaků) a vkládají neviditelnou textovou vrstvu za obrázek, takže text je volitelný i přesto, že viditelný obsah je sken.
Důvod 2: PDF je chráněno
Autoři PDF mohou nastavit oprávnění omezující, co mohou uživatelé s dokumentem dělat. Jedním z běžných omezení je zakázání výběru a kopírování textu. Používá se to u chráněných materiálů, zkušebních materiálů nebo proprietárních reportů.
Pokud je PDF chráněno proti kopírování, text obvykle vidíte a čtete, ale kurzorem ho nevyberete nebo je funkce kopírování zašedlá.
Důvod 3: Poškozené kódování textu
Některá PDF používají vlastní kódování písem nebo vložené podmnožiny, které nejsou mapovány na standardní znaky. Text je technicky přítomen a lze ho vybrat, ale po vložení jinam dostanete nerozlušitelný výstup jako „Wkh txlfn eurzq ira" místo „The quick brown fox."
Nejčastěji k tomu dochází u PDF generovaných starším softwarem, určitými konfiguracemi LaTeXu nebo designovými nástroji, které převádějí text na obrysy.
Pochopení dvou typů PDF
Abychom mohli problém vyřešit, je třeba pochopit základní rozdíl mezi dvěma hlavními typy obsahu PDF.
Textová PDF (digitálně nativní)
Tato jsou vytvořena přímo z textového editoru, tabulky, webové stránky nebo designové aplikace. Text existuje jako skutečná znaková data v souboru. Tato PDF jsou prohledávatelná, volitelná a mívají menší velikost souboru.
Příklady: Dokumenty exportované z Wordu, Google Dokumentů nebo webových prohlížečů pomocí „Tisk do PDF."
Obrazová PDF (naskenovaná)
Obsahují fotografie stránek. V souboru nejsou žádná skutečná textová data. Každá stránka je v podstatě obrázek. Tato PDF nejsou prohledávatelná ani volitelná a bývají mnohem větší.
Příklady: Dokumenty z plochého skeneru, z aplikace pro skenování telefonem nebo ze služby fax-na-PDF.
Pokud se text nevybere nebo se po vložení zobrazí chybně, potřebujete nástroj pro extrakci textu.
Jak extrahovat text, když kopírování selže
Pro naskenovaná PDF: OCR
Optické rozpoznávání znaků (OCR) je technologie, která čte text z obrázků. Moderní OCR enginy jsou pozoruhodně přesné, zejména u čistě vytištěných dokumentů. Analyzují tvary znaků v obrázku a převádějí je na upravitelný text.
OCR funguje nejlépe, když:
- Dokument je tištěný (ne ručně psaný)
- Kvalita skenu je přiměřená (150 DPI nebo více)
- Text je v běžném jazyce
- Stránka není silně zkosená nebo otočená
Varování OCR není dokonalé. Může mít problémy s ručním písmem, neobvyklými písmy, nízkokvalitními skeny nebo dokumenty se složitými rozvženími (jako vícekolumnový text s tabulkami a obrázky). Výstup OCR vždy zkontrolujte před použitím v důležitých dokumentech.
Pro chráněná PDF
Pokud má PDF omezení kopírování, nástroj pro extrakci textu dokáže často přečíst podkladová textová data bez ohledu na nastavení oprávnění. Text je stále v souboru; zakázaná je jen funkce kopírování ve standardních čtečkách PDF.
Pro problémy s kódováním
Pokud text existuje, ale je nečitelný, nástroje pro extrakci mohou někdy správně interpretovat mapování znaků a produkovat čistý výstup. Pokud to selže, OCR může stránku zpracovat jako obrázek a znovu rozpoznat znaky.
Praktické tipy pro lepší extrakci textu
Nejprve zkontrolujte zdroj. Než extrahujete text z PDF, zjistěte, zda nemůžete získat původní dokument. Pokud vám někdo poslal PDF z Wordového dokumentu, požádejte o Wordový soubor.
Zlepšete kvalitu skenu. Pokud sami skenujete dokument, použijte alespoň 200 DPI a ujistěte se, že papír je rovný a dobře osvětlený. Stíny, záhyby a nízké rozlišení snižují přesnost OCR.
Narovnejte zkosené stránky. Pokud je sken otočený nebo zkosený, před spuštěním OCR ho vyrovnejte. Většina skenovacích aplikací má možnost narovnání.
Zkuste celý dokument, ne jen stránku. Některé nástroje fungují lépe, když zpracují celý dokument najednou, protože kontext ze sousedních stránek pomáhá zlepšit přesnost.
Zkontrolujte výsledky. Výstup OCR je třeba vždy zkontrolovat. Mezi typické chyby patří záměna „l" za „1", „O" za „0" a chybné čtení interpunkce.
Tip Text z libovolného PDF, včetně naskenovaných dokumentů, lze extrahovat zdarma přímo v prohlížeči. Náš nástroj automaticky zpracovává textová i obrázkápdf.
Co s extrahovaným textem
Jakmile máte text, otevírají se možnosti:
- Upravte obsah v textovém editoru
- Vyhledávejte konkrétní informace bez procházení stránek
- Přeložte text do jiného jazyka
- Přeformátujte obsah pro jiný dokument nebo prezentaci
- Analyzujte data z tabulek a formulářů
- Vytvořte přístupné verze dokumentů pro čtečky obrazovky
Běžné příklady použití
- Studenti extrahující text z odborných prací a učebnic pro poznámky
- Právníci vytahující klauzule z naskenovaných smluv pro srovnání
- Účetní extrahující data z naskenovaných faktur a účtenek
- Vědci digitalizující staré tištěné materiály pro analýzu
- Administrativní pracovníci převádějící naskenované formuláře do upravitelných dokumentů
Potřebujete extrahovat text z PDF právě teď? Postupujte podle průvodce krok za krokem: Jak extrahovat text z PDF. Funguje pro textová i naskenovaná PDF přímo ve vašem prohlížeči.