Nejde kopírovat text z PDF? Zde je proč a jak to vyřešit

Extrakce textu z PDF, když kopírování nefunguje

Otevřete PDF, pokusíte se vybrat text a nic se nestane. Kurzor nic neoznačí. Nebo se vám podaří text vybrat a zkopírovat, vložíte ho do dokumentu a dostanete změť náhodných znaků a rozbitého formátování.

Jde o jednu z nejčastějších frustrací s PDF a děje se to častěji, než byste čekali. Dobrou zprávou je, že řešení téměř vždy existuje.

90%Kancelářských dokumentů končí jako PDF

40%+PDF jsou naskenované obrázky

3Hlavní důvody selhání kopírování

Proč kopírování z PDF selhává

Ne všechna PDF jsou si rovna. Důvod, proč text nelze zkopírovat, závisí na tom, jak bylo PDF vytvořeno.

Důvod 1: PDF je naskenovaný obrázek

Toto je nejčastější příčina. Když naskenujete papírový dokument, skener pořídí fotografii každé stránky. Výsledné PDF obsahuje obrázky, nikoli text. Pro vaše oči vidíte slova na stránce. Pro počítač jsou to jen pixely, nic jiného než fotografie.

Naskenované PDF obvykle poznáte přiblížením. Pokud se text při vysokém přiblížení stane pixelovaným nebo zrnitým, jde o obrázek. Textová PDF zůstávají ostrá při jakémkoli přiblížení.

Věděli jste? PDF může obsahovat směs skutečného textu a naskenovaných obrázků na téže stránce. Některé skenery provádějí základní OCR (optické rozpoznávání znaků) a vkládají neviditelnou textovou vrstvu za obrázek, takže text je volitelný i přesto, že viditelný obsah je sken.

Důvod 2: PDF je chráněno

Autoři PDF mohou nastavit oprávnění omezující, co mohou uživatelé s dokumentem dělat. Jedním z běžných omezení je zakázání výběru a kopírování textu. Používá se to u chráněných materiálů, zkušebních materiálů nebo proprietárních reportů.

Pokud je PDF chráněno proti kopírování, text obvykle vidíte a čtete, ale kurzorem ho nevyberete nebo je funkce kopírování zašedlá.

Důvod 3: Poškozené kódování textu

Některá PDF používají vlastní kódování písem nebo vložené podmnožiny, které nejsou mapovány na standardní znaky. Text je technicky přítomen a lze ho vybrat, ale po vložení jinam dostanete nerozlušitelný výstup jako „Wkh txlfn eurzq ira" místo „The quick brown fox."

Nejčastěji k tomu dochází u PDF generovaných starším softwarem, určitými konfiguracemi LaTeXu nebo designovými nástroji, které převádějí text na obrysy.

Pochopení dvou typů PDF

Abychom mohli problém vyřešit, je třeba pochopit základní rozdíl mezi dvěma hlavními typy obsahu PDF.

Textová PDF (digitálně nativní)

Tato jsou vytvořena přímo z textového editoru, tabulky, webové stránky nebo designové aplikace. Text existuje jako skutečná znaková data v souboru. Tato PDF jsou prohledávatelná, volitelná a mívají menší velikost souboru.

Příklady: Dokumenty exportované z Wordu, Google Dokumentů nebo webových prohlížečů pomocí „Tisk do PDF."

Obrazová PDF (naskenovaná)

Obsahují fotografie stránek. V souboru nejsou žádná skutečná textová data. Každá stránka je v podstatě obrázek. Tato PDF nejsou prohledávatelná ani volitelná a bývají mnohem větší.

Příklady: Dokumenty z plochého skeneru, z aplikace pro skenování telefonem nebo ze služby fax-na-PDF.

Otevřete PDF

Zkuste vybrat text

Text se vybírá čistě?

Kopírujte a vložte

Pokud se text nevybere nebo se po vložení zobrazí chybně, potřebujete nástroj pro extrakci textu.

Jak extrahovat text, když kopírování selže

Pro naskenovaná PDF: OCR

Optické rozpoznávání znaků (OCR) je technologie, která čte text z obrázků. Moderní OCR enginy jsou pozoruhodně přesné, zejména u čistě vytištěných dokumentů. Analyzují tvary znaků v obrázku a převádějí je na upravitelný text.

OCR funguje nejlépe, když:

Dokument je tištěný (ne ručně psaný)
Kvalita skenu je přiměřená (150 DPI nebo více)
Text je v běžném jazyce
Stránka není silně zkosená nebo otočená

Varování OCR není dokonalé. Může mít problémy s ručním písmem, neobvyklými písmy, nízkokvalitními skeny nebo dokumenty se složitými rozvženími (jako vícekolumnový text s tabulkami a obrázky). Výstup OCR vždy zkontrolujte před použitím v důležitých dokumentech.

Pro chráněná PDF

Pokud má PDF omezení kopírování, nástroj pro extrakci textu dokáže často přečíst podkladová textová data bez ohledu na nastavení oprávnění. Text je stále v souboru; zakázaná je jen funkce kopírování ve standardních čtečkách PDF.

Pro problémy s kódováním

Pokud text existuje, ale je nečitelný, nástroje pro extrakci mohou někdy správně interpretovat mapování znaků a produkovat čistý výstup. Pokud to selže, OCR může stránku zpracovat jako obrázek a znovu rozpoznat znaky.

Praktické tipy pro lepší extrakci textu

Nejprve zkontrolujte zdroj. Než extrahujete text z PDF, zjistěte, zda nemůžete získat původní dokument. Pokud vám někdo poslal PDF z Wordového dokumentu, požádejte o Wordový soubor.
Zlepšete kvalitu skenu. Pokud sami skenujete dokument, použijte alespoň 200 DPI a ujistěte se, že papír je rovný a dobře osvětlený. Stíny, záhyby a nízké rozlišení snižují přesnost OCR.
Narovnejte zkosené stránky. Pokud je sken otočený nebo zkosený, před spuštěním OCR ho vyrovnejte. Většina skenovacích aplikací má možnost narovnání.
Zkuste celý dokument, ne jen stránku. Některé nástroje fungují lépe, když zpracují celý dokument najednou, protože kontext ze sousedních stránek pomáhá zlepšit přesnost.
Zkontrolujte výsledky. Výstup OCR je třeba vždy zkontrolovat. Mezi typické chyby patří záměna „l" za „1", „O" za „0" a chybné čtení interpunkce.

Tip Text z libovolného PDF, včetně naskenovaných dokumentů, lze extrahovat zdarma přímo v prohlížeči. Náš nástroj automaticky zpracovává textová i obrázkápdf.

Co s extrahovaným textem

Jakmile máte text, otevírají se možnosti:

Upravte obsah v textovém editoru
Vyhledávejte konkrétní informace bez procházení stránek
Přeložte text do jiného jazyka
Přeformátujte obsah pro jiný dokument nebo prezentaci
Analyzujte data z tabulek a formulářů
Vytvořte přístupné verze dokumentů pro čtečky obrazovky

Běžné příklady použití

Studenti extrahující text z odborných prací a učebnic pro poznámky
Právníci vytahující klauzule z naskenovaných smluv pro srovnání
Účetní extrahující data z naskenovaných faktur a účtenek
Vědci digitalizující staré tištěné materiály pro analýzu
Administrativní pracovníci převádějící naskenované formuláře do upravitelných dokumentů

Potřebujete extrahovat text z PDF právě teď? Postupujte podle průvodce krok za krokem: Jak extrahovat text z PDF. Funguje pro textová i naskenovaná PDF přímo ve vašem prohlížeči.

Extrakce textu z PDF, když kopírování nefunguje

Jde o jednu z nejčastějších frustrací s PDF a děje se to častěji, než byste čekali. Dobrou zprávou je, že řešení téměř vždy existuje.

90%Kancelářských dokumentů končí jako PDF

40%+PDF jsou naskenované obrázky

3Hlavní důvody selhání kopírování

Proč kopírování z PDF selhává

Ne všechna PDF jsou si rovna. Důvod, proč text nelze zkopírovat, závisí na tom, jak bylo PDF vytvořeno.

Důvod 1: PDF je naskenovaný obrázek

Důvod 2: PDF je chráněno

Pokud je PDF chráněno proti kopírování, text obvykle vidíte a čtete, ale kurzorem ho nevyberete nebo je funkce kopírování zašedlá.

Důvod 3: Poškozené kódování textu

Nejčastěji k tomu dochází u PDF generovaných starším softwarem, určitými konfiguracemi LaTeXu nebo designovými nástroji, které převádějí text na obrysy.

Pochopení dvou typů PDF

Abychom mohli problém vyřešit, je třeba pochopit základní rozdíl mezi dvěma hlavními typy obsahu PDF.

Textová PDF (digitálně nativní)

Příklady: Dokumenty exportované z Wordu, Google Dokumentů nebo webových prohlížečů pomocí „Tisk do PDF."

Obrazová PDF (naskenovaná)

Příklady: Dokumenty z plochého skeneru, z aplikace pro skenování telefonem nebo ze služby fax-na-PDF.

Otevřete PDF

Zkuste vybrat text

Text se vybírá čistě?

Kopírujte a vložte

Pokud se text nevybere nebo se po vložení zobrazí chybně, potřebujete nástroj pro extrakci textu.

Jak extrahovat text, když kopírování selže

Pro naskenovaná PDF: OCR

OCR funguje nejlépe, když:

Dokument je tištěný (ne ručně psaný)
Kvalita skenu je přiměřená (150 DPI nebo více)
Text je v běžném jazyce
Stránka není silně zkosená nebo otočená

Pro chráněná PDF

Pro problémy s kódováním

Praktické tipy pro lepší extrakci textu

Nejprve zkontrolujte zdroj. Než extrahujete text z PDF, zjistěte, zda nemůžete získat původní dokument. Pokud vám někdo poslal PDF z Wordového dokumentu, požádejte o Wordový soubor.
Zlepšete kvalitu skenu. Pokud sami skenujete dokument, použijte alespoň 200 DPI a ujistěte se, že papír je rovný a dobře osvětlený. Stíny, záhyby a nízké rozlišení snižují přesnost OCR.
Narovnejte zkosené stránky. Pokud je sken otočený nebo zkosený, před spuštěním OCR ho vyrovnejte. Většina skenovacích aplikací má možnost narovnání.
Zkuste celý dokument, ne jen stránku. Některé nástroje fungují lépe, když zpracují celý dokument najednou, protože kontext ze sousedních stránek pomáhá zlepšit přesnost.
Zkontrolujte výsledky. Výstup OCR je třeba vždy zkontrolovat. Mezi typické chyby patří záměna „l" za „1", „O" za „0" a chybné čtení interpunkce.

Tip Text z libovolného PDF, včetně naskenovaných dokumentů, lze extrahovat zdarma přímo v prohlížeči. Náš nástroj automaticky zpracovává textová i obrázkápdf.

Co s extrahovaným textem

Jakmile máte text, otevírají se možnosti:

Upravte obsah v textovém editoru
Vyhledávejte konkrétní informace bez procházení stránek
Přeložte text do jiného jazyka
Přeformátujte obsah pro jiný dokument nebo prezentaci
Analyzujte data z tabulek a formulářů
Vytvořte přístupné verze dokumentů pro čtečky obrazovky

Běžné příklady použití

Studenti extrahující text z odborných prací a učebnic pro poznámky
Právníci vytahující klauzule z naskenovaných smluv pro srovnání
Účetní extrahující data z naskenovaných faktur a účtenek
Vědci digitalizující staré tištěné materiály pro analýzu
Administrativní pracovníci převádějící naskenované formuláře do upravitelných dokumentů

Potřebujete extrahovat text z PDF právě teď? Postupujte podle průvodce krok za krokem: Jak extrahovat text z PDF. Funguje pro textová i naskenovaná PDF přímo ve vašem prohlížeči.