Nem tudod másolni a szöveget PDF-ből? Íme az ok és a megoldás

Szöveg kinyerése PDF-ből, amikor a másolás-beillesztés nem működik

Megnyitsz egy PDF-et, megpróbálsz szöveget kijelölni, és nem történik semmi. A kurzor nem jelöl ki semmit. Vagy ami még rosszabb, sikerül kijelölni és másolni a szöveget, beilleszted egy dokumentumba, és véletlenszerű karakterek és törött formázás kaotikus keverékét kapod.

Ez az egyik leggyakoribb PDF-bosszúság, és sokkal gyakrabban fordul elő, mint gondolnád. A jó hír az, hogy szinte mindig van megoldás.

90%Az irodai dokumentumok PDF-ként végzik

40%+A PDF-ek szkennelt képek

3Fő ok, amiért a másolás nem sikerül

Miért nem sikerül a másolás PDF-ekben?

Nem minden PDF egyforma. Az ok, amiért nem tudod másolni a szöveget, attól függ, hogyan készült a PDF.

1. ok: A PDF szkennelt kép

Ez a leggyakoribb ok. Amikor beszkennelünk egy papírdokumentumot, a szkenner lefotózza az egyes oldalakat. A kapott PDF képeket tartalmaz, nem szöveget. A szemünkkel szavakat látunk az oldalon. A számítógépnek csak pixelek vannak, nem különbözik egy fényképtől.

Általában felismerhető egy szkennelt PDF, ha nagyítasz rá. Ha a szöveg pixelessé vagy szemcséssé válik nagy nagyításnál, kép. A szövegalapú PDF-ek bármely nagyítási szinten élesek maradnak.

Tudtad? Egy PDF tartalmazhat tényleges szöveget és szkennelt képeket keverve, ugyanazon az oldalon. Néhány szkenner alapszintű OCR-t végez, és láthatatlan szövegréteget ágyaz be a kép mögé, így a szöveg kijelölhetővé válik, annak ellenére, hogy a látható tartalom egy szkennelés.

2. ok: A PDF védett

A PDF-szerzők olyan jogosultságokat állíthatnak be, amelyek korlátozzák, mit tehetnek a felhasználók a dokumentummal. Az egyik általános korlátozás a szövegkijelölés és -másolás letiltása. Ezt gyakran szerzői joggal védett anyagoknál, vizsgadolgozatoknál vagy üzleti jellegű jelentéseknél alkalmazzák.

Ha egy PDF másolás ellen védett, általában láthatod és elolvashatod a szöveget, de a kurzor nem jelöli ki, vagy a másolás funkció el van szürkítve.

3. ok: A szövegkódolás törött

Egyes PDF-ek egyéni betűtípus-kódolásokat vagy beágyazott részhalmazokat használnak, amelyek nem képezhetők le standard karakterekre. A szöveg technikailag ott van, ki is tudod jelölni, de amikor beilleszted máshova, összekavart kimenetet kapsz, mint „Wkh txlfn eurzq ira" a „The quick brown fox" helyett.

Ez leginkább régebbi szoftverrel, bizonyos LaTeX-konfigurációkkal vagy tervező eszközökkel generált PDF-eknél fordul elő, amelyek körvonalakká alakítják a szöveget.

A kétféle PDF megértése

A probléma megoldásához érdemes megérteni a PDF-tartalom két fő típusa közötti alapvető különbséget.

Szövegalapú PDF-ek (digitálisan készültek)

Ezeket közvetlenül szövegszerkesztőből, táblázatból, weboldalból vagy tervező alkalmazásból hozták létre. A szöveg tényleges karakteradatként létezik a fájlban. Ezek a PDF-ek kereshetők, kijelölhetők, és általában kis méretűek.

Példák: Word, Google Docs vagy webböngészőkből „Nyomtatás PDF-be" funkcióval exportált dokumentumok.

Képalapú PDF-ek (szkenneltek)

Ezek oldalak fényképeit tartalmazzák. A fájlban nincs tényleges szöveges adat. Minden oldal lényegében egy kép. Ezek a PDF-ek nem kereshetők, nem jelölhetők ki, és általában sokkal nagyobbak.

Példák: Lapágyazós szkennerről, telefonos szkenner alkalmazásból vagy fax-PDF szolgáltatásból származó dokumentumok.

PDF megnyitása

Szöveg kijelölésének megkísérlése

A szöveg rendesen kijelölhető?

Másolás és beillesztés

Ha a szöveg nem jelölhető ki, vagy helytelenül illeszthető be, szövegkinyerő eszközre van szükség.

Hogyan kinyerhetünk szöveget, ha a másolás nem működik?

Szkennelt PDF-ekhez: OCR

Az optikai karakterfelismerés (OCR) az a technológia, amely szöveget olvas képekből. A modern OCR-motorok rendkívül pontosak, különösen tisztán nyomtatott dokumentumoknál. Elemzik a karakterek alakját a képen, és szerkeszthető szöveggé alakítják azokat.

Az OCR a legjobban működik, ha:

A dokumentum nyomtatott (nem kézzel írott)
A szkennelés minősége elfogadható (150 DPI vagy magasabb)
A szöveg általánosan ismert nyelven van
Az oldal nem erősen ferde vagy elforgatott

Figyelmeztetés Az OCR nem tökéletes. Küszködhet kézírással, szokatlan betűtípusokkal, gyenge minőségű szkennelésekkel vagy összetett elrendezésű dokumentumokkal (például táblázatokat és képeket tartalmazó többoszlopos szöveggel). Mielőtt fontos dokumentumokban felhasználnád, mindig ellenőrizd az OCR-kimenetet.

Védett PDF-ekhez

Ha a PDF másolási korlátozásokat tartalmaz, egy szövegkinyerő eszköz képes felolvasni az alapul szolgáló szöveges adatokat a jogosultsági beállításoktól függetlenül. A szöveg még mindig benne van a fájlban; csak a másolási funkció van letiltva a standard PDF-megjelenítőkben.

Kódolási problémákhoz

Amikor a szöveg megvan, de összekavart, a kinyerő eszközök néha helyesen értelmezni tudják a karakterleképezéseket, és tiszta kimenetet állíthatnak elő. Ha ez nem sikerül, az OCR az oldalt képként kezelve újrafelismerheti a karaktereket.

Praktikus tippek a jobb szövegkinyeréshez

Először ellenőrizd a forrást. Mielőtt szöveget nyersz ki egy PDF-ből, ellenőrizd, hogy megkaphatod-e az eredeti dokumentumot. Ha valaki Word-dokumentum PDF-jét küldte, kérd el a Word-fájlt.
Javítsd a szkennelés minőségét. Ha te magad szkenneled a dokumentumot, legalább 200 DPI-t használj, és győződj meg róla, hogy a papír egyenes és jól megvilágított. Az árnyékok, gyűrődések és alacsony felbontás mind csökkentik az OCR pontosságát.
Egyenesítsd ki a ferde oldalakat. Ha egy szkennelés el van forgatva vagy ferde, egyenesítsd ki az OCR futtatása előtt. A legtöbb szkennelő alkalmazásnak van deskew opciója.
Próbáld meg az egész dokumentumot, ne csak egy oldalt. Néhány eszköz jobban működik, ha az egész dokumentumot egyszerre dolgozza fel, mert a szomszédos oldalak kontextusa javítja a pontosságot.
Ellenőrizd az eredményeket. Az OCR-kimenetet mindig át kell nézni. Tipikus hibák: „l" és „1" felcserélése, „O" és „0" összetévesztése, valamint az írásjelek félreolvasása.

Tipp Bármilyen PDF-ből, beleértve a szkennelt dokumentumokat is, ingyen kinyerhetsz szöveget a böngésződben. Az eszközünk automatikusan kezeli mind a szövegalapú, mind a képalapú PDF-eket.

Mit tehetsz a kinyert szöveggel?

A szöveg megszerzése után a lehetőségek szélesre tárulnak:

Szöveg szerkesztése szövegszerkesztőben
Meghatározott adatok keresése az oldalak görgetése nélkül
Fordítás más nyelvre
Tartalom újraformázása más dokumentumhoz vagy prezentációhoz
Adatok elemzése táblázatokból és formákból
Akadálymentes változatok létrehozása dokumentumokból képernyőolvasók számára

Tipikus felhasználási esetek

Diákok tanulmányi cikkekből és tankönyvekből nyernek ki szöveget
Jogászok kikinyerik a záradékokat szkennelt szerződésekből összehasonlításhoz
Könyvelők adatokat nyernek ki szkennelt számlákból és nyugtákból
Kutatók digitalizálnak régi nyomtatott anyagokat elemzéshez
Adminisztrációs személyzet szkennelt formanyomtatványokat alakít szerkeszthető dokumentumokká

Szöveget kell kinyerned PDF-ből most? Kövesd a lépésről lépésre szóló útmutatónkat: PDF szöveg kinyerése. Működik mind a szövegalapú, mind a szkennelt PDF-eknél, közvetlenül a böngésződben.

Szöveg kinyerése PDF-ből, amikor a másolás-beillesztés nem működik

Ez az egyik leggyakoribb PDF-bosszúság, és sokkal gyakrabban fordul elő, mint gondolnád. A jó hír az, hogy szinte mindig van megoldás.

90%Az irodai dokumentumok PDF-ként végzik

40%+A PDF-ek szkennelt képek

3Fő ok, amiért a másolás nem sikerül

Miért nem sikerül a másolás PDF-ekben?

Nem minden PDF egyforma. Az ok, amiért nem tudod másolni a szöveget, attól függ, hogyan készült a PDF.

1. ok: A PDF szkennelt kép

2. ok: A PDF védett

Ha egy PDF másolás ellen védett, általában láthatod és elolvashatod a szöveget, de a kurzor nem jelöli ki, vagy a másolás funkció el van szürkítve.

3. ok: A szövegkódolás törött

Ez leginkább régebbi szoftverrel, bizonyos LaTeX-konfigurációkkal vagy tervező eszközökkel generált PDF-eknél fordul elő, amelyek körvonalakká alakítják a szöveget.

A kétféle PDF megértése

A probléma megoldásához érdemes megérteni a PDF-tartalom két fő típusa közötti alapvető különbséget.

Szövegalapú PDF-ek (digitálisan készültek)

Példák: Word, Google Docs vagy webböngészőkből „Nyomtatás PDF-be" funkcióval exportált dokumentumok.

Képalapú PDF-ek (szkenneltek)

Példák: Lapágyazós szkennerről, telefonos szkenner alkalmazásból vagy fax-PDF szolgáltatásból származó dokumentumok.

PDF megnyitása

Szöveg kijelölésének megkísérlése

A szöveg rendesen kijelölhető?

Másolás és beillesztés

Ha a szöveg nem jelölhető ki, vagy helytelenül illeszthető be, szövegkinyerő eszközre van szükség.

Hogyan kinyerhetünk szöveget, ha a másolás nem működik?

Szkennelt PDF-ekhez: OCR

Az OCR a legjobban működik, ha:

A dokumentum nyomtatott (nem kézzel írott)
A szkennelés minősége elfogadható (150 DPI vagy magasabb)
A szöveg általánosan ismert nyelven van
Az oldal nem erősen ferde vagy elforgatott

Védett PDF-ekhez

Kódolási problémákhoz

Praktikus tippek a jobb szövegkinyeréshez

Először ellenőrizd a forrást. Mielőtt szöveget nyersz ki egy PDF-ből, ellenőrizd, hogy megkaphatod-e az eredeti dokumentumot. Ha valaki Word-dokumentum PDF-jét küldte, kérd el a Word-fájlt.
Javítsd a szkennelés minőségét. Ha te magad szkenneled a dokumentumot, legalább 200 DPI-t használj, és győződj meg róla, hogy a papír egyenes és jól megvilágított. Az árnyékok, gyűrődések és alacsony felbontás mind csökkentik az OCR pontosságát.
Egyenesítsd ki a ferde oldalakat. Ha egy szkennelés el van forgatva vagy ferde, egyenesítsd ki az OCR futtatása előtt. A legtöbb szkennelő alkalmazásnak van deskew opciója.
Próbáld meg az egész dokumentumot, ne csak egy oldalt. Néhány eszköz jobban működik, ha az egész dokumentumot egyszerre dolgozza fel, mert a szomszédos oldalak kontextusa javítja a pontosságot.
Ellenőrizd az eredményeket. Az OCR-kimenetet mindig át kell nézni. Tipikus hibák: „l" és „1" felcserélése, „O" és „0" összetévesztése, valamint az írásjelek félreolvasása.

Mit tehetsz a kinyert szöveggel?

A szöveg megszerzése után a lehetőségek szélesre tárulnak:

Szöveg szerkesztése szövegszerkesztőben
Meghatározott adatok keresése az oldalak görgetése nélkül
Fordítás más nyelvre
Tartalom újraformázása más dokumentumhoz vagy prezentációhoz
Adatok elemzése táblázatokból és formákból
Akadálymentes változatok létrehozása dokumentumokból képernyőolvasók számára

Tipikus felhasználási esetek

Diákok tanulmányi cikkekből és tankönyvekből nyernek ki szöveget
Jogászok kikinyerik a záradékokat szkennelt szerződésekből összehasonlításhoz
Könyvelők adatokat nyernek ki szkennelt számlákból és nyugtákból
Kutatók digitalizálnak régi nyomtatott anyagokat elemzéshez
Adminisztrációs személyzet szkennelt formanyomtatványokat alakít szerkeszthető dokumentumokká