Szöveg kinyerése PDF-ből, amikor a másolás-beillesztés nem működik
Megnyitsz egy PDF-et, megpróbálsz szöveget kijelölni, és nem történik semmi. A kurzor nem jelöl ki semmit. Vagy ami még rosszabb, sikerül kijelölni és másolni a szöveget, beilleszted egy dokumentumba, és véletlenszerű karakterek és törött formázás kaotikus keverékét kapod.
Ez az egyik leggyakoribb PDF-bosszúság, és sokkal gyakrabban fordul elő, mint gondolnád. A jó hír az, hogy szinte mindig van megoldás.
Miért nem sikerül a másolás PDF-ekben?
Nem minden PDF egyforma. Az ok, amiért nem tudod másolni a szöveget, attól függ, hogyan készült a PDF.
1. ok: A PDF szkennelt kép
Ez a leggyakoribb ok. Amikor beszkennelünk egy papírdokumentumot, a szkenner lefotózza az egyes oldalakat. A kapott PDF képeket tartalmaz, nem szöveget. A szemünkkel szavakat látunk az oldalon. A számítógépnek csak pixelek vannak, nem különbözik egy fényképtől.
Általában felismerhető egy szkennelt PDF, ha nagyítasz rá. Ha a szöveg pixelessé vagy szemcséssé válik nagy nagyításnál, kép. A szövegalapú PDF-ek bármely nagyítási szinten élesek maradnak.
Tudtad? Egy PDF tartalmazhat tényleges szöveget és szkennelt képeket keverve, ugyanazon az oldalon. Néhány szkenner alapszintű OCR-t végez, és láthatatlan szövegréteget ágyaz be a kép mögé, így a szöveg kijelölhetővé válik, annak ellenére, hogy a látható tartalom egy szkennelés.
2. ok: A PDF védett
A PDF-szerzők olyan jogosultságokat állíthatnak be, amelyek korlátozzák, mit tehetnek a felhasználók a dokumentummal. Az egyik általános korlátozás a szövegkijelölés és -másolás letiltása. Ezt gyakran szerzői joggal védett anyagoknál, vizsgadolgozatoknál vagy üzleti jellegű jelentéseknél alkalmazzák.
Ha egy PDF másolás ellen védett, általában láthatod és elolvashatod a szöveget, de a kurzor nem jelöli ki, vagy a másolás funkció el van szürkítve.
3. ok: A szövegkódolás törött
Egyes PDF-ek egyéni betűtípus-kódolásokat vagy beágyazott részhalmazokat használnak, amelyek nem képezhetők le standard karakterekre. A szöveg technikailag ott van, ki is tudod jelölni, de amikor beilleszted máshova, összekavart kimenetet kapsz, mint „Wkh txlfn eurzq ira" a „The quick brown fox" helyett.
Ez leginkább régebbi szoftverrel, bizonyos LaTeX-konfigurációkkal vagy tervező eszközökkel generált PDF-eknél fordul elő, amelyek körvonalakká alakítják a szöveget.
A kétféle PDF megértése
A probléma megoldásához érdemes megérteni a PDF-tartalom két fő típusa közötti alapvető különbséget.
Szövegalapú PDF-ek (digitálisan készültek)
Ezeket közvetlenül szövegszerkesztőből, táblázatból, weboldalból vagy tervező alkalmazásból hozták létre. A szöveg tényleges karakteradatként létezik a fájlban. Ezek a PDF-ek kereshetők, kijelölhetők, és általában kis méretűek.
Példák: Word, Google Docs vagy webböngészőkből „Nyomtatás PDF-be" funkcióval exportált dokumentumok.
Képalapú PDF-ek (szkenneltek)
Ezek oldalak fényképeit tartalmazzák. A fájlban nincs tényleges szöveges adat. Minden oldal lényegében egy kép. Ezek a PDF-ek nem kereshetők, nem jelölhetők ki, és általában sokkal nagyobbak.
Példák: Lapágyazós szkennerről, telefonos szkenner alkalmazásból vagy fax-PDF szolgáltatásból származó dokumentumok.
Ha a szöveg nem jelölhető ki, vagy helytelenül illeszthető be, szövegkinyerő eszközre van szükség.
Hogyan kinyerhetünk szöveget, ha a másolás nem működik?
Szkennelt PDF-ekhez: OCR
Az optikai karakterfelismerés (OCR) az a technológia, amely szöveget olvas képekből. A modern OCR-motorok rendkívül pontosak, különösen tisztán nyomtatott dokumentumoknál. Elemzik a karakterek alakját a képen, és szerkeszthető szöveggé alakítják azokat.
Az OCR a legjobban működik, ha:
- A dokumentum nyomtatott (nem kézzel írott)
- A szkennelés minősége elfogadható (150 DPI vagy magasabb)
- A szöveg általánosan ismert nyelven van
- Az oldal nem erősen ferde vagy elforgatott
Figyelmeztetés Az OCR nem tökéletes. Küszködhet kézírással, szokatlan betűtípusokkal, gyenge minőségű szkennelésekkel vagy összetett elrendezésű dokumentumokkal (például táblázatokat és képeket tartalmazó többoszlopos szöveggel). Mielőtt fontos dokumentumokban felhasználnád, mindig ellenőrizd az OCR-kimenetet.
Védett PDF-ekhez
Ha a PDF másolási korlátozásokat tartalmaz, egy szövegkinyerő eszköz képes felolvasni az alapul szolgáló szöveges adatokat a jogosultsági beállításoktól függetlenül. A szöveg még mindig benne van a fájlban; csak a másolási funkció van letiltva a standard PDF-megjelenítőkben.
Kódolási problémákhoz
Amikor a szöveg megvan, de összekavart, a kinyerő eszközök néha helyesen értelmezni tudják a karakterleképezéseket, és tiszta kimenetet állíthatnak elő. Ha ez nem sikerül, az OCR az oldalt képként kezelve újrafelismerheti a karaktereket.
Praktikus tippek a jobb szövegkinyeréshez
Először ellenőrizd a forrást. Mielőtt szöveget nyersz ki egy PDF-ből, ellenőrizd, hogy megkaphatod-e az eredeti dokumentumot. Ha valaki Word-dokumentum PDF-jét küldte, kérd el a Word-fájlt.
Javítsd a szkennelés minőségét. Ha te magad szkenneled a dokumentumot, legalább 200 DPI-t használj, és győződj meg róla, hogy a papír egyenes és jól megvilágított. Az árnyékok, gyűrődések és alacsony felbontás mind csökkentik az OCR pontosságát.
Egyenesítsd ki a ferde oldalakat. Ha egy szkennelés el van forgatva vagy ferde, egyenesítsd ki az OCR futtatása előtt. A legtöbb szkennelő alkalmazásnak van deskew opciója.
Próbáld meg az egész dokumentumot, ne csak egy oldalt. Néhány eszköz jobban működik, ha az egész dokumentumot egyszerre dolgozza fel, mert a szomszédos oldalak kontextusa javítja a pontosságot.
Ellenőrizd az eredményeket. Az OCR-kimenetet mindig át kell nézni. Tipikus hibák: „l" és „1" felcserélése, „O" és „0" összetévesztése, valamint az írásjelek félreolvasása.
Tipp Bármilyen PDF-ből, beleértve a szkennelt dokumentumokat is, ingyen kinyerhetsz szöveget a böngésződben. Az eszközünk automatikusan kezeli mind a szövegalapú, mind a képalapú PDF-eket.
Mit tehetsz a kinyert szöveggel?
A szöveg megszerzése után a lehetőségek szélesre tárulnak:
- Szöveg szerkesztése szövegszerkesztőben
- Meghatározott adatok keresése az oldalak görgetése nélkül
- Fordítás más nyelvre
- Tartalom újraformázása más dokumentumhoz vagy prezentációhoz
- Adatok elemzése táblázatokból és formákból
- Akadálymentes változatok létrehozása dokumentumokból képernyőolvasók számára
Tipikus felhasználási esetek
- Diákok tanulmányi cikkekből és tankönyvekből nyernek ki szöveget
- Jogászok kikinyerik a záradékokat szkennelt szerződésekből összehasonlításhoz
- Könyvelők adatokat nyernek ki szkennelt számlákból és nyugtákból
- Kutatók digitalizálnak régi nyomtatott anyagokat elemzéshez
- Adminisztrációs személyzet szkennelt formanyomtatványokat alakít szerkeszthető dokumentumokká
Szöveget kell kinyerned PDF-ből most? Kövesd a lépésről lépésre szóló útmutatónkat: PDF szöveg kinyerése. Működik mind a szövegalapú, mind a szkennelt PDF-eknél, közvetlenül a böngésződben.