Tekst extraheren uit een PDF wanneer kopiëren-plakken niet werkt
Je opent een PDF, probeert tekst te selecteren en er gebeurt niets. De cursor markeert niets. Of erger nog: je slaagt erin om de tekst te selecteren en te kopiëren, plakt het in een document en krijgt een rommeltje van willekeurige tekens en kapotte opmaak.
Dit is een van de meest voorkomende PDF-frustraties, en het gebeurt vaker dan je zou denken. Het goede nieuws is dat er bijna altijd een oplossing is.
Waarom kopiëren-plakken mislukt in PDF's
Niet alle PDF's zijn gelijk gemaakt. De reden waarom je geen tekst kunt kopiëren hangt af van hoe de PDF is gemaakt.
Reden 1: De PDF is een gescande afbeelding
Dit is de meest voorkomende oorzaak. Wanneer je een papieren document scant, maakt de scanner een foto van elke pagina. De resulterende PDF bevat afbeeldingen, geen tekst. Voor jouw ogen zie je woorden op de pagina. Voor een computer zijn het slechts pixels, niet anders dan een foto.
Je kunt een gescande PDF meestal herkennen door in te zoomen. Als de tekst gepixeld of korrelig wordt bij sterk inzoomen, is het een afbeelding. Tekstgebaseerde PDF's blijven scherp op elk zoomniveau.
Wist je dat? Een PDF kan een mix bevatten van echte tekst en gescande afbeeldingen op dezelfde pagina. Sommige scanners voeren basis-OCR (optische tekenherkenning) uit en sluiten een onzichtbare tekstlaag in achter de afbeelding, waardoor de tekst selecteerbaar is hoewel de zichtbare inhoud een scan is.
Reden 2: De PDF is beveiligd
PDF-auteurs kunnen rechten instellen die beperken wat gebruikers met het document kunnen doen. Een veelvoorkomende beperking is het uitschakelen van tekstselectie en kopiëren. Dit wordt vaak gebruikt voor auteursrechtelijk beschermd materiaal, examens of bedrijfseigen rapporten.
Wanneer een PDF kopieerbeveiligd is, kun je de tekst meestal wel zien en lezen, maar je cursor zal deze niet selecteren, of de kopieerfunctie is grijs.
Reden 3: De tekstcodering is kapot
Sommige PDF's gebruiken aangepaste lettertypecodering of ingesloten subsets die niet overeenkomen met standaardtekens. De tekst is technisch gezien aanwezig en je kunt deze selecteren, maar wanneer je het ergens plakt, krijg je onleesbare uitvoer zoals "Wkh txlfn eurzq ira" in plaats van "The quick brown fox."
Dit gebeurt het vaakst bij PDF's die zijn gegenereerd door oudere software, bepaalde LaTeX-configuraties of ontwerptools die tekst omzetten naar contouren.
De twee typen PDF's begrijpen
Om het probleem op te lossen, helpt het om het fundamentele verschil te begrijpen tussen de twee hoofdtypen PDF-inhoud.
Tekstgebaseerde PDF's (digitaal-native)
Deze worden direct gemaakt vanuit een tekstverwerker, spreadsheet, webpagina of ontwerp-applicatie. De tekst bestaat als werkelijke tekendata binnen het bestand. Deze PDF's zijn doorzoekbaar, selecteerbaar en doorgaans klein van omvang.
Voorbeelden: Documenten geëxporteerd vanuit Word, Google Docs of webbrowsers via "Afdrukken als PDF."
Afbeeldingsgebaseerde PDF's (gescand)
Deze bevatten foto's van pagina's. Er zit geen echte tekstdata in het bestand. Elke pagina is in feite een plaatje. Deze PDF's zijn niet doorzoekbaar, niet selecteerbaar en zijn doorgaans veel groter.
Voorbeelden: Documenten van een flatbedscanner, een camerascan-app op je telefoon of een fax-naar-PDF-dienst.
Als de tekst niet selecteert of fout plakt, heb je een tekstextractietool nodig.
Tekst extraheren wanneer kopiëren-plakken niet werkt
Voor gescande PDF's: OCR
Optische tekenherkenning (OCR) is de technologie die tekst uit afbeeldingen leest. Moderne OCR-engines zijn opmerkelijk nauwkeurig, vooral bij netjes gedrukte documenten. Ze analyseren de vormen van tekens in de afbeelding en zetten deze om naar bewerkbare tekst.
OCR werkt het beste wanneer:
- Het document is gedrukt (niet handgeschreven)
- De scankwaliteit redelijk is (150 DPI of hoger)
- De tekst in een gangbare taal is
- De pagina niet sterk scheef of gedraaid is
Let op OCR is niet perfect. Het kan moeite hebben met handschrift, ongebruikelijke lettertypen, scans van lage kwaliteit of documenten met complexe lay-outs (zoals tekst met meerdere kolommen met tabellen en afbeeldingen). Controleer OCR-uitvoer altijd voordat je het in belangrijke documenten gebruikt.
Voor beveiligde PDF's
Als een PDF kopieerbeperkingen heeft, kan een tekstextractietool vaak de onderliggende tekstdata lezen ongeacht de rechteninstellingen. De tekst is nog steeds aanwezig in het bestand; alleen de kopieerfunctie is uitgeschakeld in standaard PDF-viewers.
Voor coderingsproblemen
Wanneer tekst aanwezig is maar verminkt, kunnen extractietools soms de tekenmappingen correct interpreteren en schone uitvoer produceren. Als dat mislukt, kan OCR de pagina als afbeelding behandelen en de tekens opnieuw herkennen.
Praktische tips voor betere tekstextractie
Controleer eerst de bron. Voordat je tekst uit een PDF extraheert, kijk of je het originele document kunt krijgen. Als iemand je een PDF van een Word-document heeft gestuurd, vraag dan om het Word-bestand.
Verbeter de scankwaliteit. Als je zelf een document scant, gebruik dan minimaal 200 DPI en zorg dat het papier plat en goed verlicht is. Schaduwen, kreukels en lage resolutie verminderen allemaal de OCR-nauwkeurigheid.
Rechtzetten van scheve pagina's. Als een scan is gedraaid of scheef, rechtzetten vóór het uitvoeren van OCR. De meeste scan-apps hebben een optie om scheefstand te corrigeren.
Probeer het hele document, niet slechts één pagina. Sommige tools werken beter wanneer ze het hele document tegelijk kunnen verwerken, omdat context van omliggende pagina's de nauwkeurigheid verbetert.
Controleer de resultaten. OCR-uitvoer moet altijd worden nagekeken. Veelvoorkomende fouten zijn verwarring van "l" met "1", "O" met "0", en fout gelezen leestekens.
Tip Je kunt tekst uit elke PDF extraheren, inclusief gescande documenten, gratis in je browser. Onze tool verwerkt zowel tekstgebaseerde als afbeeldingsgebaseerde PDF's automatisch.
Wat je kunt doen met geëxtraheerde tekst
Zodra je de tekst hebt, openen de mogelijkheden zich:
- De inhoud bewerken in een tekstverwerker
- Naar specifieke informatie zoeken zonder door pagina's te scrollen
- De tekst vertalen naar een andere taal
- De inhoud herformatteren voor een ander document of presentatie
- Data analyseren uit tabellen en formulieren
- Toegankelijke versies maken van documenten voor schermlezers
Veelvoorkomende toepassingen
- Studenten die tekst extraheren uit academische papers en studieboeken voor aantekeningen
- Juristen die clausules uit gescande contracten halen voor vergelijking
- Accountants die data extraheren uit gescande facturen en bonnen
- Onderzoekers die oude gedrukte materialen digitaliseren voor analyse
- Administratief personeel dat gescande formulieren omzet naar bewerkbare documenten
Moet je nu tekst uit een PDF extraheren? Volg onze stapsgewijze handleiding: Tekst uit een PDF extraheren. Het werkt op zowel tekstgebaseerde als gescande PDF's, rechtstreeks in je browser.