Extrahera text från en PDF när kopiering inte fungerar
Du öppnar en PDF, försöker markera lite text och ingenting händer. Markören markerar inte något. Eller ännu värre: du lyckas markera och kopiera texten, klistrar in den i ett dokument och får ett virrvarr av slumpmässiga tecken och trasig formatering.
Det här är en av de vanligaste PDF-frustrationerna, och det händer oftare än man kan tro. Den goda nyheten är att det nästan alltid finns en lösning.
Varför kopiering misslyckas i PDF-filer
Inte alla PDF-filer är skapade på samma sätt. Orsaken till att du inte kan kopiera text beror på hur PDF:en skapades.
Orsak 1: PDF:en är en skannad bild
Det här är den vanligaste orsaken. När du skannar ett pappersdokument tar skannern ett foto av varje sida. Den resulterande PDF:en innehåller bilder, inte text. Du ser ord på sidan, men för en dator är det bara pixlar — inte annorlunda än ett fotografi.
Du kan vanligtvis identifiera en skannad PDF genom att zooma in. Om texten blir pixlad eller kornig vid hög zoom är det en bild. Textbaserade PDF-filer förblir skarpa vid alla zoomnivåer.
Visste du att? En PDF kan innehålla en blandning av riktig text och skannade bilder på samma sida. Vissa skannrar utför grundläggande OCR (optisk teckenigenkänning) och bäddar in ett osynligt textlager bakom bilden, vilket gör texten markerbar även om det synliga innehållet är en skanning.
Orsak 2: PDF:en är skyddad
PDF-skapare kan ange behörigheter som begränsar vad användare kan göra med dokumentet. En vanlig begränsning är att inaktivera textmarkering och kopiering. Det används ofta för upphovsrättsskyddat material, tentamenspapper eller proprietära rapporter.
När en PDF är kopieringsskyddad kan du vanligtvis se och läsa texten, men markören markerar den inte, eller kopieringsfunktionen är nedtonad.
Orsak 3: Textens teckenkodning är trasig
Vissa PDF-filer använder anpassade teckensnittsenkodningar eller inbäddade delmängder som inte mappar till standardtecken. Texten finns tekniskt sett där och du kan markera den, men när du klistrar in den någon annanstans får du ett obegripligt resultat som "Hèj värlèen" i stället för "Hej världen."
Det händer oftast med PDF-filer som skapats av äldre programvara, vissa LaTeX-konfigurationer eller designverktyg som konverterar text till konturer.
De två typerna av PDF-filer
För att lösa problemet hjälper det att förstå den grundläggande skillnaden mellan de två huvudtyperna av PDF-innehåll.
Textbaserade PDF-filer (digitalt skapade)
Dessa skapas direkt från ett ordbehandlingsprogram, ett kalkylblad, en webbsida eller ett designprogram. Texten finns som faktiska teckendata i filen. Dessa PDF-filer är sökbara, markeringsbara och vanligtvis små i filstorlek.
Exempel: Dokument exporterade från Word, Google Docs eller webbläsare med "Skriv ut till PDF."
Bildbaserade PDF-filer (skannade)
Dessa innehåller fotografier av sidor. Det finns ingen riktig textdata inuti filen. Varje sida är i princip en bild. Dessa PDF-filer är inte sökbara, inte markeringsbara och tenderar att vara mycket större.
Exempel: Dokument från en flatbäddsskanner, en mobilapp för skanning eller en fax-till-PDF-tjänst.
Om texten inte markeras eller klistras in felaktigt behöver du ett textextraktionsverktyg.
Hur man extraherar text när kopiering misslyckas
För skannade PDF-filer: OCR
Optisk teckenigenkänning (OCR) är den teknik som läser text från bilder. Moderna OCR-motorer är remarkabelt exakta, särskilt på rent utskrivna dokument. De analyserar formen på tecknen i bilden och konverterar dem till redigerbar text.
OCR fungerar bäst när:
- Dokumentet är utskrivet (inte handskrivet)
- Skanningskvaliteten är rimlig (150 DPI eller högre)
- Texten är på ett vanligt språk
- Sidan inte är kraftigt sned eller roterad
Observera OCR är inte perfekt. Det kan ha svårt med handskrift, ovanliga teckensnitt, skanningar av låg kvalitet eller dokument med komplexa layouter (t.ex. flerkolumnig text med tabeller och bilder). Korrekturläs alltid OCR-resultatet innan du använder det i viktiga dokument.
För skyddade PDF-filer
Om en PDF har kopieringsbegränsningar kan ett textextraktionsverktyg ofta läsa de underliggande textdata oavsett behörighetsinställningarna. Texten finns fortfarande i filen; det är bara kopieringsfunktionen i vanliga PDF-läsare som är inaktiverad.
För kodningsproblem
När text finns men är obegriplig kan extraktionsverktyg ibland tolka teckenmappningarna korrekt och ge ett rent resultat. Om det misslyckas kan OCR behandla sidan som en bild och känna igen tecknen på nytt.
Praktiska tips för bättre textextraktion
Kontrollera källan först. Innan du extraherar text från en PDF, kontrollera om du kan få originaldokumentet. Om någon skickade dig en PDF av ett Word-dokument, be om Word-filen i stället.
Förbättra skanningskvaliteten. Om du skannar ett dokument själv, använd minst 200 DPI och se till att papperet är plant och välbelyst. Skuggor, veck och låg upplösning minskar alla OCR-noggrannheten.
Räta ut sneda sidor. Om en skanning är roterad eller sned, räta ut den innan du kör OCR. De flesta skanningsappar har ett alternativ för att räta ut bilder.
Prova hela dokumentet, inte bara en sida. Vissa verktyg fungerar bättre när de kan bearbeta hela dokumentet på en gång, eftersom kontext från omkringliggande sidor hjälper till att förbättra noggrannheten.
Korrekturläs resultaten. OCR-resultat bör alltid granskas. Vanliga fel är att förväxla "l" med "1", "O" med "0" och feltolkning av skiljetecken.
Tips Du kan extrahera text från vilken PDF som helst, inklusive skannade dokument, gratis i webbläsaren. Verktyget hanterar automatiskt både textbaserade och bildbaserade PDF-filer.
Vad du kan göra med extraherad text
När du väl har texten öppnar sig möjligheterna:
- Redigera innehållet i ett ordbehandlingsprogram
- Söka efter specifik information utan att bläddra igenom sidor
- Översätta texten till ett annat språk
- Formatera om innehållet för ett annat dokument eller en presentation
- Analysera data från tabeller och formulär
- Skapa tillgängliga versioner av dokument för skärmläsare
Vanliga användningsfall
- Studenter som extraherar text från akademiska artiklar och läroböcker för anteckningar
- Jurister som plockar ut klausuler från skannade kontrakt för jämförelse
- Revisorer som extraherar data från skannade fakturor och kvitton
- Forskare som digitaliserar gamla tryckt material för analys
- Administrativ personal som konverterar skannade formulär till redigerbara dokument
Behöver du extrahera text från en PDF nu? Följ vår steg-för-steg-guide: Så extraherar du PDF-text. Det fungerar på både textbaserade och skannade PDF-filer, direkt i webbläsaren.