Hente tekst fra en PDF når kopier og lim inn ikke fungerer
Du åpner en PDF, prøver å markere litt tekst, og ingenting skjer. Markøren fremhever ingenting. Eller enda verre: du klarer å markere og kopiere teksten, limer den inn i et dokument, og får en rotete blanding av tilfeldige tegn og ødelagt formatering.
Dette er en av de vanligste frustrasjonene med PDF-er, og det skjer oftere enn du kanskje tror. Den gode nyheten er at det nesten alltid finnes en løsning.
Hvorfor kopier og lim inn feiler i PDF-er
Ikke alle PDF-er er like. Årsaken til at du ikke kan kopiere tekst avhenger av hvordan PDF-en ble laget.
Årsak 1: PDF-en er et skannet bilde
Dette er den vanligste årsaken. Når du skanner et papirdokument, tar skanneren et bilde av hver side. Den resulterende PDF-en inneholder bilder, ikke tekst. For øynene dine ser du ord på siden. For en datamaskin er det bare piksler, ikke forskjellig fra et fotografi.
Du kan vanligvis kjenne igjen en skannet PDF ved å zoome inn. Hvis teksten blir pikselert eller kornete ved høy zoomfaktor, er det et bilde. Tekstbaserte PDF-er forblir skarpe ved alle zoomnivåer.
Visste du? En PDF kan inneholde en blanding av ekte tekst og skannede bilder på samme side. Noen skannere utfører grunnleggende OCR (optisk tegngjenkjenning) og legger inn et usynlig tekstlag bak bildet, slik at teksten kan markeres selv om det synlige innholdet er et skan.
Årsak 2: PDF-en er beskyttet
PDF-forfattere kan sette tillatelser som begrenser hva brukere kan gjøre med dokumentet. En vanlig begrensning er å deaktivere tekstvalg og kopiering. Dette brukes ofte for opphavsrettsbeskyttet materiale, eksamensoppgaver eller proprietære rapporter.
Når en PDF er kopibeskyttet, kan du vanligvis se og lese teksten, men markøren vil ikke markere den, eller kopifunksjonen er nedtonet.
Årsak 3: Tekstkodingen er ødelagt
Noen PDF-er bruker egendefinerte skriftkodinger eller innebygde delsett som ikke tilordner seg til standardtegn. Teksten er teknisk sett der, og du kan markere den, men når du limer den inn andre steder, får du forvirret utdata som «Wkh txlfn eurzq ira» i stedet for «The quick brown fox.»
Dette skjer oftest med PDF-er generert av eldre programvare, visse LaTeX-konfigurasjoner eller designverktøy som konverterer tekst til konturer.
Forstå de to typene PDF-er
For å løse problemet hjelper det å forstå den grunnleggende forskjellen mellom de to hovedtypene PDF-innhold.
Tekstbaserte PDF-er (digitalt opprinnelige)
Disse opprettes direkte fra et tekstbehandlingsprogram, regneark, nettside eller designprogram. Teksten finnes som faktiske tegndata i filen. Disse PDF-ene er søkbare, markerbare og vanligvis små i filstørrelse.
Eksempler: Dokumenter eksportert fra Word, Google Docs eller nettlesere ved hjelp av «Skriv ut til PDF».
Bildebaserte PDF-er (skannede)
Disse inneholder fotografier av sider. Det er ingen ekte tekstdata inne i filen. Hver side er i bunn og grunn et bilde. Disse PDF-ene er ikke søkbare, ikke markerbare og har en tendens til å være mye større.
Eksempler: Dokumenter fra en flatbedskanner, en mobilskanner-app eller en faks-til-PDF-tjeneste.
Hvis teksten ikke markeres eller limes inn feil, trenger du et tekstutvinningsverktøy.
Slik henter du tekst når kopier og lim inn feiler
For skannede PDF-er: OCR
Optisk tegngjenkjenning (OCR) er teknologien som leser tekst fra bilder. Moderne OCR-motorer er bemerkelsesverdig nøyaktige, spesielt på rent trykte dokumenter. De analyserer formene til tegn i bildet og konverterer dem til redigerbar tekst.
OCR fungerer best når:
- Dokumentet er trykt (ikke håndskrevet)
- Skankvaliteten er rimelig (150 DPI eller høyere)
- Teksten er på et vanlig språk
- Siden ikke er sterkt skjev eller rotert
Advarsel OCR er ikke perfekt. Det kan slite med håndskrift, uvanlige skrifter, skanner av lav kvalitet eller dokumenter med komplekse oppsett (som flerkolonnetekst med tabeller og bilder). Korrekturles alltid OCR-utdata før du bruker det i viktige dokumenter.
For beskyttede PDF-er
Hvis en PDF har kopibegrensninger, kan et tekstutvinningsverktøy ofte lese de underliggende tekstdataene uavhengig av tillatelsesinnstillingene. Teksten er fortsatt til stede i filen; det er bare kopifunksjonen som er deaktivert i standard PDF-lesere.
For kodingsproblemer
Når tekst finnes men er forvirret, kan utvinningsverktøy noen ganger tolke tegnmappingene riktig og gi rent utdata. Hvis det mislykkes, kan OCR behandle siden som et bilde og gjengjenkjenne tegnene.
Praktiske tips for bedre tekstuttrekking
Sjekk kilden først. Før du henter tekst fra en PDF, sjekk om du kan få tak i originaldokumentet. Hvis noen sendte deg en PDF av et Word-dokument, be om Word-filen i stedet.
Forbedre skankvaliteten. Hvis du skanner et dokument selv, bruk minst 200 DPI og pass på at papiret er flatt og godt belyst. Skygger, rynker og lav oppløsning reduserer alle OCR-nøyaktigheten.
Rett opp skjeve sider. Hvis et skan er rotert eller skjevt, rett det opp før du kjører OCR. De fleste skannerapps har et alternativ for å rette opp skjeve bilder.
Prøv hele dokumentet, ikke bare én side. Noen verktøy fungerer bedre når de kan behandle hele dokumentet på én gang, fordi konteksten fra omkringliggende sider bidrar til å forbedre nøyaktigheten.
Korrekturles resultatene. OCR-utdata bør alltid gjennomgås. Vanlige feil inkluderer forveksling av «l» med «1», «O» med «0» og feillesing av tegnsetting.
Tips Du kan hente tekst fra en hvilken som helst PDF, inkludert skannede dokumenter, gratis i nettleseren din. Verktøyet vårt håndterer automatisk både tekstbaserte og bildebaserte PDF-er.
Hva du kan gjøre med hentet tekst
Når du har teksten, åpner mulighetene seg:
- Rediger innholdet i et tekstbehandlingsprogram
- Søk etter spesifikk informasjon uten å bla gjennom sider
- Oversett teksten til et annet språk
- Reformater innholdet for et annet dokument eller en presentasjon
- Analyser data fra tabeller og skjemaer
- Lag tilgjengelige versjoner av dokumenter for skjermlesere
Vanlige brukstilfeller
- Studenter som henter tekst fra akademiske artikler og lærebøker til notater
- Jurister som trekker ut klausuler fra skannede kontrakter for sammenligning
- Regnskapsførere som henter data fra skannede fakturaer og kvitteringer
- Forskere som digitaliserer gammelt trykt materiale for analyse
- Administrativt personale som konverterer skannede skjemaer til redigerbare dokumenter
Trenger du å hente tekst fra en PDF akkurat nå? Følg vår trinnvise guide: Slik henter du PDF-tekst. Det fungerer på både tekstbaserte og skannede PDF-er, direkte i nettleseren din.