Kan ikke kopiere tekst fra PDF? Her er hvorfor og hvordan du fikser det

Hente tekst fra en PDF når kopier og lim inn ikke fungerer

Du åpner en PDF, prøver å markere litt tekst, og ingenting skjer. Markøren fremhever ingenting. Eller enda verre: du klarer å markere og kopiere teksten, limer den inn i et dokument, og får en rotete blanding av tilfeldige tegn og ødelagt formatering.

Dette er en av de vanligste frustrasjonene med PDF-er, og det skjer oftere enn du kanskje tror. Den gode nyheten er at det nesten alltid finnes en løsning.

90%Av kontordokumenter ender opp som PDF-er

40%+Av PDF-er er skannede bilder

3Hovedårsaker til at kopier og lim inn feiler

Hvorfor kopier og lim inn feiler i PDF-er

Ikke alle PDF-er er like. Årsaken til at du ikke kan kopiere tekst avhenger av hvordan PDF-en ble laget.

Årsak 1: PDF-en er et skannet bilde

Dette er den vanligste årsaken. Når du skanner et papirdokument, tar skanneren et bilde av hver side. Den resulterende PDF-en inneholder bilder, ikke tekst. For øynene dine ser du ord på siden. For en datamaskin er det bare piksler, ikke forskjellig fra et fotografi.

Du kan vanligvis kjenne igjen en skannet PDF ved å zoome inn. Hvis teksten blir pikselert eller kornete ved høy zoomfaktor, er det et bilde. Tekstbaserte PDF-er forblir skarpe ved alle zoomnivåer.

Visste du? En PDF kan inneholde en blanding av ekte tekst og skannede bilder på samme side. Noen skannere utfører grunnleggende OCR (optisk tegngjenkjenning) og legger inn et usynlig tekstlag bak bildet, slik at teksten kan markeres selv om det synlige innholdet er et skan.

Årsak 2: PDF-en er beskyttet

PDF-forfattere kan sette tillatelser som begrenser hva brukere kan gjøre med dokumentet. En vanlig begrensning er å deaktivere tekstvalg og kopiering. Dette brukes ofte for opphavsrettsbeskyttet materiale, eksamensoppgaver eller proprietære rapporter.

Når en PDF er kopibeskyttet, kan du vanligvis se og lese teksten, men markøren vil ikke markere den, eller kopifunksjonen er nedtonet.

Årsak 3: Tekstkodingen er ødelagt

Noen PDF-er bruker egendefinerte skriftkodinger eller innebygde delsett som ikke tilordner seg til standardtegn. Teksten er teknisk sett der, og du kan markere den, men når du limer den inn andre steder, får du forvirret utdata som «Wkh txlfn eurzq ira» i stedet for «The quick brown fox.»

Dette skjer oftest med PDF-er generert av eldre programvare, visse LaTeX-konfigurasjoner eller designverktøy som konverterer tekst til konturer.

Forstå de to typene PDF-er

For å løse problemet hjelper det å forstå den grunnleggende forskjellen mellom de to hovedtypene PDF-innhold.

Tekstbaserte PDF-er (digitalt opprinnelige)

Disse opprettes direkte fra et tekstbehandlingsprogram, regneark, nettside eller designprogram. Teksten finnes som faktiske tegndata i filen. Disse PDF-ene er søkbare, markerbare og vanligvis små i filstørrelse.

Eksempler: Dokumenter eksportert fra Word, Google Docs eller nettlesere ved hjelp av «Skriv ut til PDF».

Bildebaserte PDF-er (skannede)

Disse inneholder fotografier av sider. Det er ingen ekte tekstdata inne i filen. Hver side er i bunn og grunn et bilde. Disse PDF-ene er ikke søkbare, ikke markerbare og har en tendens til å være mye større.

Eksempler: Dokumenter fra en flatbedskanner, en mobilskanner-app eller en faks-til-PDF-tjeneste.

Åpne PDF-en

Prøv å markere tekst

Teksten markeres rent?

Kopier og lim inn

Hvis teksten ikke markeres eller limes inn feil, trenger du et tekstutvinningsverktøy.

Slik henter du tekst når kopier og lim inn feiler

For skannede PDF-er: OCR

Optisk tegngjenkjenning (OCR) er teknologien som leser tekst fra bilder. Moderne OCR-motorer er bemerkelsesverdig nøyaktige, spesielt på rent trykte dokumenter. De analyserer formene til tegn i bildet og konverterer dem til redigerbar tekst.

OCR fungerer best når:

Dokumentet er trykt (ikke håndskrevet)
Skankvaliteten er rimelig (150 DPI eller høyere)
Teksten er på et vanlig språk
Siden ikke er sterkt skjev eller rotert

Advarsel OCR er ikke perfekt. Det kan slite med håndskrift, uvanlige skrifter, skanner av lav kvalitet eller dokumenter med komplekse oppsett (som flerkolonnetekst med tabeller og bilder). Korrekturles alltid OCR-utdata før du bruker det i viktige dokumenter.

For beskyttede PDF-er

Hvis en PDF har kopibegrensninger, kan et tekstutvinningsverktøy ofte lese de underliggende tekstdataene uavhengig av tillatelsesinnstillingene. Teksten er fortsatt til stede i filen; det er bare kopifunksjonen som er deaktivert i standard PDF-lesere.

For kodingsproblemer

Når tekst finnes men er forvirret, kan utvinningsverktøy noen ganger tolke tegnmappingene riktig og gi rent utdata. Hvis det mislykkes, kan OCR behandle siden som et bilde og gjengjenkjenne tegnene.

Praktiske tips for bedre tekstuttrekking

Sjekk kilden først. Før du henter tekst fra en PDF, sjekk om du kan få tak i originaldokumentet. Hvis noen sendte deg en PDF av et Word-dokument, be om Word-filen i stedet.
Forbedre skankvaliteten. Hvis du skanner et dokument selv, bruk minst 200 DPI og pass på at papiret er flatt og godt belyst. Skygger, rynker og lav oppløsning reduserer alle OCR-nøyaktigheten.
Rett opp skjeve sider. Hvis et skan er rotert eller skjevt, rett det opp før du kjører OCR. De fleste skannerapps har et alternativ for å rette opp skjeve bilder.
Prøv hele dokumentet, ikke bare én side. Noen verktøy fungerer bedre når de kan behandle hele dokumentet på én gang, fordi konteksten fra omkringliggende sider bidrar til å forbedre nøyaktigheten.
Korrekturles resultatene. OCR-utdata bør alltid gjennomgås. Vanlige feil inkluderer forveksling av «l» med «1», «O» med «0» og feillesing av tegnsetting.

Tips Du kan hente tekst fra en hvilken som helst PDF, inkludert skannede dokumenter, gratis i nettleseren din. Verktøyet vårt håndterer automatisk både tekstbaserte og bildebaserte PDF-er.

Hva du kan gjøre med hentet tekst

Når du har teksten, åpner mulighetene seg:

Rediger innholdet i et tekstbehandlingsprogram
Søk etter spesifikk informasjon uten å bla gjennom sider
Oversett teksten til et annet språk
Reformater innholdet for et annet dokument eller en presentasjon
Analyser data fra tabeller og skjemaer
Lag tilgjengelige versjoner av dokumenter for skjermlesere

Vanlige brukstilfeller

Studenter som henter tekst fra akademiske artikler og lærebøker til notater
Jurister som trekker ut klausuler fra skannede kontrakter for sammenligning
Regnskapsførere som henter data fra skannede fakturaer og kvitteringer
Forskere som digitaliserer gammelt trykt materiale for analyse
Administrativt personale som konverterer skannede skjemaer til redigerbare dokumenter

Trenger du å hente tekst fra en PDF akkurat nå? Følg vår trinnvise guide: Slik henter du PDF-tekst. Det fungerer på både tekstbaserte og skannede PDF-er, direkte i nettleseren din.

Hente tekst fra en PDF når kopier og lim inn ikke fungerer

Dette er en av de vanligste frustrasjonene med PDF-er, og det skjer oftere enn du kanskje tror. Den gode nyheten er at det nesten alltid finnes en løsning.

90%Av kontordokumenter ender opp som PDF-er

40%+Av PDF-er er skannede bilder

3Hovedårsaker til at kopier og lim inn feiler

Hvorfor kopier og lim inn feiler i PDF-er

Ikke alle PDF-er er like. Årsaken til at du ikke kan kopiere tekst avhenger av hvordan PDF-en ble laget.

Årsak 1: PDF-en er et skannet bilde

Du kan vanligvis kjenne igjen en skannet PDF ved å zoome inn. Hvis teksten blir pikselert eller kornete ved høy zoomfaktor, er det et bilde. Tekstbaserte PDF-er forblir skarpe ved alle zoomnivåer.

Årsak 2: PDF-en er beskyttet

Når en PDF er kopibeskyttet, kan du vanligvis se og lese teksten, men markøren vil ikke markere den, eller kopifunksjonen er nedtonet.

Årsak 3: Tekstkodingen er ødelagt

Dette skjer oftest med PDF-er generert av eldre programvare, visse LaTeX-konfigurasjoner eller designverktøy som konverterer tekst til konturer.

Forstå de to typene PDF-er

For å løse problemet hjelper det å forstå den grunnleggende forskjellen mellom de to hovedtypene PDF-innhold.

Tekstbaserte PDF-er (digitalt opprinnelige)

Eksempler: Dokumenter eksportert fra Word, Google Docs eller nettlesere ved hjelp av «Skriv ut til PDF».

Bildebaserte PDF-er (skannede)

Eksempler: Dokumenter fra en flatbedskanner, en mobilskanner-app eller en faks-til-PDF-tjeneste.

Åpne PDF-en

Prøv å markere tekst

Teksten markeres rent?

Kopier og lim inn

Hvis teksten ikke markeres eller limes inn feil, trenger du et tekstutvinningsverktøy.

Slik henter du tekst når kopier og lim inn feiler

For skannede PDF-er: OCR

OCR fungerer best når:

Dokumentet er trykt (ikke håndskrevet)
Skankvaliteten er rimelig (150 DPI eller høyere)
Teksten er på et vanlig språk
Siden ikke er sterkt skjev eller rotert

For beskyttede PDF-er

For kodingsproblemer

Praktiske tips for bedre tekstuttrekking

Sjekk kilden først. Før du henter tekst fra en PDF, sjekk om du kan få tak i originaldokumentet. Hvis noen sendte deg en PDF av et Word-dokument, be om Word-filen i stedet.
Forbedre skankvaliteten. Hvis du skanner et dokument selv, bruk minst 200 DPI og pass på at papiret er flatt og godt belyst. Skygger, rynker og lav oppløsning reduserer alle OCR-nøyaktigheten.
Rett opp skjeve sider. Hvis et skan er rotert eller skjevt, rett det opp før du kjører OCR. De fleste skannerapps har et alternativ for å rette opp skjeve bilder.
Prøv hele dokumentet, ikke bare én side. Noen verktøy fungerer bedre når de kan behandle hele dokumentet på én gang, fordi konteksten fra omkringliggende sider bidrar til å forbedre nøyaktigheten.
Korrekturles resultatene. OCR-utdata bør alltid gjennomgås. Vanlige feil inkluderer forveksling av «l» med «1», «O» med «0» og feillesing av tegnsetting.

Tips Du kan hente tekst fra en hvilken som helst PDF, inkludert skannede dokumenter, gratis i nettleseren din. Verktøyet vårt håndterer automatisk både tekstbaserte og bildebaserte PDF-er.

Hva du kan gjøre med hentet tekst

Når du har teksten, åpner mulighetene seg:

Rediger innholdet i et tekstbehandlingsprogram
Søk etter spesifikk informasjon uten å bla gjennom sider
Oversett teksten til et annet språk
Reformater innholdet for et annet dokument eller en presentasjon
Analyser data fra tabeller og skjemaer
Lag tilgjengelige versjoner av dokumenter for skjermlesere

Vanlige brukstilfeller

Studenter som henter tekst fra akademiske artikler og lærebøker til notater
Jurister som trekker ut klausuler fra skannede kontrakter for sammenligning
Regnskapsførere som henter data fra skannede fakturaer og kvitteringer
Forskere som digitaliserer gammelt trykt materiale for analyse
Administrativt personale som konverterer skannede skjemaer til redigerbare dokumenter

Trenger du å hente tekst fra en PDF akkurat nå? Følg vår trinnvise guide: Slik henter du PDF-tekst. Det fungerer på både tekstbaserte og skannede PDF-er, direkte i nettleseren din.