Et voi kopioida tekstiä PDF:stä? Syy ja ratkaisu

Tekstin poimiminen PDF:stä kun kopiointi ei toimi

Avaat PDF:n, yrität valita tekstiä ja mitään ei tapahdu. Kohdistin ei korosta mitään. Tai vielä pahempaa – onnistut valitsemaan ja kopioimaan tekstiä, liimaat sen asiakirjaan ja saat sekalaisen sotkun satunnaisia merkkejä ja rikkinäistä muotoilua.

Tämä on yksi yleisimmistä PDF-turhauttavista tilanteista, ja se tapahtuu useammin kuin saatat ajatella. Hyvä uutinen on, että lähes aina on ratkaisu.

90%Toimistoasiakirjoista päätyy PDF:ksi

40%+PDF:istä on skannattuja kuvia

3Pääsyytä kopioinnin epäonnistumiseen

Miksi kopiointi epäonnistuu PDF:issä

Kaikki PDF:t eivät ole samanlaisia. Syy siihen, että et voi kopioida tekstiä, riippuu siitä, miten PDF on tehty.

Syy 1: PDF on skannattu kuva

Tämä on yleisin syy. Kun skannaat paperisen asiakirjan, skanneri ottaa kuvan jokaisesta sivusta. Tuloksena oleva PDF sisältää kuvia, ei tekstiä. Silmiisi se näyttää sanoilta sivulla. Tietokoneelle se on vain pikseleitä, ei eroa valokuvasta.

Voit yleensä tunnistaa skannatun PDF:n zoomaamalla sisään. Jos teksti muuttuu pikselöityneeksi tai rakeiseksi suurella zoomilla, se on kuva. Tekstipohjaiset PDF:t pysyvät terävinä millä tahansa zoomitasolla.

Tiesitkö? PDF voi sisältää yhdellä sivulla sekä oikeaa tekstiä että skannattuja kuvia. Jotkut skannerit suorittavat perustason OCR:n (optinen merkintunnistus) ja upottavat näkymättömän tekstikerroksen kuvan taakse, mikä tekee tekstin valittavaksi vaikka näkyvä sisältö on skannaus.

Syy 2: PDF on suojattu

PDF:n kirjoittajat voivat asettaa käyttöoikeuksia, jotka rajoittavat sitä, mitä käyttäjät voivat tehdä asiakirjalla. Yksi yleinen rajoitus on tekstin valinnan ja kopioinnin poistaminen käytöstä. Tätä käytetään usein tekijänoikeudelliselle materiaalille, koetehtäville tai omistuksellisille raporteille.

Kun PDF on kopiointisuojattu, voit yleensä nähdä ja lukea tekstin, mutta kohdistimesi ei valitse sitä tai kopiointitoiminto on harmaana.

Syy 3: Tekstin koodaus on rikki

Jotkut PDF:t käyttävät mukautettuja fonttikoodauksia tai upotettuja alijoukkoja, jotka eivät vastaa standardimerkkejä. Teksti on teknisesti siellä ja voit valita sen, mutta kun liimaat sen muualle, saat sekavaa tulostetta kuten "Wkh txlfn eurzq ira" sen sijaan "The quick brown fox."

Tämä tapahtuu useimmiten PDF:issä, jotka on luotu vanhemmilla ohjelmistoilla, tietyissä LaTeX-konfiguraatioissa tai suunnittelutyökaluilla, jotka muuntavat tekstin ääriviivoiksi.

Kahden PDF-tyypin ymmärtäminen

Ongelman ratkaisemiseksi on hyödyllistä ymmärtää perustavanlaatuinen ero kahden pääsisältötyypin välillä PDF:issä.

Tekstipohjaiset PDF:t (digitaalisesti luodut)

Nämä on luotu suoraan tekstinkäsittelyohjelmasta, taulukkolaskennasta, verkkosivulta tai suunnittelusovelluksesta. Teksti on tiedostossa todellisena merkkidatana. Nämä PDF:t ovat haettavia, valittavia ja yleensä pieniä tiedostokokoltaan.

Esimerkkejä: Asiakirjat viety Wordista, Google Docsista tai verkkoselaimista käyttäen "Tulosta PDF:ksi".

Kuvapohjaiset PDF:t (skannatut)

Nämä sisältävät valokuvia sivuista. Tiedostossa ei ole todellista tekstidataa. Jokainen sivu on pohjimmiltaan kuva. Nämä PDF:t eivät ole haettavia, eivät valittavia, ja ne ovat yleensä paljon suurempia.

Esimerkkejä: Asiakirjat litteästä skannerista, puhelimen kameran skannaussovelluksesta tai faksi-PDF-palvelusta.

Avaa PDF

Yritä valita tekstiä

Teksti valittuu siististi?

Kopioi ja liimaa

Jos teksti ei valitu tai liimautuu väärin, tarvitset tekstinpoimintatyökalun.

Kuinka poimia tekstiä kun kopiointi epäonnistuu

Skannatuille PDF:ille: OCR

Optinen merkintunnistus (OCR) on teknologia, joka lukee tekstiä kuvista. Nykyaikaiset OCR-moottorit ovat hämmästyttävän tarkkoja, erityisesti puhtaasti tulostetuissa asiakirjoissa. Ne analysoivat merkkien muodot kuvassa ja muuntavat ne muokattavaksi tekstiksi.

OCR toimii parhaiten kun:

Asiakirja on tulostettu (ei käsinkirjoitettu)
Skannauksen laatu on kohtuullinen (150 DPI tai enemmän)
Teksti on yleisessä kielessä
Sivu ei ole voimakkaasti vino tai kiertynyt

Varoitus OCR ei ole täydellinen. Se voi kamppailla käsialan, epätavallisten fonttien, huonolaatuisten skannausten tai monimutkaisten asettelujen kanssa (kuten monipalstainen teksti taulukoiden ja kuvien kanssa). Tarkista aina OCR-tulos ennen sen käyttämistä tärkeissä asiakirjoissa.

Suojatuille PDF:ille

Jos PDF:llä on kopiointirajoituksia, tekstinpoimintatyökalu voi usein lukea alla olevan tekstidatan riippumatta käyttöoikeusasetuksista. Teksti on silti tiedostossa; vain kopiointitoiminto on poistettu käytöstä vakio-PDF-lukijoissa.

Koodausongelmille

Kun teksti on olemassa mutta sekavaa, poimintatyökalut voivat joskus tulkita merkkijärjestykset oikein ja tuottaa siistin tuloksen. Jos se epäonnistuu, OCR voi käsitellä sivua kuvana ja tunnistaa merkit uudelleen.

Käytännön vinkkejä parempaan tekstinpoimintaan

Tarkista lähde ensin. Ennen tekstin poimimista PDF:stä, tarkista onko sinulla alkuperäinen asiakirja saatavilla. Jos joku lähetti sinulle Word-asiakirjasta tehdyn PDF:n, pyydä Word-tiedostoa sen sijaan.
Paranna skannauksen laatua. Jos skannaat asiakirjaa itse, käytä vähintään 200 DPI:tä ja varmista, että paperi on tasainen ja hyvin valaistu. Varjot, ryppyt ja alhainen resoluutio kaikki heikentävät OCR-tarkkuutta.
Suorista vinot sivut. Jos skannaus on kiertynyt tai vino, suorista se ennen OCR:n ajamista. Useimmissa skannaussovelluksissa on suoristamisvaihtoehto.
Kokeile koko asiakirjaa, ei vain sivua. Jotkut työkalut toimivat paremmin kun ne voivat käsitellä koko asiakirjan kerralla, koska ympäröivien sivujen konteksti auttaa parantamaan tarkkuutta.
Oikolue tulokset. OCR-tulostetta tulee aina tarkistaa. Yleisiä virheitä ovat "l" ja "1", "O" ja "0" sekoittaminen ja välimerkkien väärinlukeminen.

Vinkki Voit poimia tekstiä mistä tahansa PDF:stä, mukaan lukien skannatuista asiakirjoista, ilmaiseksi selaimessasi. Työkalumme käsittelee sekä tekstipohjaisia että kuvamaisia PDF:iä automaattisesti.

Mitä voit tehdä poimitulla tekstillä

Kun teksti on poimittu, mahdollisuudet avautuvat:

Muokkaa sisältöä tekstinkäsittelyohjelmassa
Etsi tiettyjä tietoja ilman sivujen selaamista
Käännä teksti toiselle kielelle
Uudelleenmuotoile sisältö eri asiakirjaan tai esitykseen
Analysoi dataa taulukoista ja lomakkeista
Luo saavutettavia versioita asiakirjoista ruudunlukijoille

Yleisiä käyttötapauksia

Opiskelijat poimimassa tekstiä tieteellisistä artikkeleista ja oppikirjoista muistiinpanoja varten
Juristit vetämässä lausekkeita skannatuista sopimuksista vertailua varten
Kirjanpitäjät poimimassa dataa skannatuista laskuista ja kuitteista
Tutkijat digitalisoimassa vanhoja painettuja materiaaleja analyysia varten
Hallintohenkilökunta muuntamassa skannattuja lomakkeita muokattaviksi asiakirjoiksi

Tarvitset poimia tekstiä PDF:stä heti? Seuraa vaiheittaista opastamme: Kuinka poimia PDF-teksti. Se toimii sekä tekstipohjaisissa että skannatuissa PDF:issä suoraan selaimessasi.

Tekstin poimiminen PDF:stä kun kopiointi ei toimi

Tämä on yksi yleisimmistä PDF-turhauttavista tilanteista, ja se tapahtuu useammin kuin saatat ajatella. Hyvä uutinen on, että lähes aina on ratkaisu.

90%Toimistoasiakirjoista päätyy PDF:ksi

40%+PDF:istä on skannattuja kuvia

3Pääsyytä kopioinnin epäonnistumiseen

Miksi kopiointi epäonnistuu PDF:issä

Kaikki PDF:t eivät ole samanlaisia. Syy siihen, että et voi kopioida tekstiä, riippuu siitä, miten PDF on tehty.

Syy 1: PDF on skannattu kuva

Syy 2: PDF on suojattu

Kun PDF on kopiointisuojattu, voit yleensä nähdä ja lukea tekstin, mutta kohdistimesi ei valitse sitä tai kopiointitoiminto on harmaana.

Syy 3: Tekstin koodaus on rikki

Tämä tapahtuu useimmiten PDF:issä, jotka on luotu vanhemmilla ohjelmistoilla, tietyissä LaTeX-konfiguraatioissa tai suunnittelutyökaluilla, jotka muuntavat tekstin ääriviivoiksi.

Kahden PDF-tyypin ymmärtäminen

Ongelman ratkaisemiseksi on hyödyllistä ymmärtää perustavanlaatuinen ero kahden pääsisältötyypin välillä PDF:issä.

Tekstipohjaiset PDF:t (digitaalisesti luodut)

Esimerkkejä: Asiakirjat viety Wordista, Google Docsista tai verkkoselaimista käyttäen "Tulosta PDF:ksi".

Kuvapohjaiset PDF:t (skannatut)

Esimerkkejä: Asiakirjat litteästä skannerista, puhelimen kameran skannaussovelluksesta tai faksi-PDF-palvelusta.

Avaa PDF

Yritä valita tekstiä

Teksti valittuu siististi?

Kopioi ja liimaa

Jos teksti ei valitu tai liimautuu väärin, tarvitset tekstinpoimintatyökalun.

Kuinka poimia tekstiä kun kopiointi epäonnistuu

Skannatuille PDF:ille: OCR

OCR toimii parhaiten kun:

Asiakirja on tulostettu (ei käsinkirjoitettu)
Skannauksen laatu on kohtuullinen (150 DPI tai enemmän)
Teksti on yleisessä kielessä
Sivu ei ole voimakkaasti vino tai kiertynyt

Suojatuille PDF:ille

Koodausongelmille

Käytännön vinkkejä parempaan tekstinpoimintaan

Tarkista lähde ensin. Ennen tekstin poimimista PDF:stä, tarkista onko sinulla alkuperäinen asiakirja saatavilla. Jos joku lähetti sinulle Word-asiakirjasta tehdyn PDF:n, pyydä Word-tiedostoa sen sijaan.
Paranna skannauksen laatua. Jos skannaat asiakirjaa itse, käytä vähintään 200 DPI:tä ja varmista, että paperi on tasainen ja hyvin valaistu. Varjot, ryppyt ja alhainen resoluutio kaikki heikentävät OCR-tarkkuutta.
Suorista vinot sivut. Jos skannaus on kiertynyt tai vino, suorista se ennen OCR:n ajamista. Useimmissa skannaussovelluksissa on suoristamisvaihtoehto.
Kokeile koko asiakirjaa, ei vain sivua. Jotkut työkalut toimivat paremmin kun ne voivat käsitellä koko asiakirjan kerralla, koska ympäröivien sivujen konteksti auttaa parantamaan tarkkuutta.
Oikolue tulokset. OCR-tulostetta tulee aina tarkistaa. Yleisiä virheitä ovat "l" ja "1", "O" ja "0" sekoittaminen ja välimerkkien väärinlukeminen.

Mitä voit tehdä poimitulla tekstillä

Kun teksti on poimittu, mahdollisuudet avautuvat:

Muokkaa sisältöä tekstinkäsittelyohjelmassa
Etsi tiettyjä tietoja ilman sivujen selaamista
Käännä teksti toiselle kielelle
Uudelleenmuotoile sisältö eri asiakirjaan tai esitykseen
Analysoi dataa taulukoista ja lomakkeista
Luo saavutettavia versioita asiakirjoista ruudunlukijoille

Yleisiä käyttötapauksia

Opiskelijat poimimassa tekstiä tieteellisistä artikkeleista ja oppikirjoista muistiinpanoja varten
Juristit vetämässä lausekkeita skannatuista sopimuksista vertailua varten
Kirjanpitäjät poimimassa dataa skannatuista laskuista ja kuitteista
Tutkijat digitalisoimassa vanhoja painettuja materiaaleja analyysia varten
Hallintohenkilökunta muuntamassa skannattuja lomakkeita muokattaviksi asiakirjoiksi

Tarvitset poimia tekstiä PDF:stä heti? Seuraa vaiheittaista opastamme: Kuinka poimia PDF-teksti. Se toimii sekä tekstipohjaisissa että skannatuissa PDF:issä suoraan selaimessasi.