Tekstin poimiminen PDF:stä kun kopiointi ei toimi
Avaat PDF:n, yrität valita tekstiä ja mitään ei tapahdu. Kohdistin ei korosta mitään. Tai vielä pahempaa – onnistut valitsemaan ja kopioimaan tekstiä, liimaat sen asiakirjaan ja saat sekalaisen sotkun satunnaisia merkkejä ja rikkinäistä muotoilua.
Tämä on yksi yleisimmistä PDF-turhauttavista tilanteista, ja se tapahtuu useammin kuin saatat ajatella. Hyvä uutinen on, että lähes aina on ratkaisu.
Miksi kopiointi epäonnistuu PDF:issä
Kaikki PDF:t eivät ole samanlaisia. Syy siihen, että et voi kopioida tekstiä, riippuu siitä, miten PDF on tehty.
Syy 1: PDF on skannattu kuva
Tämä on yleisin syy. Kun skannaat paperisen asiakirjan, skanneri ottaa kuvan jokaisesta sivusta. Tuloksena oleva PDF sisältää kuvia, ei tekstiä. Silmiisi se näyttää sanoilta sivulla. Tietokoneelle se on vain pikseleitä, ei eroa valokuvasta.
Voit yleensä tunnistaa skannatun PDF:n zoomaamalla sisään. Jos teksti muuttuu pikselöityneeksi tai rakeiseksi suurella zoomilla, se on kuva. Tekstipohjaiset PDF:t pysyvät terävinä millä tahansa zoomitasolla.
Tiesitkö? PDF voi sisältää yhdellä sivulla sekä oikeaa tekstiä että skannattuja kuvia. Jotkut skannerit suorittavat perustason OCR:n (optinen merkintunnistus) ja upottavat näkymättömän tekstikerroksen kuvan taakse, mikä tekee tekstin valittavaksi vaikka näkyvä sisältö on skannaus.
Syy 2: PDF on suojattu
PDF:n kirjoittajat voivat asettaa käyttöoikeuksia, jotka rajoittavat sitä, mitä käyttäjät voivat tehdä asiakirjalla. Yksi yleinen rajoitus on tekstin valinnan ja kopioinnin poistaminen käytöstä. Tätä käytetään usein tekijänoikeudelliselle materiaalille, koetehtäville tai omistuksellisille raporteille.
Kun PDF on kopiointisuojattu, voit yleensä nähdä ja lukea tekstin, mutta kohdistimesi ei valitse sitä tai kopiointitoiminto on harmaana.
Syy 3: Tekstin koodaus on rikki
Jotkut PDF:t käyttävät mukautettuja fonttikoodauksia tai upotettuja alijoukkoja, jotka eivät vastaa standardimerkkejä. Teksti on teknisesti siellä ja voit valita sen, mutta kun liimaat sen muualle, saat sekavaa tulostetta kuten "Wkh txlfn eurzq ira" sen sijaan "The quick brown fox."
Tämä tapahtuu useimmiten PDF:issä, jotka on luotu vanhemmilla ohjelmistoilla, tietyissä LaTeX-konfiguraatioissa tai suunnittelutyökaluilla, jotka muuntavat tekstin ääriviivoiksi.
Kahden PDF-tyypin ymmärtäminen
Ongelman ratkaisemiseksi on hyödyllistä ymmärtää perustavanlaatuinen ero kahden pääsisältötyypin välillä PDF:issä.
Tekstipohjaiset PDF:t (digitaalisesti luodut)
Nämä on luotu suoraan tekstinkäsittelyohjelmasta, taulukkolaskennasta, verkkosivulta tai suunnittelusovelluksesta. Teksti on tiedostossa todellisena merkkidatana. Nämä PDF:t ovat haettavia, valittavia ja yleensä pieniä tiedostokokoltaan.
Esimerkkejä: Asiakirjat viety Wordista, Google Docsista tai verkkoselaimista käyttäen "Tulosta PDF:ksi".
Kuvapohjaiset PDF:t (skannatut)
Nämä sisältävät valokuvia sivuista. Tiedostossa ei ole todellista tekstidataa. Jokainen sivu on pohjimmiltaan kuva. Nämä PDF:t eivät ole haettavia, eivät valittavia, ja ne ovat yleensä paljon suurempia.
Esimerkkejä: Asiakirjat litteästä skannerista, puhelimen kameran skannaussovelluksesta tai faksi-PDF-palvelusta.
Jos teksti ei valitu tai liimautuu väärin, tarvitset tekstinpoimintatyökalun.
Kuinka poimia tekstiä kun kopiointi epäonnistuu
Skannatuille PDF:ille: OCR
Optinen merkintunnistus (OCR) on teknologia, joka lukee tekstiä kuvista. Nykyaikaiset OCR-moottorit ovat hämmästyttävän tarkkoja, erityisesti puhtaasti tulostetuissa asiakirjoissa. Ne analysoivat merkkien muodot kuvassa ja muuntavat ne muokattavaksi tekstiksi.
OCR toimii parhaiten kun:
- Asiakirja on tulostettu (ei käsinkirjoitettu)
- Skannauksen laatu on kohtuullinen (150 DPI tai enemmän)
- Teksti on yleisessä kielessä
- Sivu ei ole voimakkaasti vino tai kiertynyt
Varoitus OCR ei ole täydellinen. Se voi kamppailla käsialan, epätavallisten fonttien, huonolaatuisten skannausten tai monimutkaisten asettelujen kanssa (kuten monipalstainen teksti taulukoiden ja kuvien kanssa). Tarkista aina OCR-tulos ennen sen käyttämistä tärkeissä asiakirjoissa.
Suojatuille PDF:ille
Jos PDF:llä on kopiointirajoituksia, tekstinpoimintatyökalu voi usein lukea alla olevan tekstidatan riippumatta käyttöoikeusasetuksista. Teksti on silti tiedostossa; vain kopiointitoiminto on poistettu käytöstä vakio-PDF-lukijoissa.
Koodausongelmille
Kun teksti on olemassa mutta sekavaa, poimintatyökalut voivat joskus tulkita merkkijärjestykset oikein ja tuottaa siistin tuloksen. Jos se epäonnistuu, OCR voi käsitellä sivua kuvana ja tunnistaa merkit uudelleen.
Käytännön vinkkejä parempaan tekstinpoimintaan
Tarkista lähde ensin. Ennen tekstin poimimista PDF:stä, tarkista onko sinulla alkuperäinen asiakirja saatavilla. Jos joku lähetti sinulle Word-asiakirjasta tehdyn PDF:n, pyydä Word-tiedostoa sen sijaan.
Paranna skannauksen laatua. Jos skannaat asiakirjaa itse, käytä vähintään 200 DPI:tä ja varmista, että paperi on tasainen ja hyvin valaistu. Varjot, ryppyt ja alhainen resoluutio kaikki heikentävät OCR-tarkkuutta.
Suorista vinot sivut. Jos skannaus on kiertynyt tai vino, suorista se ennen OCR:n ajamista. Useimmissa skannaussovelluksissa on suoristamisvaihtoehto.
Kokeile koko asiakirjaa, ei vain sivua. Jotkut työkalut toimivat paremmin kun ne voivat käsitellä koko asiakirjan kerralla, koska ympäröivien sivujen konteksti auttaa parantamaan tarkkuutta.
Oikolue tulokset. OCR-tulostetta tulee aina tarkistaa. Yleisiä virheitä ovat "l" ja "1", "O" ja "0" sekoittaminen ja välimerkkien väärinlukeminen.
Vinkki Voit poimia tekstiä mistä tahansa PDF:stä, mukaan lukien skannatuista asiakirjoista, ilmaiseksi selaimessasi. Työkalumme käsittelee sekä tekstipohjaisia että kuvamaisia PDF:iä automaattisesti.
Mitä voit tehdä poimitulla tekstillä
Kun teksti on poimittu, mahdollisuudet avautuvat:
- Muokkaa sisältöä tekstinkäsittelyohjelmassa
- Etsi tiettyjä tietoja ilman sivujen selaamista
- Käännä teksti toiselle kielelle
- Uudelleenmuotoile sisältö eri asiakirjaan tai esitykseen
- Analysoi dataa taulukoista ja lomakkeista
- Luo saavutettavia versioita asiakirjoista ruudunlukijoille
Yleisiä käyttötapauksia
- Opiskelijat poimimassa tekstiä tieteellisistä artikkeleista ja oppikirjoista muistiinpanoja varten
- Juristit vetämässä lausekkeita skannatuista sopimuksista vertailua varten
- Kirjanpitäjät poimimassa dataa skannatuista laskuista ja kuitteista
- Tutkijat digitalisoimassa vanhoja painettuja materiaaleja analyysia varten
- Hallintohenkilökunta muuntamassa skannattuja lomakkeita muokattaviksi asiakirjoiksi
Tarvitset poimia tekstiä PDF:stä heti? Seuraa vaiheittaista opastamme: Kuinka poimia PDF-teksti. Se toimii sekä tekstipohjaisissa että skannatuissa PDF:issä suoraan selaimessasi.