Mengekstrak Teks Dari PDF Apabila Salin-Tampal Tidak Berfungsi
Anda membuka PDF, cuba memilih beberapa teks, dan tiada yang berlaku. Kursor tidak menyerlahkan apa-apa. Atau lebih teruk lagi, anda berjaya memilih dan menyalin teks, menampalnya ke dalam dokumen, dan mendapat kekacauan aksara rawak dan pemformatan yang rosak.
Ini adalah salah satu kekecewaan PDF yang paling biasa, dan ia berlaku lebih kerap daripada yang anda fikirkan. Berita baiknya adalah terdapat hampir selalu penyelesaian.
Mengapa Salin-Tampal Gagal dalam PDF
Tidak semua PDF dicipta sama. Sebab anda tidak boleh menyalin teks bergantung pada cara PDF dibuat.
Sebab 1: PDF Adalah Gambar yang Diimbas
Ini adalah punca yang paling biasa. Apabila anda mengimbas dokumen kertas, pengimbas mengambil gambar setiap halaman. PDF yang terhasil mengandungi gambar, bukan teks. Bagi mata anda, anda melihat perkataan pada halaman. Bagi komputer, ia hanyalah piksel, tidak berbeza dari foto.
Anda biasanya boleh mengenal pasti PDF yang diimbas dengan zum masuk. Jika teks menjadi berpiksel atau berbutir pada tahap zum yang tinggi, ia adalah gambar. PDF berasaskan teks kekal jelas pada mana-mana tahap zum.
Tahukah anda? PDF boleh mengandungi campuran teks sebenar dan gambar yang diimbas pada halaman yang sama. Sesetengah pengimbas melakukan OCR (pengecaman aksara optik) asas dan menanam lapisan teks yang tidak kelihatan di belakang gambar, menjadikan teks boleh dipilih walaupun kandungan yang kelihatan adalah imbasan.
Sebab 2: PDF Dilindungi
Pengarang PDF boleh menetapkan kebenaran yang menghadkan apa yang boleh dilakukan pengguna dengan dokumen. Satu sekatan biasa adalah melumpuhkan pemilihan dan penyalinan teks. Ini sering digunakan untuk bahan berhak cipta, kertas peperiksaan, atau laporan proprietari.
Apabila PDF dilindungi salinan, anda biasanya boleh melihat dan membaca teks, tetapi kursor anda tidak akan memilihnya, atau fungsi salin dikelabukan.
Sebab 3: Pengekodan Teks Rosak
Sesetengah PDF menggunakan pengekodan fon tersuai atau subset tertanam yang tidak dipetakan kepada aksara standard. Teks secara teknikal ada, dan anda boleh memilihnya, tetapi apabila anda menampalnya di tempat lain, anda mendapat output yang bercelaru seperti "Wkh txlfn eurzq ira" dan bukannya "The quick brown fox."
Ini paling kerap berlaku dengan PDF yang dijana oleh perisian lama, konfigurasi LaTeX tertentu, atau alat reka bentuk yang menukar teks kepada garis besar.
Memahami Dua Jenis PDF
Untuk menyelesaikan masalah, ia membantu untuk memahami perbezaan asas antara dua jenis kandungan PDF utama.
PDF Berasaskan Teks (Digital-Asli)
Ini dicipta terus dari pemproses kata, hamparan, halaman web, atau aplikasi reka bentuk. Teks wujud sebagai data aksara sebenar dalam fail. PDF ini boleh dicari, boleh dipilih, dan biasanya kecil saiznya.
Contoh: Dokumen yang dieksport dari Word, Google Docs, atau pelayar web menggunakan "Cetak ke PDF."
PDF Berasaskan Gambar (Diimbas)
Ini mengandungi foto halaman. Tiada data teks sebenar dalam fail. Setiap halaman pada dasarnya adalah gambar. PDF ini tidak boleh dicari, tidak boleh dipilih, dan cenderung untuk lebih besar.
Contoh: Dokumen dari pengimbas flatbed, aplikasi pengimbas kamera telefon, atau perkhidmatan faks-ke-PDF.
Jika teks tidak terpilih atau tertampal secara tidak betul, anda memerlukan alat pengekstrakan teks.
Cara Mengekstrak Teks Apabila Salin-Tampal Gagal
Untuk PDF yang Diimbas: OCR
Pengecaman Aksara Optik (OCR) adalah teknologi yang membaca teks dari gambar. Enjin OCR moden sangat tepat, terutamanya pada dokumen yang dicetak dengan bersih. Ia menganalisis bentuk aksara dalam gambar dan menukarnya kepada teks yang boleh diedit.
OCR berfungsi paling baik apabila:
- Dokumen dicetak (bukan tulisan tangan)
- Kualiti imbasan adalah munasabah (150 DPI atau lebih tinggi)
- Teks dalam bahasa yang biasa
- Halaman tidak banyak condong atau diputar
Amaran OCR tidak sempurna. Ia mungkin bergelut dengan tulisan tangan, fon yang tidak biasa, imbasan berkualiti rendah, atau dokumen dengan susun atur yang kompleks (seperti teks berbilang lajur dengan jadual dan gambar). Sentiasa semak output OCR sebelum menggunakannya dalam dokumen penting.
Untuk PDF yang Dilindungi
Jika PDF mempunyai sekatan salinan, alat pengekstrakan teks sering boleh membaca data teks asas tanpa mengira tetapan kebenaran. Teks masih hadir dalam fail; hanyalah fungsi salin yang dilumpuhkan dalam pempapar PDF standard.
Untuk Isu Pengekodan
Apabila teks wujud tetapi bercelaru, alat pengekstrakan kadang-kala boleh mentafsirkan pemetaan aksara dengan betul dan menghasilkan output yang bersih. Jika itu gagal, OCR boleh melayan halaman sebagai gambar dan mengenali semula aksara.
Petua Praktikal untuk Pengekstrakan Teks yang Lebih Baik
Semak sumber terlebih dahulu. Sebelum mengekstrak teks dari PDF, semak sama ada anda boleh mendapatkan dokumen asal. Jika seseorang menghantar PDF dokumen Word kepada anda, minta fail Word sebaliknya.
Tingkatkan kualiti imbasan. Jika anda mengimbas dokumen sendiri, gunakan sekurang-kurangnya 200 DPI dan pastikan kertas rata dan diterangi dengan baik. Bayang-bayang, kedutan, dan resolusi rendah semuanya mengurangkan ketepatan OCR.
Luruskan halaman yang condong. Jika imbasan diputar atau condong, luruskannya sebelum menjalankan OCR. Kebanyakan aplikasi pengimbasan mempunyai pilihan deskew.
Cuba seluruh dokumen, bukan hanya satu halaman. Sesetengah alat berfungsi lebih baik apabila mereka boleh memproses keseluruhan dokumen sekaligus, kerana konteks dari halaman sekeliling membantu meningkatkan ketepatan.
Semak hasilnya. Output OCR hendaklah sentiasa disemak. Ralat biasa termasuk mengelirukan "l" dengan "1", "O" dengan "0", dan salah membaca tanda baca.
Petua Anda boleh mengekstrak teks dari mana-mana PDF, termasuk dokumen yang diimbas, secara percuma dalam pelayar anda. Alat kami mengendalikan kedua-dua PDF berasaskan teks dan berasaskan gambar secara automatik.
Apa Yang Boleh Anda Lakukan dengan Teks yang Diekstrak
Setelah anda mendapat teks, kemungkinan terbuka:
- Edit kandungan dalam pemproses kata
- Cari maklumat tertentu tanpa menatal melalui halaman
- Terjemahkan teks ke bahasa lain
- Formatkan semula kandungan untuk dokumen atau persembahan yang berbeza
- Analisis data dari jadual dan borang
- Cipta versi yang boleh diakses dokumen untuk pembaca skrin
Kes Penggunaan Biasa
- Pelajar mengekstrak teks dari kertas akademik dan buku teks untuk nota
- Peguam mengambil klausa dari kontrak yang diimbas untuk perbandingan
- Akauntan mengekstrak data dari invois dan resit yang diimbas
- Penyelidik mendigitalkan bahan bercetak lama untuk analisis
- Kakitangan pentadbiran menukar borang yang diimbas kepada dokumen yang boleh diedit
Perlu mengekstrak teks dari PDF sekarang? Ikuti panduan langkah demi langkah kami: Cara Mengekstrak Teks PDF. Ia berfungsi pada kedua-dua PDF berasaskan teks dan yang diimbas, terus dalam pelayar anda.