Tidak Boleh Salin Teks Dari PDF? Inilah Sebabnya dan Cara Menyelesaikannya

Mengekstrak Teks Dari PDF Apabila Salin-Tampal Tidak Berfungsi

Anda membuka PDF, cuba memilih beberapa teks, dan tiada yang berlaku. Kursor tidak menyerlahkan apa-apa. Atau lebih teruk lagi, anda berjaya memilih dan menyalin teks, menampalnya ke dalam dokumen, dan mendapat kekacauan aksara rawak dan pemformatan yang rosak.

Ini adalah salah satu kekecewaan PDF yang paling biasa, dan ia berlaku lebih kerap daripada yang anda fikirkan. Berita baiknya adalah terdapat hampir selalu penyelesaian.

90%Dokumen pejabat berakhir sebagai PDF

40%+PDF adalah gambar yang diimbas

3Sebab utama salin-tampal gagal

Mengapa Salin-Tampal Gagal dalam PDF

Tidak semua PDF dicipta sama. Sebab anda tidak boleh menyalin teks bergantung pada cara PDF dibuat.

Sebab 1: PDF Adalah Gambar yang Diimbas

Ini adalah punca yang paling biasa. Apabila anda mengimbas dokumen kertas, pengimbas mengambil gambar setiap halaman. PDF yang terhasil mengandungi gambar, bukan teks. Bagi mata anda, anda melihat perkataan pada halaman. Bagi komputer, ia hanyalah piksel, tidak berbeza dari foto.

Anda biasanya boleh mengenal pasti PDF yang diimbas dengan zum masuk. Jika teks menjadi berpiksel atau berbutir pada tahap zum yang tinggi, ia adalah gambar. PDF berasaskan teks kekal jelas pada mana-mana tahap zum.

Tahukah anda? PDF boleh mengandungi campuran teks sebenar dan gambar yang diimbas pada halaman yang sama. Sesetengah pengimbas melakukan OCR (pengecaman aksara optik) asas dan menanam lapisan teks yang tidak kelihatan di belakang gambar, menjadikan teks boleh dipilih walaupun kandungan yang kelihatan adalah imbasan.

Sebab 2: PDF Dilindungi

Pengarang PDF boleh menetapkan kebenaran yang menghadkan apa yang boleh dilakukan pengguna dengan dokumen. Satu sekatan biasa adalah melumpuhkan pemilihan dan penyalinan teks. Ini sering digunakan untuk bahan berhak cipta, kertas peperiksaan, atau laporan proprietari.

Apabila PDF dilindungi salinan, anda biasanya boleh melihat dan membaca teks, tetapi kursor anda tidak akan memilihnya, atau fungsi salin dikelabukan.

Sebab 3: Pengekodan Teks Rosak

Sesetengah PDF menggunakan pengekodan fon tersuai atau subset tertanam yang tidak dipetakan kepada aksara standard. Teks secara teknikal ada, dan anda boleh memilihnya, tetapi apabila anda menampalnya di tempat lain, anda mendapat output yang bercelaru seperti "Wkh txlfn eurzq ira" dan bukannya "The quick brown fox."

Ini paling kerap berlaku dengan PDF yang dijana oleh perisian lama, konfigurasi LaTeX tertentu, atau alat reka bentuk yang menukar teks kepada garis besar.

Memahami Dua Jenis PDF

Untuk menyelesaikan masalah, ia membantu untuk memahami perbezaan asas antara dua jenis kandungan PDF utama.

PDF Berasaskan Teks (Digital-Asli)

Ini dicipta terus dari pemproses kata, hamparan, halaman web, atau aplikasi reka bentuk. Teks wujud sebagai data aksara sebenar dalam fail. PDF ini boleh dicari, boleh dipilih, dan biasanya kecil saiznya.

Contoh: Dokumen yang dieksport dari Word, Google Docs, atau pelayar web menggunakan "Cetak ke PDF."

PDF Berasaskan Gambar (Diimbas)

Ini mengandungi foto halaman. Tiada data teks sebenar dalam fail. Setiap halaman pada dasarnya adalah gambar. PDF ini tidak boleh dicari, tidak boleh dipilih, dan cenderung untuk lebih besar.

Contoh: Dokumen dari pengimbas flatbed, aplikasi pengimbas kamera telefon, atau perkhidmatan faks-ke-PDF.

Buka PDF anda

Cuba memilih teks

Teks dipilih dengan bersih?

Salin dan tampal

Jika teks tidak terpilih atau tertampal secara tidak betul, anda memerlukan alat pengekstrakan teks.

Cara Mengekstrak Teks Apabila Salin-Tampal Gagal

Untuk PDF yang Diimbas: OCR

Pengecaman Aksara Optik (OCR) adalah teknologi yang membaca teks dari gambar. Enjin OCR moden sangat tepat, terutamanya pada dokumen yang dicetak dengan bersih. Ia menganalisis bentuk aksara dalam gambar dan menukarnya kepada teks yang boleh diedit.

OCR berfungsi paling baik apabila:

Dokumen dicetak (bukan tulisan tangan)
Kualiti imbasan adalah munasabah (150 DPI atau lebih tinggi)
Teks dalam bahasa yang biasa
Halaman tidak banyak condong atau diputar

Amaran OCR tidak sempurna. Ia mungkin bergelut dengan tulisan tangan, fon yang tidak biasa, imbasan berkualiti rendah, atau dokumen dengan susun atur yang kompleks (seperti teks berbilang lajur dengan jadual dan gambar). Sentiasa semak output OCR sebelum menggunakannya dalam dokumen penting.

Untuk PDF yang Dilindungi

Jika PDF mempunyai sekatan salinan, alat pengekstrakan teks sering boleh membaca data teks asas tanpa mengira tetapan kebenaran. Teks masih hadir dalam fail; hanyalah fungsi salin yang dilumpuhkan dalam pempapar PDF standard.

Untuk Isu Pengekodan

Apabila teks wujud tetapi bercelaru, alat pengekstrakan kadang-kala boleh mentafsirkan pemetaan aksara dengan betul dan menghasilkan output yang bersih. Jika itu gagal, OCR boleh melayan halaman sebagai gambar dan mengenali semula aksara.

Petua Praktikal untuk Pengekstrakan Teks yang Lebih Baik

Semak sumber terlebih dahulu. Sebelum mengekstrak teks dari PDF, semak sama ada anda boleh mendapatkan dokumen asal. Jika seseorang menghantar PDF dokumen Word kepada anda, minta fail Word sebaliknya.
Tingkatkan kualiti imbasan. Jika anda mengimbas dokumen sendiri, gunakan sekurang-kurangnya 200 DPI dan pastikan kertas rata dan diterangi dengan baik. Bayang-bayang, kedutan, dan resolusi rendah semuanya mengurangkan ketepatan OCR.
Luruskan halaman yang condong. Jika imbasan diputar atau condong, luruskannya sebelum menjalankan OCR. Kebanyakan aplikasi pengimbasan mempunyai pilihan deskew.
Cuba seluruh dokumen, bukan hanya satu halaman. Sesetengah alat berfungsi lebih baik apabila mereka boleh memproses keseluruhan dokumen sekaligus, kerana konteks dari halaman sekeliling membantu meningkatkan ketepatan.
Semak hasilnya. Output OCR hendaklah sentiasa disemak. Ralat biasa termasuk mengelirukan "l" dengan "1", "O" dengan "0", dan salah membaca tanda baca.

Petua Anda boleh mengekstrak teks dari mana-mana PDF, termasuk dokumen yang diimbas, secara percuma dalam pelayar anda. Alat kami mengendalikan kedua-dua PDF berasaskan teks dan berasaskan gambar secara automatik.

Apa Yang Boleh Anda Lakukan dengan Teks yang Diekstrak

Setelah anda mendapat teks, kemungkinan terbuka:

Edit kandungan dalam pemproses kata
Cari maklumat tertentu tanpa menatal melalui halaman
Terjemahkan teks ke bahasa lain
Formatkan semula kandungan untuk dokumen atau persembahan yang berbeza
Analisis data dari jadual dan borang
Cipta versi yang boleh diakses dokumen untuk pembaca skrin

Kes Penggunaan Biasa

Pelajar mengekstrak teks dari kertas akademik dan buku teks untuk nota
Peguam mengambil klausa dari kontrak yang diimbas untuk perbandingan
Akauntan mengekstrak data dari invois dan resit yang diimbas
Penyelidik mendigitalkan bahan bercetak lama untuk analisis
Kakitangan pentadbiran menukar borang yang diimbas kepada dokumen yang boleh diedit

Perlu mengekstrak teks dari PDF sekarang? Ikuti panduan langkah demi langkah kami: Cara Mengekstrak Teks PDF. Ia berfungsi pada kedua-dua PDF berasaskan teks dan yang diimbas, terus dalam pelayar anda.

Mengekstrak Teks Dari PDF Apabila Salin-Tampal Tidak Berfungsi

Ini adalah salah satu kekecewaan PDF yang paling biasa, dan ia berlaku lebih kerap daripada yang anda fikirkan. Berita baiknya adalah terdapat hampir selalu penyelesaian.

90%Dokumen pejabat berakhir sebagai PDF

40%+PDF adalah gambar yang diimbas

3Sebab utama salin-tampal gagal

Mengapa Salin-Tampal Gagal dalam PDF

Tidak semua PDF dicipta sama. Sebab anda tidak boleh menyalin teks bergantung pada cara PDF dibuat.

Sebab 1: PDF Adalah Gambar yang Diimbas

Sebab 2: PDF Dilindungi

Apabila PDF dilindungi salinan, anda biasanya boleh melihat dan membaca teks, tetapi kursor anda tidak akan memilihnya, atau fungsi salin dikelabukan.

Sebab 3: Pengekodan Teks Rosak

Ini paling kerap berlaku dengan PDF yang dijana oleh perisian lama, konfigurasi LaTeX tertentu, atau alat reka bentuk yang menukar teks kepada garis besar.

Memahami Dua Jenis PDF

Untuk menyelesaikan masalah, ia membantu untuk memahami perbezaan asas antara dua jenis kandungan PDF utama.

PDF Berasaskan Teks (Digital-Asli)

Contoh: Dokumen yang dieksport dari Word, Google Docs, atau pelayar web menggunakan "Cetak ke PDF."

PDF Berasaskan Gambar (Diimbas)

Ini mengandungi foto halaman. Tiada data teks sebenar dalam fail. Setiap halaman pada dasarnya adalah gambar. PDF ini tidak boleh dicari, tidak boleh dipilih, dan cenderung untuk lebih besar.

Contoh: Dokumen dari pengimbas flatbed, aplikasi pengimbas kamera telefon, atau perkhidmatan faks-ke-PDF.

Buka PDF anda

Cuba memilih teks

Teks dipilih dengan bersih?

Salin dan tampal

Jika teks tidak terpilih atau tertampal secara tidak betul, anda memerlukan alat pengekstrakan teks.

Cara Mengekstrak Teks Apabila Salin-Tampal Gagal

Untuk PDF yang Diimbas: OCR

OCR berfungsi paling baik apabila:

Dokumen dicetak (bukan tulisan tangan)
Kualiti imbasan adalah munasabah (150 DPI atau lebih tinggi)
Teks dalam bahasa yang biasa
Halaman tidak banyak condong atau diputar

Untuk PDF yang Dilindungi

Untuk Isu Pengekodan

Petua Praktikal untuk Pengekstrakan Teks yang Lebih Baik

Semak sumber terlebih dahulu. Sebelum mengekstrak teks dari PDF, semak sama ada anda boleh mendapatkan dokumen asal. Jika seseorang menghantar PDF dokumen Word kepada anda, minta fail Word sebaliknya.
Tingkatkan kualiti imbasan. Jika anda mengimbas dokumen sendiri, gunakan sekurang-kurangnya 200 DPI dan pastikan kertas rata dan diterangi dengan baik. Bayang-bayang, kedutan, dan resolusi rendah semuanya mengurangkan ketepatan OCR.
Luruskan halaman yang condong. Jika imbasan diputar atau condong, luruskannya sebelum menjalankan OCR. Kebanyakan aplikasi pengimbasan mempunyai pilihan deskew.
Cuba seluruh dokumen, bukan hanya satu halaman. Sesetengah alat berfungsi lebih baik apabila mereka boleh memproses keseluruhan dokumen sekaligus, kerana konteks dari halaman sekeliling membantu meningkatkan ketepatan.
Semak hasilnya. Output OCR hendaklah sentiasa disemak. Ralat biasa termasuk mengelirukan "l" dengan "1", "O" dengan "0", dan salah membaca tanda baca.

Apa Yang Boleh Anda Lakukan dengan Teks yang Diekstrak

Setelah anda mendapat teks, kemungkinan terbuka:

Edit kandungan dalam pemproses kata
Cari maklumat tertentu tanpa menatal melalui halaman
Terjemahkan teks ke bahasa lain
Formatkan semula kandungan untuk dokumen atau persembahan yang berbeza
Analisis data dari jadual dan borang
Cipta versi yang boleh diakses dokumen untuk pembaca skrin

Kes Penggunaan Biasa

Pelajar mengekstrak teks dari kertas akademik dan buku teks untuk nota
Peguam mengambil klausa dari kontrak yang diimbas untuk perbandingan
Akauntan mengekstrak data dari invois dan resit yang diimbas
Penyelidik mendigitalkan bahan bercetak lama untuk analisis
Kakitangan pentadbiran menukar borang yang diimbas kepada dokumen yang boleh diedit