Mengekstrak Teks dari PDF Saat Copy-Paste Tidak Berfungsi
Anda membuka PDF, mencoba memilih teks, dan tidak ada yang terjadi. Kursor tidak menyorot apa pun. Atau lebih buruk lagi, Anda berhasil memilih dan menyalin teks, menempelkannya ke dokumen, dan mendapatkan kekacauan karakter acak dan format yang berantakan.
Ini adalah salah satu frustrasi PDF yang paling umum, dan itu terjadi lebih sering dari yang Anda kira. Kabar baiknya adalah hampir selalu ada solusinya.
Mengapa Copy-Paste Gagal di PDF
Tidak semua PDF diciptakan sama. Alasan Anda tidak dapat menyalin teks bergantung pada bagaimana PDF dibuat.
Alasan 1: PDF adalah Gambar yang Dipindai
Ini adalah penyebab paling umum. Saat Anda memindai dokumen kertas, scanner mengambil foto setiap halaman. PDF yang dihasilkan berisi gambar, bukan teks. Bagi mata Anda, Anda melihat kata-kata di halaman. Bagi komputer, itu hanyalah piksel, tidak berbeda dari foto.
Anda biasanya bisa mengenali PDF yang dipindai dengan memperbesar tampilannya. Jika teks menjadi pixelated atau berbintik pada zoom tinggi, itu adalah gambar. PDF berbasis teks tetap tajam pada level zoom berapa pun.
Tahukah Anda? PDF dapat berisi campuran teks nyata dan gambar yang dipindai pada halaman yang sama. Beberapa scanner melakukan OCR (optical character recognition) dasar dan menyematkan lapisan teks tak terlihat di belakang gambar, membuat teks dapat dipilih meskipun konten yang terlihat adalah hasil scan.
Alasan 2: PDF Dilindungi
Pembuat PDF dapat menetapkan izin yang membatasi apa yang dapat dilakukan pengguna dengan dokumen. Satu pembatasan umum adalah menonaktifkan pemilihan dan penyalinan teks. Ini sering digunakan untuk materi berhak cipta, soal ujian, atau laporan kepemilikan.
Ketika PDF dilindungi salinan, Anda biasanya dapat melihat dan membaca teks, tetapi kursor Anda tidak akan memilihnya, atau fungsi salin dinonaktifkan.
Alasan 3: Pengkodean Teks Rusak
Beberapa PDF menggunakan pengkodean font kustom atau subset yang disematkan yang tidak dipetakan ke karakter standar. Teks secara teknis ada, dan Anda dapat memilihnya, tetapi saat Anda menempelkan di tempat lain, Anda mendapatkan output yang berantakan seperti "Wkh txlfn eurzq ira" bukan "The quick brown fox."
Ini paling sering terjadi dengan PDF yang dihasilkan oleh software lama, konfigurasi LaTeX tertentu, atau alat desain yang mengonversi teks menjadi garis besar.
Memahami Dua Jenis PDF
Untuk memecahkan masalah, membantu memahami perbedaan mendasar antara dua jenis konten PDF utama.
PDF Berbasis Teks (Digital-Native)
Ini dibuat langsung dari word processor, spreadsheet, halaman web, atau aplikasi desain. Teks ada sebagai data karakter sebenarnya dalam file. PDF ini dapat dicari, dapat dipilih, dan biasanya berukuran kecil.
Contoh: Dokumen yang diekspor dari Word, Google Docs, atau browser web menggunakan "Cetak ke PDF."
PDF Berbasis Gambar (Dipindai)
Ini berisi foto halaman. Tidak ada data teks nyata di dalam file. Setiap halaman pada dasarnya adalah gambar. PDF ini tidak dapat dicari, tidak dapat dipilih, dan cenderung jauh lebih besar.
Contoh: Dokumen dari scanner datar, aplikasi scan kamera ponsel, atau layanan faks-ke-PDF.
Jika teks tidak terpilih atau tertempel dengan tidak benar, Anda memerlukan alat ekstraksi teks.
Cara Mengekstrak Teks Saat Copy-Paste Gagal
Untuk PDF yang Dipindai: OCR
Optical Character Recognition (OCR) adalah teknologi yang membaca teks dari gambar. Mesin OCR modern sangat akurat, terutama pada dokumen yang dicetak dengan jelas. Mereka menganalisis bentuk karakter dalam gambar dan mengonversinya menjadi teks yang dapat diedit.
OCR bekerja paling baik saat:
- Dokumen dicetak (bukan tulisan tangan)
- Kualitas scan wajar (150 DPI atau lebih tinggi)
- Teks dalam bahasa yang umum
- Halaman tidak terlalu miring atau berputar
Peringatan OCR tidak sempurna. OCR mungkin kesulitan dengan tulisan tangan, font yang tidak biasa, scan berkualitas rendah, atau dokumen dengan tata letak yang kompleks (seperti teks multi-kolom dengan tabel dan gambar). Selalu periksa output OCR sebelum menggunakannya dalam dokumen penting.
Untuk PDF yang Dilindungi
Jika PDF memiliki pembatasan salinan, alat ekstraksi teks sering dapat membaca data teks yang mendasarinya terlepas dari pengaturan izin. Teks masih ada dalam file; hanya fungsi salin yang dinonaktifkan di penampil PDF standar.
Untuk Masalah Pengkodean
Ketika teks ada tetapi berantakan, alat ekstraksi terkadang dapat menginterpretasikan pemetaan karakter dengan benar dan menghasilkan output yang bersih. Jika itu gagal, OCR dapat memperlakukan halaman sebagai gambar dan mengenali ulang karakter.
Tips Praktis untuk Ekstraksi Teks yang Lebih Baik
Periksa sumbernya terlebih dahulu. Sebelum mengekstrak teks dari PDF, periksa apakah Anda bisa mendapatkan dokumen aslinya. Jika seseorang mengirimkan PDF dari dokumen Word, minta file Word-nya.
Tingkatkan kualitas scan. Jika Anda memindai dokumen sendiri, gunakan setidaknya 200 DPI dan pastikan kertas rata dan pencahayaan baik. Bayangan, kerutan, dan resolusi rendah semua mengurangi akurasi OCR.
Luruskan halaman yang miring. Jika scan diputar atau miring, luruskan sebelum menjalankan OCR. Sebagian besar aplikasi scanning memiliki opsi deskew.
Coba seluruh dokumen, bukan hanya satu halaman. Beberapa alat bekerja lebih baik saat dapat memproses seluruh dokumen sekaligus, karena konteks dari halaman-halaman sekitarnya membantu meningkatkan akurasi.
Periksa hasilnya. Output OCR harus selalu ditinjau. Kesalahan umum termasuk mengacaukan "l" dengan "1", "O" dengan "0", dan salah membaca tanda baca.
Tips Anda dapat mengekstrak teks dari PDF mana pun, termasuk dokumen yang dipindai, secara gratis di browser Anda. Alat kami menangani PDF berbasis teks dan berbasis gambar secara otomatis.
Apa yang Dapat Anda Lakukan dengan Teks yang Diekstrak
Setelah memiliki teks, berbagai kemungkinan terbuka:
- Edit konten di word processor
- Cari informasi spesifik tanpa menggulir halaman demi halaman
- Terjemahkan teks ke bahasa lain
- Format ulang konten untuk dokumen atau presentasi yang berbeda
- Analisis data dari tabel dan formulir
- Buat versi yang dapat diakses dari dokumen untuk pembaca layar
Kasus Penggunaan Umum
- Mahasiswa mengekstrak teks dari makalah akademis dan buku teks untuk catatan
- Pengacara mengambil klausa dari kontrak yang dipindai untuk perbandingan
- Akuntan mengekstrak data dari faktur dan kuitansi yang dipindai
- Peneliti mendigitalkan materi cetakan lama untuk analisis
- Staf administrasi mengonversi formulir yang dipindai menjadi dokumen yang dapat diedit
Perlu mengekstrak teks dari PDF sekarang? Ikuti panduan langkah demi langkah kami: Cara Mengekstrak Teks PDF. Berfungsi untuk PDF berbasis teks dan yang dipindai, langsung di browser Anda.