Anda memerlukan teks dari PDF tetapi tidak boleh memilih atau menyalinnya. Mungkin PDF itu adalah dokumen yang diimbas, mungkin pemilihan teks dibatasi, atau mungkin anda hanya mahukan versi teks biasa yang bersih. Alat PDF ke Teks mengekstrak setiap perkataan dari PDF anda dalam beberapa saat.
Apa yang anda perlukan
- Fail PDF mengandungi teks yang anda mahu ekstrak
- Pelayar web
- Tiada akaun atau perisian untuk dipasang
Panduan langkah demi langkah
Buka alat PDF ke Teks
Pergi ke alat PDF ke Teks. Ia berjalan sepenuhnya dalam pelayar anda tanpa persediaan yang diperlukan.
Muat naik PDF anda
Klik kawasan muat naik atau seret dan lepas PDF anda. Alat akan memproses fail dan mengekstrak semua kandungan teks yang boleh dibaca.
Salin atau muat turun teks yang diekstrak
Teks yang diekstrak muncul dalam kawasan teks. Anda boleh memilih dan menyalin bahagian tertentu, atau memuat turun keseluruhan teks sebagai fail. Teks itu bersih dan sedia untuk ditampal ke dalam mana-mana dokumen, e-mel, atau editor.
Baik untuk diketahui Semua pengekstrakan teks berlaku secara tempatan dalam pelayar anda. PDF anda tidak pernah dihantar ke mana-mana pelayan, supaya dokumen sensitif kekal peribadi.
Jenis PDF apa yang berfungsi dengan alat ini?
PDF digital (asli)
PDF yang dicipta dari dokumen Word, halaman web, atau mana-mana aplikasi yang menjana PDF berasaskan teks. Ini memberikan hasil terbaik kerana teks sudah disimpan sebagai aksara dalam fail.
PDF yang diimbas
PDF yang dibuat dari dokumen kertas yang diimbas pada dasarnya adalah gambar. Pengekstrakan teks dari PDF yang diimbas bergantung pada keupayaan OCR alat. Keputusan umumnya baik untuk imbasan bersih dengan fon standard, tetapi tulisan tangan dan imbasan berkualiti sangat rendah mungkin menghasilkan keputusan yang tidak lengkap.
PDF campuran
Sesetengah PDF mengandungi campuran teks digital dan gambar yang diimbas. Alat mengekstrak apa-apa data teks yang tersedia dalam struktur fail.
Petua Untuk hasil pengekstrakan terbaik dari dokumen yang diimbas, pastikan imbasan sekurang-kurangnya 300 DPI dan teks jelas boleh dibaca. Imbasan yang condong atau kabur menghasilkan output berkualiti lebih rendah.
Kes penggunaan biasa
- Memetik teks dalam e-mel atau dokumen: Ekstrak kata-kata tepat dari laporan atau artikel PDF.
- Mencari kandungan: Setelah diekstrak, anda boleh menggunakan fungsi carian editor teks anda untuk mencari petikan tertentu.
- Kemasukan data: Tarik teks dari borang PDF atau invois ke dalam hamparan.
- Kebolehaksesan: Tukar kandungan PDF ke teks biasa untuk pembaca skrin atau alat teks-ke-ucapan.
- Terjemahan: Ekstrak teks, tampalkannya ke dalam alat terjemahan, dan terjemahkan kandungan.
Petua untuk hasil yang bersih
Semak pemisah baris: Pengekstrakan teks PDF kadang-kala memasukkan pemisah baris di tengah-tengah ayat kerana PDF asal menggunakan lajur lebar tetap. Anda mungkin perlu membersihkan pemisah baris dalam editor teks anda.
Perhatikan pengepala dan pengaki: Pengepala, pengaki, dan nombor halaman yang berulang dari PDF akan muncul dalam teks yang diekstrak. Padamkan ia secara manual jika ia mengacaukan hasilnya.
Jadual mungkin kehilangan struktur: Teks dalam jadual PDF diekstrak dari kiri ke kanan, atas ke bawah. Penjajaran lajur mungkin tidak dikekalkan sebagai teks biasa. Untuk data jadual, anda mungkin perlu menyusun semula secara manual dalam hamparan.
Penting Jika PDF dilindungi kata laluan dan menyekat penyalinan, alat mungkin tidak dapat mengekstrak teks. Anda perlu membuang sekatan PDF terlebih dahulu.
Soalan yang sering ditanya
Bolehkah saya mengekstrak teks dari halaman tertentu sahaja? Alat mengekstrak teks dari keseluruhan dokumen. Jika anda hanya memerlukan teks dari halaman tertentu, gunakan alat Padamkan Halaman PDF dahulu untuk mengasingkan halaman yang anda mahu, kemudian ekstrak teks dari fail yang dipangkas.
Adakah pemformatan dibawa ke dalam output? Output adalah teks biasa. Tebal, condong, warna, dan susun atur tidak dikekalkan. Anda mendapat perkataan dan perenggan mentah.
Bolehkah saya mengekstrak teks dari fail gambar? Alat ini berfungsi dengan fail PDF. Untuk mengekstrak teks dari gambar yang berdiri sendiri (JPG, PNG), anda memerlukan alat OCR yang khusus.
Langkah seterusnya
Sekarang anda mempunyai teks, anda mungkin mahu kembali ke PDF asal dan membuang halaman yang tidak perlu, memampatkannya, atau membersihkan metadatanya sebelum berkongsi.