การดึงข้อความจาก PDF เมื่อคัดลอกวางไม่ทำงาน
คุณเปิด PDF ลองเลือกข้อความ แล้วไม่มีอะไรเกิดขึ้น เคอร์เซอร์ไม่ไฮไลท์อะไรเลย หรือแย่กว่านั้น คุณเลือกและคัดลอกข้อความได้ วางลงในเอกสาร แล้วได้ตัวอักษรสุ่มเละเทะและการจัดรูปแบบเสียหาย
นี่คือหนึ่งในความหงุดหงิดเรื่อง PDF ที่พบบ่อยที่สุด และเกิดขึ้นบ่อยกว่าที่คุณคิด ข่าวดีคือเกือบทุกครั้งมีวิธีแก้ไข
ทำไมคัดลอกวางถึงล้มเหลวใน PDF
PDF ทุกไฟล์ไม่ได้ถูกสร้างมาเหมือนกัน เหตุผลที่คุณคัดลอกข้อความไม่ได้ขึ้นอยู่กับวิธีที่ PDF ถูกสร้าง
เหตุผลที่ 1: PDF เป็นรูปภาพที่สแกน
นี่คือสาเหตุที่พบบ่อยที่สุด เมื่อคุณสแกนเอกสารกระดาษ เครื่องสแกนถ่ายรูปแต่ละหน้า PDF ที่ได้จะมีรูปภาพ ไม่ใช่ข้อความ สายตาของคุณเห็นคำบนหน้า แต่สำหรับคอมพิวเตอร์ มันเป็นแค่พิกเซล ไม่ต่างจากรูปถ่าย
คุณมักจะบอกได้ว่าเป็น PDF ที่สแกนโดยการซูมเข้า ถ้าข้อความเป็นพิกเซลหรือเม็ดเมื่อซูมสูง มันเป็นรูปภาพ PDF ที่เป็นข้อความจะคมชัดในทุกระดับการซูม
รู้หรือไม่? PDF สามารถมีทั้งข้อความจริงและรูปภาพที่สแกนในหน้าเดียวกัน เครื่องสแกนบางตัวทำ OCR (การจดจำอักขระด้วยแสง) พื้นฐานและฝังชั้นข้อความที่มองไม่เห็นไว้หลังรูปภาพ ทำให้เลือกข้อความได้แม้เนื้อหาที่เห็นจะเป็นสแกน
เหตุผลที่ 2: PDF ถูกป้องกัน
ผู้สร้าง PDF สามารถตั้งค่าสิทธิ์ที่จำกัดสิ่งที่ผู้ใช้ทำได้กับเอกสาร ข้อจำกัดที่พบบ่อยคือการปิดการเลือกและคัดลอกข้อความ มักใช้สำหรับเนื้อหาลิขสิทธิ์ ข้อสอบ หรือรายงานที่เป็นกรรมสิทธิ์
เมื่อ PDF ถูกป้องกันการคัดลอก คุณมักจะเห็นและอ่านข้อความได้ แต่เคอร์เซอร์จะไม่เลือกมัน หรือฟังก์ชันคัดลอกจะเป็นสีเทา
เหตุผลที่ 3: การเข้ารหัสข้อความเสียหาย
PDF บางไฟล์ใช้การเข้ารหัสฟอนต์กำหนดเองหรือ subset ที่ฝังซึ่งไม่แมปกับตัวอักษรมาตรฐาน ข้อความมีอยู่ทางเทคนิค และคุณเลือกได้ แต่เมื่อวางที่อื่น คุณจะได้ผลลัพธ์เพี้ยนเช่น "Wkh txlfn eurzq ira" แทน "The quick brown fox"
สิ่งนี้เกิดขึ้นบ่อยที่สุดกับ PDF ที่สร้างจากซอฟต์แวร์เก่า การตั้งค่า LaTeX บางอย่าง หรือเครื่องมือออกแบบที่แปลงข้อความเป็นเส้นขอบ
ทำความเข้าใจ PDF สองประเภท
เพื่อแก้ปัญหา ควรเข้าใจความแตกต่างพื้นฐานระหว่างเนื้อหา PDF สองประเภทหลัก
PDF แบบข้อความ (ดิจิทัลตั้งแต่แรก)
สร้างโดยตรงจากโปรแกรมประมวลผลคำ สเปรดชีต หน้าเว็บ หรือแอปพลิเคชันออกแบบ ข้อความมีอยู่เป็นข้อมูลตัวอักษรจริงในไฟล์ PDF เหล่านี้ค้นหาได้ เลือกได้ และมักมีขนาดไฟล์เล็ก
ตัวอย่าง: เอกสารที่ส่งออกจาก Word, Google Docs หรือเบราว์เซอร์ด้วย "Print to PDF"
PDF แบบรูปภาพ (สแกน)
มีภาพถ่ายของหน้า ไม่มีข้อมูลข้อความจริงในไฟล์ แต่ละหน้าเป็นรูปภาพ PDF เหล่านี้ค้นหาไม่ได้ เลือกไม่ได้ และมักมีขนาดใหญ่กว่ามาก
ตัวอย่าง: เอกสารจากเครื่องสแกนแท่นเรียบ แอปสแกนกล้องโทรศัพท์ หรือบริการ fax-to-PDF
ถ้าเลือกข้อความไม่ได้หรือวางแล้วผิดพลาด คุณต้องใช้เครื่องมือดึงข้อความ
วิธีดึงข้อความเมื่อคัดลอกวางล้มเหลว
สำหรับ PDF ที่สแกน: OCR
การจดจำอักขระด้วยแสง (OCR) คือเทคโนโลยีที่อ่านข้อความจากรูปภาพ เอ็นจิน OCR สมัยใหม่มีความแม่นยำน่าทึ่ง โดยเฉพาะกับเอกสารที่พิมพ์สะอาด มันวิเคราะห์รูปร่างตัวอักษรในรูปภาพแล้วแปลงเป็นข้อความที่แก้ไขได้
OCR ทำงานได้ดีที่สุดเมื่อ:
- เอกสารเป็นตัวพิมพ์ (ไม่ใช่ลายมือ)
- คุณภาพสแกนพอใช้ได้ (150 DPI ขึ้นไป)
- ข้อความเป็นภาษาที่พบบ่อย
- หน้าไม่เอียงหรือหมุนมาก
คำเตือน OCR ไม่สมบูรณ์แบบ อาจมีปัญหากับลายมือ ฟอนต์ที่ไม่ธรรมดา สแกนคุณภาพต่ำ หรือเอกสารที่มีเลย์เอาต์ซับซ้อน (เช่น ข้อความหลายคอลัมน์พร้อมตารางและรูปภาพ) ตรวจสอบผลลัพธ์ OCR ก่อนใช้ในเอกสารสำคัญเสมอ
สำหรับ PDF ที่ป้องกัน
ถ้า PDF มีข้อจำกัดการคัดลอก เครื่องมือดึงข้อความมักอ่านข้อมูลข้อความพื้นฐานได้โดยไม่สนใจการตั้งค่าสิทธิ์ ข้อความยังอยู่ในไฟล์ แค่ฟังก์ชันคัดลอกที่ถูกปิดในตัวอ่าน PDF มาตรฐาน
สำหรับปัญหาการเข้ารหัส
เมื่อข้อความมีอยู่แต่เพี้ยน เครื่องมือดึงข้อความบางครั้งสามารถตีความการแมปตัวอักษรได้ถูกต้องและสร้างผลลัพธ์ที่สะอาด ถ้าไม่ได้ OCR สามารถปฏิบัติกับหน้าเป็นรูปภาพแล้วจดจำตัวอักษรใหม่
เคล็ดลับปฏิบัติสำหรับการดึงข้อความที่ดีขึ้น
ตรวจสอบแหล่งที่มาก่อน ก่อนดึงข้อความจาก PDF ตรวจสอบว่าได้เอกสารต้นฉบับได้ไหม ถ้ามีคนส่ง PDF ของเอกสาร Word มาให้ ขอไฟล์ Word แทน
ปรับปรุงคุณภาพสแกน ถ้าคุณสแกนเอกสารเอง ใช้อย่างน้อย 200 DPI และให้แน่ใจว่ากระดาษแบนและมีแสงดี เงา รอยย่น และความละเอียดต่ำล้วนลดความแม่นยำ OCR
ทำให้หน้าที่เอียงตรง ถ้าสแกนหมุนหรือเอียง ปรับให้ตรงก่อนรัน OCR แอปสแกนส่วนใหญ่มีตัวเลือก deskew
ลองทั้งเอกสาร ไม่ใช่แค่หน้าเดียว เครื่องมือบางตัวทำงานได้ดีกว่าเมื่อประมวลผลเอกสารทั้งฉบับพร้อมกัน เพราะบริบทจากหน้ารอบข้างช่วยปรับปรุงความแม่นยำ
ตรวจสอบผลลัพธ์ ควรตรวจสอบผลลัพธ์ OCR เสมอ ข้อผิดพลาดที่พบบ่อย ได้แก่ สับสน "l" กับ "1", "O" กับ "0" และอ่านเครื่องหมายวรรคตอนผิด
เคล็ดลับ คุณสามารถดึงข้อความจาก PDF ใดก็ได้ รวมถึงเอกสารที่สแกน ฟรีในเบราว์เซอร์ เครื่องมือของเราจัดการทั้ง PDF แบบข้อความและแบบรูปภาพโดยอัตโนมัติ
สิ่งที่ทำได้กับข้อความที่ดึงออกมา
เมื่อได้ข้อความแล้ว ความเป็นไปได้เปิดกว้าง:
- แก้ไขเนื้อหา ในโปรแกรมประมวลผลคำ
- ค้นหาข้อมูลเฉพาะ โดยไม่ต้องเลื่อนดูหลายหน้า
- แปล ข้อความเป็นภาษาอื่น
- จัดรูปแบบใหม่ เนื้อหาสำหรับเอกสารหรือการนำเสนออื่น
- วิเคราะห์ข้อมูล จากตารางและแบบฟอร์ม
- สร้างเวอร์ชันที่เข้าถึงได้ ของเอกสารสำหรับโปรแกรมอ่านหน้าจอ
กรณีใช้งานที่พบบ่อย
- นักศึกษา ดึงข้อความจากบทความวิชาการและตำราเรียนสำหรับบันทึก
- ทนายความ ดึงข้อกำหนดจากสัญญาที่สแกนเพื่อเปรียบเทียบ
- นักบัญชี ดึงข้อมูลจากใบแจ้งหนี้และใบเสร็จที่สแกน
- นักวิจัย แปลงสิ่งพิมพ์เก่าเป็นดิจิทัลเพื่อวิเคราะห์
- เจ้าหน้าที่ธุรการ แปลงแบบฟอร์มที่สแกนเป็นเอกสารที่แก้ไขได้
ต้องดึงข้อความจาก PDF ตอนนี้เลย? ทำตามคู่มือทีละขั้นตอนของเรา: วิธีดึงข้อความจาก PDF ทำงานได้ทั้ง PDF แบบข้อความและแบบสแกน โดยตรงในเบราว์เซอร์