Trích xuất văn bản từ PDF khi sao chép-dán không hoạt động
Bạn mở PDF, thử chọn chữ, và không có gì xảy ra. Con trỏ không bôi đen gì cả. Hoặc tệ hơn, bạn chọn và sao chép được chữ, dán vào tài liệu, và nhận được mớ ký tự lộn xộn và định dạng vỡ.
Đây là một trong những nỗi bực bội PDF phổ biến nhất, và nó xảy ra thường xuyên hơn bạn nghĩ. Tin tốt là hầu như luôn có giải pháp.
Tại sao sao chép-dán thất bại trong PDF
Không phải mọi PDF đều được tạo ra giống nhau. Lý do bạn không thể sao chép chữ phụ thuộc vào cách PDF được tạo.
Lý do 1: PDF là ảnh scan
Đây là nguyên nhân phổ biến nhất. Khi bạn scan tài liệu giấy, máy scan chụp ảnh mỗi trang. PDF kết quả chứa hình ảnh, không phải chữ. Mắt bạn thấy từ trên trang. Với máy tính, nó chỉ là pixel, không khác gì bức ảnh.
Bạn thường có thể nhận ra PDF scan bằng cách phóng to. Nếu chữ trở nên pixelated hoặc mờ hạt ở mức phóng to cao, đó là ảnh. PDF dạng chữ giữ sắc nét ở mọi mức phóng to.
Bạn có biết? PDF có thể chứa hỗn hợp chữ thực và ảnh scan trên cùng một trang. Một số máy scan thực hiện OCR cơ bản (nhận dạng ký tự quang học) và nhúng lớp chữ vô hình phía sau ảnh, giúp chữ có thể chọn được dù nội dung hiển thị là bản scan.
Lý do 2: PDF được bảo vệ
Tác giả PDF có thể đặt quyền hạn chế những gì người dùng có thể làm với tài liệu. Một hạn chế phổ biến là vô hiệu hóa chọn và sao chép chữ. Điều này thường dùng cho tài liệu có bản quyền, đề thi hoặc báo cáo độc quyền.
Khi PDF bị bảo vệ sao chép, bạn thường có thể thấy và đọc chữ, nhưng con trỏ sẽ không chọn được, hoặc chức năng sao chép bị xám.
Lý do 3: Mã hóa chữ bị lỗi
Một số PDF sử dụng mã hóa phông tùy chỉnh hoặc tập con nhúng không ánh xạ đến ký tự chuẩn. Chữ về mặt kỹ thuật có ở đó, và bạn có thể chọn, nhưng khi dán đi nơi khác, bạn nhận được đầu ra lộn xộn.
Điều này xảy ra thường nhất với PDF tạo bởi phần mềm cũ, một số cấu hình LaTeX, hoặc công cụ thiết kế chuyển đổi chữ thành đường viền.
Hiểu hai loại PDF
Để giải quyết vấn đề, cần hiểu sự khác biệt cơ bản giữa hai loại nội dung PDF chính.
PDF dạng chữ (tạo từ kỹ thuật số)
Được tạo trực tiếp từ trình soạn thảo văn bản, bảng tính, trang web hoặc ứng dụng thiết kế. Chữ tồn tại dưới dạng dữ liệu ký tự thực trong tệp. Các PDF này có thể tìm kiếm, chọn và thường có kích thước tệp nhỏ.
Ví dụ: Tài liệu xuất từ Word, Google Docs hoặc trình duyệt web bằng "In sang PDF."
PDF dạng ảnh (scan)
Chứa ảnh chụp các trang. Không có dữ liệu chữ thực bên trong tệp. Mỗi trang thực chất là bức ảnh. Các PDF này không thể tìm kiếm, không chọn được và có xu hướng lớn hơn nhiều.
Ví dụ: Tài liệu từ máy scan phẳng, ứng dụng scan camera điện thoại hoặc dịch vụ fax sang PDF.
Nếu chữ không chọn được hoặc dán sai, bạn cần công cụ trích xuất văn bản.
Cách trích xuất văn bản khi sao chép-dán thất bại
Với PDF scan: OCR
Nhận dạng Ký tự Quang học (OCR) là công nghệ đọc chữ từ hình ảnh. Các engine OCR hiện đại cực kỳ chính xác, đặc biệt trên tài liệu in sạch. Chúng phân tích hình dạng ký tự trong ảnh và chuyển đổi thành chữ có thể chỉnh sửa.
OCR hoạt động tốt nhất khi:
- Tài liệu được in (không viết tay)
- Chất lượng scan hợp lý (150 DPI trở lên)
- Chữ bằng ngôn ngữ phổ biến
- Trang không bị nghiêng hoặc xoay nhiều
Cảnh báo OCR không hoàn hảo. Nó có thể gặp khó khăn với chữ viết tay, phông bất thường, scan chất lượng thấp hoặc tài liệu có bố cục phức tạp (như chữ nhiều cột với bảng và hình ảnh). Luôn đọc lại đầu ra OCR trước khi sử dụng trong tài liệu quan trọng.
Với PDF được bảo vệ
Nếu PDF có hạn chế sao chép, công cụ trích xuất văn bản thường có thể đọc dữ liệu chữ nền bất kể cài đặt quyền. Chữ vẫn có trong tệp; chỉ là chức năng sao chép bị vô hiệu hóa trong trình xem PDF chuẩn.
Với vấn đề mã hóa
Khi chữ tồn tại nhưng bị lộn xộn, công cụ trích xuất đôi khi có thể diễn giải đúng ánh xạ ký tự và tạo đầu ra sạch. Nếu thất bại, OCR có thể xem trang như ảnh và nhận dạng lại ký tự.
Mẹo thực tế để trích xuất văn bản tốt hơn
Kiểm tra nguồn trước. Trước khi trích xuất chữ từ PDF, kiểm tra xem có thể lấy tài liệu gốc không. Nếu ai đó gửi bạn PDF của tài liệu Word, hãy xin tệp Word thay thế.
Cải thiện chất lượng scan. Nếu bạn tự scan tài liệu, dùng ít nhất 200 DPI và đảm bảo giấy phẳng và chiếu sáng tốt. Bóng đổ, nếp nhăn và độ phân giải thấp đều giảm độ chính xác OCR.
Căn thẳng trang nghiêng. Nếu scan bị xoay hoặc nghiêng, hãy căn thẳng trước khi chạy OCR. Hầu hết ứng dụng scan có tùy chọn căn thẳng.
Thử toàn bộ tài liệu, không chỉ một trang. Một số công cụ hoạt động tốt hơn khi xử lý toàn bộ tài liệu cùng lúc, vì ngữ cảnh từ các trang xung quanh giúp cải thiện độ chính xác.
Đọc lại kết quả. Đầu ra OCR luôn cần được kiểm tra. Lỗi phổ biến bao gồm nhầm "l" với "1", "O" với "0", và đọc sai dấu câu.
Mẹo Bạn có thể trích xuất văn bản từ bất kỳ PDF nào, bao gồm tài liệu scan, miễn phí trong trình duyệt. Công cụ xử lý tự động cả PDF dạng chữ và dạng ảnh.
Bạn có thể làm gì với văn bản đã trích xuất
Sau khi có chữ, các khả năng mở ra:
- Chỉnh sửa nội dung trong trình soạn thảo văn bản
- Tìm kiếm thông tin cụ thể mà không cần cuộn qua nhiều trang
- Dịch chữ sang ngôn ngữ khác
- Định dạng lại nội dung cho tài liệu hoặc bài trình bày khác
- Phân tích dữ liệu từ bảng và biểu mẫu
- Tạo phiên bản trợ năng của tài liệu cho trình đọc màn hình
Trường hợp sử dụng phổ biến
- Sinh viên trích xuất chữ từ bài báo học thuật và sách giáo khoa để ghi chú
- Luật sư trích xuất điều khoản từ hợp đồng scan để so sánh
- Kế toán trích xuất dữ liệu từ hóa đơn và biên lai scan
- Nhà nghiên cứu số hóa tài liệu in cũ để phân tích
- Nhân viên hành chính chuyển đổi biểu mẫu scan thành tài liệu có thể chỉnh sửa
Cần trích xuất chữ từ PDF ngay? Làm theo hướng dẫn từng bước: Cách trích xuất văn bản PDF. Hoạt động trên cả PDF dạng chữ và scan, trực tiếp trong trình duyệt.