Bạn cần văn bản từ PDF nhưng không thể chọn hoặc sao chép. Có thể PDF là tài liệu quét, có thể chọn văn bản bị hạn chế, hoặc có thể bạn chỉ muốn phiên bản văn bản thuần sạch sẽ. Công cụ PDF sang văn bản trích xuất mọi từ từ PDF trong vài giây.
Bạn cần gì
- Một file PDF chứa văn bản bạn muốn trích xuất
- Một trình duyệt web
- Không cần tài khoản hay cài đặt phần mềm
Hướng dẫn từng bước
Mở công cụ PDF sang văn bản
Truy cập công cụ PDF sang văn bản. Công cụ chạy hoàn toàn trong trình duyệt không cần thiết lập.
Tải lên PDF
Nhấp vào vùng tải lên hoặc kéo thả PDF. Công cụ sẽ xử lý file và trích xuất tất cả nội dung văn bản đọc được.
Sao chép hoặc tải xuống văn bản đã trích xuất
Văn bản trích xuất xuất hiện trong vùng văn bản. Bạn có thể chọn và sao chép phần cụ thể, hoặc tải toàn bộ văn bản dưới dạng file. Văn bản sạch sẽ và sẵn sàng dán vào bất kỳ tài liệu, email, hoặc trình soạn thảo nào.
Lưu ý Tất cả trích xuất văn bản diễn ra cục bộ trong trình duyệt. PDF không bao giờ được gửi đến máy chủ, nên tài liệu nhạy cảm luôn riêng tư.
Công cụ hoạt động với loại PDF nào?
PDF kỹ thuật số (gốc)
PDF được tạo từ tài liệu Word, trang web, hoặc bất kỳ ứng dụng nào tạo PDF dạng văn bản. Những PDF này cho kết quả tốt nhất vì văn bản đã được lưu dưới dạng ký tự trong file.
PDF quét
PDF từ tài liệu giấy quét về bản chất là ảnh. Trích xuất văn bản từ PDF quét phụ thuộc vào khả năng OCR của công cụ. Kết quả thường tốt cho ảnh quét rõ ràng với font chuẩn, nhưng chữ viết tay và ảnh quét chất lượng rất thấp có thể cho kết quả không đầy đủ.
PDF hỗn hợp
Một số PDF chứa kết hợp văn bản kỹ thuật số và ảnh quét. Công cụ trích xuất bất kỳ dữ liệu văn bản nào có trong cấu trúc file.
Mẹo Để có kết quả trích xuất tốt nhất từ tài liệu quét, đảm bảo ảnh quét ít nhất 300 DPI và chữ rõ ràng. Ảnh quét nghiêng hoặc mờ cho đầu ra chất lượng thấp hơn.
Trường hợp sử dụng phổ biến
- Trích dẫn văn bản trong email hoặc tài liệu: Trích xuất nội dung chính xác từ báo cáo hoặc bài viết PDF.
- Tìm kiếm nội dung: Sau khi trích xuất, bạn có thể sử dụng chức năng tìm kiếm của trình soạn thảo để tìm đoạn cụ thể.
- Nhập dữ liệu: Lấy văn bản từ biểu mẫu PDF hoặc hóa đơn vào bảng tính.
- Khả năng truy cập: Chuyển nội dung PDF sang văn bản thuần cho trình đọc màn hình hoặc công cụ chuyển văn bản thành giọng nói.
- Dịch thuật: Trích xuất văn bản, dán vào công cụ dịch, và dịch nội dung.
Mẹo cho kết quả sạch
Kiểm tra ngắt dòng: Trích xuất văn bản PDF đôi khi chèn ngắt dòng giữa câu vì PDF gốc sử dụng cột có chiều rộng cố định. Bạn có thể cần dọn dẹp ngắt dòng trong trình soạn thảo.
Chú ý header và footer: Header, footer và số trang lặp lại từ PDF sẽ xuất hiện trong văn bản trích xuất. Xóa thủ công nếu chúng làm lộn xộn kết quả.
Bảng có thể mất cấu trúc: Văn bản trong bảng PDF được trích xuất từ trái sang phải, trên xuống dưới. Căn chỉnh cột có thể không được giữ nguyên dạng văn bản thuần. Đối với dữ liệu bảng, bạn có thể cần sắp xếp lại thủ công trong bảng tính.
Quan trọng Nếu PDF được bảo vệ bằng mật khẩu và hạn chế sao chép, công cụ có thể không trích xuất được văn bản. Bạn cần gỡ bỏ hạn chế PDF trước.
Câu hỏi thường gặp
Tôi có thể trích xuất văn bản chỉ từ một số trang không? Công cụ trích xuất văn bản từ toàn bộ tài liệu. Nếu chỉ cần văn bản từ trang cụ thể, sử dụng công cụ Xóa trang PDF trước để tách các trang cần, rồi trích xuất văn bản từ file đã cắt.
Định dạng có được giữ nguyên không? Đầu ra là văn bản thuần. In đậm, in nghiêng, màu sắc và bố cục không được giữ. Bạn nhận được các từ và đoạn văn thô.
Tôi có thể trích xuất văn bản từ file ảnh không? Công cụ này hoạt động với file PDF. Để trích xuất văn bản từ ảnh độc lập (JPG, PNG), bạn cần công cụ OCR chuyên dụng.
Bước tiếp theo
Bây giờ đã có văn bản, bạn có thể muốn quay lại PDF gốc và xóa trang không cần, nén, hoặc dọn dẹp siêu dữ liệu trước khi chia sẻ.