Trích xuất văn bản từ PDF và hình ảnh đã quét bằng OCR (Nhận dạng ký tự quang học)
PDF OCR sử dụng Tesseract.js chạy trong trình duyệt của bạn để nhận dạng văn bản bên trong các PDF đã quét hoặc dựa trên hình ảnh. Bạn có thể trích xuất văn bản thuần, tạo một PDF có thể tìm kiếm trong đó văn bản đã nhận dạng được xếp lớp phía sau hình ảnh gốc, hoặc xuất ra tài liệu DOCX. Mọi thứ chạy cục bộ — không có tài liệu nào được tải lên bất kỳ đâu.