PDF🔒 Chay trong trinh duyet

Trích xuất văn bản (OCR)

Trích xuất văn bản từ PDF và hình ảnh đã quét bằng OCR (Nhận dạng ký tự quang học)

📝

Thả PDF vào đây hoặc nhấp để duyệt

.pdf, .png, .jpg, .jpeg, .webp, .tiff, .bmp

Trường hợp sử dụng

Số hóa chồng hóa đơn giấy cũ để tìm kiếm và lưu trữ kế toán.
Làm cho giáo trình quét có thể tìm kiếm toàn văn để học.
Trích xuất văn bản từ hợp đồng đã quét để sao chép một điều khoản vào bản nháp.
Chuẩn bị tài liệu đã quét cho dịch thuật bằng cách trích xuất văn bản trước.
Chuyển bản scan hóa đơn thành các trường văn bản trước khi dán vào bảng tính theo dõi chi phí.

Về Trích xuất văn bản (OCR)

PDF OCR sử dụng Tesseract.js chạy trong trình duyệt của bạn để nhận dạng văn bản bên trong các PDF đã quét hoặc dựa trên hình ảnh. Bạn có thể trích xuất văn bản thuần, tạo một PDF có thể tìm kiếm trong đó văn bản đã nhận dạng được xếp lớp phía sau hình ảnh gốc, hoặc xuất ra tài liệu DOCX. Mọi thứ chạy cục bộ — không có tài liệu nào được tải lên bất kỳ đâu.

Câu hỏi thường gặp

Hỗ trợ những ngôn ngữ nào?

Hơn 100 ngôn ngữ được hỗ trợ thông qua Tesseract.js, bao gồm tiếng Anh, Pháp, Tây Ban Nha, Đức, Trung Quốc, Nhật Bản, Ả Rập và nhiều ngôn ngữ khác. Bạn cũng có thể chạy OCR đa ngôn ngữ bằng cách chọn nhiều ngôn ngữ cùng lúc.

PDF của tôi có được tải lên máy chủ không?

Không. Việc nhận dạng văn bản diễn ra hoàn toàn trong trình duyệt của bạn thông qua WebAssembly. Tệp của bạn không rời khỏi thiết bị.

Có những định dạng đầu ra nào?

Văn bản được nhận dạng có sẵn dưới dạng văn bản thuần (.txt). Bạn có thể sao chép hoặc tải xuống sau khi OCR hoàn tất.

OCR nghĩa là gì?

OCR là viết tắt của Optical Character Recognition (Nhận dạng ký tự quang học). Đây là công nghệ phát hiện hình dạng các chữ cái trong hình ảnh hoặc tài liệu đã quét và chuyển chúng thành văn bản số thực sự, có thể chỉnh sửa và tìm kiếm. Không có OCR, trang đã quét chỉ là một hình ảnh; với OCR, bạn có thể sao chép, tìm kiếm, dịch và chỉnh sửa nội dung.

Tại sao OCR chậm hơn dự kiến?

Tesseract.js tải mô hình ngôn ngữ 4–10 MB ở lần dùng đầu và chạy các lượt thị giác máy tính trên mỗi trang trong luồng chính của trình duyệt. Hãy kỳ vọng ~3–8 giây mỗi trang trên laptop hiện đại, lâu hơn trên điện thoại hoặc với tài liệu lớn. Thanh tiến độ cập nhật trực tiếp để bạn chủ động lên kế hoạch. Các trang sau nhanh hơn vì mô hình giữ trong bộ nhớ.

🔧 Công cụ liên quan

Trường hợp sử dụng

Số hóa chồng hóa đơn giấy cũ để tìm kiếm và lưu trữ kế toán.

Làm cho giáo trình quét có thể tìm kiếm toàn văn để học.

Trích xuất văn bản từ hợp đồng đã quét để sao chép một điều khoản vào bản nháp.

Chuẩn bị tài liệu đã quét cho dịch thuật bằng cách trích xuất văn bản trước.

Chuyển bản scan hóa đơn thành các trường văn bản trước khi dán vào bảng tính theo dõi chi phí.