PDF🔒 Dziala w przegladarce

Ekstraktor Tekstu (OCR)

Wyodrębniaj tekst ze skanów PDF i obrazów za pomocą OCR (optyczne rozpoznawanie znaków)

📝

Upuść PDF tutaj lub kliknij, aby wybrać

.pdf, .png, .jpg, .jpeg, .webp, .tiff, .bmp

Przykłady użycia

Zdigitalizuj stos starych papierowych faktur dla wyszukiwania księgowego i archiwizacji.
Spraw, aby zeskanowany podręcznik był pełnotekstowo przeszukiwalny do nauki.
Wyodrębnij tekst z zeskanowanej umowy, aby skopiować klauzulę do projektu.
Przygotuj zeskanowany dokument do tłumaczenia, najpierw wyodrębniając jego tekst.
Konwertuj skany paragonów na pola tekstowe przed wklejeniem do arkusza śledzenia wydatków.

O narzędziu Ekstraktor Tekstu (OCR)

PDF OCR używa Tesseract.js działającego w przeglądarce do rozpoznawania tekstu wewnątrz skanowanych lub opartych na obrazie plików PDF. Możesz wyodrębnić zwykły tekst, utworzyć przeszukiwalny PDF, w którym rozpoznany tekst jest umieszczony za oryginalnym obrazem, lub wyeksportować dokument DOCX. Wszystko działa lokalnie — żadne dokumenty nie są nigdzie przesyłane.

Często zadawane pytania

Jakie języki są obsługiwane?

Dzięki Tesseract.js obsługiwanych jest ponad 100 języków, w tym angielski, francuski, hiszpański, niemiecki, chiński, japoński, arabski i wiele innych. Możesz również uruchomić wielojęzyczny OCR, wybierając kilka języków naraz.

Czy mój PDF jest przesyłany na serwer?

Nie. Rozpoznawanie tekstu odbywa się w całości w przeglądarce dzięki WebAssembly. Twoje pliki nigdy nie opuszczają urządzenia.

Jakie formaty wyjściowe są dostępne?

Rozpoznany tekst jest dostępny jako zwykły tekst (.txt). Możesz go skopiować lub pobrać po zakończeniu OCR.

Co oznacza OCR?

OCR to skrót od Optical Character Recognition (optyczne rozpoznawanie znaków). Technologia ta wykrywa kształty liter na obrazach lub zeskanowanych dokumentach i zamienia je na prawdziwy, edytowalny i przeszukiwalny tekst cyfrowy. Bez OCR zeskanowana strona to tylko obrazek; dzięki OCR możesz kopiować, wyszukiwać, tłumaczyć i edytować jej zawartość.

Dlaczego OCR jest wolniejszy, niż się spodziewałem?

Tesseract.js ładuje model językowy 4–10 MB przy pierwszym użyciu i wykonuje przejścia komputerowego widzenia na stronę w głównym wątku przeglądarki. Spodziewaj się ~3–8 sekund na stronę na nowoczesnym laptopie, dłużej na telefonach lub dla dużych dokumentów. Pasek postępu aktualizuje się na żywo, więc możesz odpowiednio zaplanować. Kolejne strony są szybsze, ponieważ model pozostaje w pamięci.

Przykłady użycia

Zdigitalizuj stos starych papierowych faktur dla wyszukiwania księgowego i archiwizacji.

Spraw, aby zeskanowany podręcznik był pełnotekstowo przeszukiwalny do nauki.

Wyodrębnij tekst z zeskanowanej umowy, aby skopiować klauzulę do projektu.

Przygotuj zeskanowany dokument do tłumaczenia, najpierw wyodrębniając jego tekst.

Konwertuj skany paragonów na pola tekstowe przed wklejeniem do arkusza śledzenia wydatków.