PDF🔒 Lauft in Ihrem Browser

Text-Extraktor (OCR)

Text aus gescannten PDFs und Bildern extrahieren mit OCR (optische Zeichenerkennung)

📝

PDF hier ablegen oder klicken zum Auswählen

.pdf, .png, .jpg, .jpeg, .webp, .tiff, .bmp

Anwendungsfälle

Digitalisieren Sie einen Stapel alter Papierrechnungen für die Suche und Aufbewahrung in der Buchhaltung.
Machen Sie ein gescanntes Lehrbuch für das Lernen volltext-durchsuchbar.
Extrahieren Sie Text aus einem gescannten Vertrag, um eine Klausel in einen Entwurf zu kopieren.
Bereiten Sie ein gescanntes Dokument für die Übersetzung vor, indem Sie zuerst seinen Text extrahieren.
Wandeln Sie Belegscans in Textfelder um, bevor Sie sie in eine Spesen-Tabelle einfügen.

Über Text-Extraktor (OCR)

PDF-OCR nutzt Tesseract.js, das in Ihrem Browser läuft, um Text in gescannten oder bildbasierten PDFs zu erkennen. Sie können einfachen Text extrahieren, ein durchsuchbares PDF erstellen, bei dem der erkannte Text hinter dem Originalbild liegt, oder ein DOCX-Dokument exportieren. Alles läuft lokal — es werden keine Dokumente irgendwohin hochgeladen.

Häufig gestellte Fragen

Welche Sprachen werden unterstützt?

Über 100 Sprachen werden über Tesseract.js unterstützt, darunter Deutsch, Englisch, Französisch, Spanisch, Chinesisch, Japanisch, Arabisch und viele mehr. Sie können auch mehrsprachige OCR durchführen, indem Sie mehrere Sprachen gleichzeitig auswählen.

Wird mein PDF auf einen Server hochgeladen?

Nein. Die Texterkennung erfolgt vollständig in Ihrem Browser über WebAssembly. Ihre Dateien verlassen niemals Ihr Gerät.

Welche Ausgabeformate sind verfügbar?

Der erkannte Text wird als reiner Text (.txt) bereitgestellt. Nach Abschluss der OCR können Sie ihn kopieren oder herunterladen.

Was bedeutet OCR?

OCR steht für Optical Character Recognition (optische Zeichenerkennung). Die Technologie erkennt die Form von Buchstaben in Bildern oder gescannten Dokumenten und wandelt sie in echten, bearbeitbaren und durchsuchbaren digitalen Text um. Ohne OCR ist eine gescannte Seite nur ein Bild — mit OCR können Sie den Inhalt kopieren, durchsuchen, übersetzen und bearbeiten.

Warum ist OCR langsamer als erwartet?

Tesseract.js lädt beim ersten Einsatz ein Sprachmodell von 4–10 MB und führt Computer-Vision-Durchläufe pro Seite im Haupt-Thread des Browsers aus. Erwarten Sie ~3–8 Sekunden pro Seite auf einem modernen Laptop, länger auf Telefonen oder bei großen Dokumenten. Der Fortschrittsbalken aktualisiert sich live, sodass Sie entsprechend planen können. Folgeseiten sind schneller, weil das Modell im Speicher bleibt.

🔧 Ähnliche Tools

Anwendungsfälle

Digitalisieren Sie einen Stapel alter Papierrechnungen für die Suche und Aufbewahrung in der Buchhaltung.

Machen Sie ein gescanntes Lehrbuch für das Lernen volltext-durchsuchbar.

Extrahieren Sie Text aus einem gescannten Vertrag, um eine Klausel in einen Entwurf zu kopieren.

Bereiten Sie ein gescanntes Dokument für die Übersetzung vor, indem Sie zuerst seinen Text extrahieren.

Wandeln Sie Belegscans in Textfelder um, bevor Sie sie in eine Spesen-Tabelle einfügen.