PDF🔒 ブラウザで動作

テキスト抽出 (OCR)

OCR (光学文字認識) でスキャンしたPDFや画像からテキストを抽出

📝

ここにPDFをドロップするか、クリックして選択してください

.pdf, .png, .jpg, .jpeg, .webp, .tiff, .bmp

使用例

経理用の検索と保管のため、紙の請求書スタックをデジタル化する。
学習用に、スキャンした教科書を全文検索可能にする。
スキャン契約書から条項をコピペで下書きへ移すためテキストを抽出する。
翻訳のため、スキャン文書のテキストを先に抽出して準備する。
経費トラッキングのスプレッドシートに貼り付けるため、レシートスキャンをテキストフィールドへ変換する。

テキスト抽出 (OCR)について

PDF OCRはTesseract.jsをブラウザ内で動かし、スキャンや画像ベースのPDF内のテキストを認識します。プレーンテキストを抽出したり、認識テキストを元画像の背面にレイヤーとして配置した検索可能PDFを作成したり、DOCX文書として書き出すことができます。すべてローカルで動作し、ドキュメントはどこにもアップロードされません。

よくある質問

対応している言語は？

Tesseract.jsを通じて、英語・フランス語・スペイン語・ドイツ語・中国語・日本語・アラビア語など100以上の言語に対応しています。複数言語を同時に選択して多言語OCRを実行することもできます。

PDFはサーバーにアップロードされますか？

いいえ。文字認識はWebAssemblyを使ってすべてブラウザ内で行われます。ファイルが端末から外に出ることはありません。

どの出力形式が利用できますか？

認識されたテキストはプレーンテキスト (.txt) として利用できます。OCR が完了したらコピーまたはダウンロードできます。

OCR とは何の略ですか?

OCR は Optical Character Recognition（光学文字認識）の略です。画像やスキャンした書類の中にある文字の形を検出し、本当の意味で編集や検索が可能なデジタルテキストに変換する技術です。OCR を使わなければスキャンしたページはただの画像にすぎませんが、OCR を使えば内容をコピー・検索・翻訳・編集できます。

なぜOCRが期待より遅いのですか？

Tesseract.jsは初回使用時に4〜10 MBの言語モデルを読み込み、ブラウザのメインスレッドでページごとにコンピュータビジョン処理を実行します。最新のラップトップで1ページあたり約3〜8秒、スマホや大きなドキュメントではさらに長くかかります。プログレスバーがリアルタイム更新されるので進捗を計画できます。モデルがメモリに残るため、以降のページは高速です。

🔧 関連ツール

使用例

経理用の検索と保管のため、紙の請求書スタックをデジタル化する。

学習用に、スキャンした教科書を全文検索可能にする。

スキャン契約書から条項をコピペで下書きへ移すためテキストを抽出する。

翻訳のため、スキャン文書のテキストを先に抽出して準備する。

経費トラッキングのスプレッドシートに貼り付けるため、レシートスキャンをテキストフィールドへ変換する。