PDFからテキストが必要だが、選択やコピーができない。PDFがスキャンドキュメントかもしれないし、テキスト選択が制限されているかもしれないし、単にきれいなプレーンテキスト版が欲しいだけかもしれない。PDFからテキストツールは、PDFからすべての文字を数秒で抽出します。
必要なもの
- テキストを抽出したいPDFファイル
- ウェブブラウザ
- アカウントやソフトウェアのインストールは不要
ステップバイステップガイド
PDFからテキストツールを開く
PDFからテキストツールにアクセスします。セットアップ不要で、完全にブラウザ内で動作します。
PDFをアップロードする
アップロードエリアをクリックするか、PDFをドラッグ&ドロップします。ツールがファイルを処理し、読み取り可能なすべてのテキストコンテンツを抽出します。
抽出されたテキストをコピーまたはダウンロードする
抽出されたテキストがテキストエリアに表示されます。特定のセクションを選択してコピーするか、テキスト全体をファイルとしてダウンロードできます。テキストはクリーンで、任意のドキュメント、メール、エディタにペーストできる状態です。
豆知識 すべてのテキスト抽出はブラウザ内でローカルに行われます。PDFがサーバーに送信されることはないため、機密文書のプライバシーが守られます。
どのようなPDFで使えますか?
デジタル(ネイティブ)PDF
Wordドキュメント、ウェブページ、またはテキストベースのPDFを生成するアプリケーションから作成されたPDF。テキストがファイル内に文字として保存されているため、最良の結果が得られます。
スキャンされたPDF
スキャンした紙のドキュメントから作成されたPDFは、本質的に画像です。スキャンされたPDFからのテキスト抽出は、ツールのOCR機能に依存します。標準的なフォントのきれいなスキャンでは一般的に良い結果が得られますが、手書きや非常に低品質なスキャンでは不完全な結果になる場合があります。
混合PDF
デジタルテキストとスキャン画像が混在するPDFもあります。ツールはファイル構造内で利用可能なテキストデータを抽出します。
ヒント スキャンドキュメントから最良の抽出結果を得るには、スキャンが少なくとも300 DPIで、テキストがはっきりと読み取れることを確認してください。歪んだりぼやけたりしたスキャンでは品質の低い出力になります。
よくある使用例
- メールやドキュメントでテキストを引用する: PDFレポートや記事から正確な表現を抽出。
- コンテンツの検索: 抽出後、テキストエディタの検索機能で特定の箇所を見つけられます。
- データ入力: PDFフォームや請求書からテキストを取り出してスプレッドシートに入力。
- アクセシビリティ: PDFコンテンツをプレーンテキストに変換して、スクリーンリーダーや音声読み上げツールで利用。
- 翻訳: テキストを抽出し、翻訳ツールにペーストしてコンテンツを翻訳。
きれいな結果を得るためのヒント
改行を確認する: PDF テキスト抽出は、元のPDFが固定幅の列を使用しているため、文の途中に改行を挿入することがあります。テキストエディタで改行を整理する必要があるかもしれません。
ヘッダーとフッターに注意: PDFの繰り返しヘッダー、フッター、ページ番号は抽出されたテキストに表示されます。結果が乱雑になる場合は手動で削除してください。
テーブルの構造が崩れる場合がある: PDFテーブルのテキストは左から右、上から下に抽出されます。プレーンテキストでは列の配置が保持されない場合があります。テーブルデータの場合、スプレッドシートで手動で再整理する必要があるかもしれません。
重要 PDFがパスワードで保護されていてコピーが制限されている場合、ツールがテキストを抽出できない可能性があります。先にPDFの制限を解除する必要があります。
よくある質問
特定のページだけからテキストを抽出できますか? ツールはドキュメント全体からテキストを抽出します。特定のページのみのテキストが必要な場合は、先にPDFページ削除ツールで必要なページを分離してから、整理したファイルからテキストを抽出してください。
フォーマットは引き継がれますか? 出力はプレーンテキストです。太字、斜体、色、レイアウトは保持されません。生の文字と段落が得られます。
画像ファイルからテキストを抽出できますか? このツールはPDFファイル用です。スタンドアロンの画像(JPG、PNG)からテキストを抽出するには、専用のOCRツールが必要です。
次のステップ
テキストを取得したら、元のPDFに戻って不要なページを削除したり、圧縮したり、共有前にメタデータをクリーニングしたりすることができます。