スキャンしたPDFからテキストを取得する方法

スキャンしたPDFからコピーできない理由

スキャンしたPDFは、PDFラッパー内の写真の集まりです。ページは書類のように見えますが、テキストは画像なので選択も検索もできません。使用可能なテキストを得るには、各ページをOCRにかけます。ページを画像として保存またはスクリーンショットして、画像テキスト変換ツールにドロップします。

ステップバイステップ

1. PDFページを画像に変換

PDFビューアからJPGまたはPNGとしてページをエクスポートするか、各ページの鮮明なフルサイズのスクリーンショットを撮ります。

2. ocrXにアップロード

ページ画像を追加し、言語を選択して抽出します。

3. 全ページを処理

順番に処理し、テキストをまとめて保持します。

4. 結果を保存

TXTとしてダウンロードするか、きれいな文書が必要ならPDFやWordファイルとしてダウンロードします。

なぜやるのか

テキストが実際のテキストになれば、契約書の条項を検索したり、古い手紙から住所をコピーしたり、段落を打ち直さずに引用できます。検索可能なアーカイブは、フラットな画像のフォルダより優れています。

ヒント

  • 適切なサイズでページをエクスポートします。小さなサムネイルは読み取り精度が低いです。
  • 文書に合った言語を選択します。
  • 長いPDFの場合は、小さなバッチで作業して進捗を失わないようにします。

まとめ

スキャンしたPDFは、読み取るまでは単なる画像です。ocrXはそれらのページを検索、コピー、編集可能なテキストに戻します。

ocrXを試す

写真やスキャンをドロップするだけで、数秒でテキストを抽出。無料、100以上の言語対応、登録不要。

画像をテキストに変換

ブログをもっと見る