スキャンしたPDFからテキストを取得する方法

スキャンしたPDFからコピーできない理由

スキャンしたPDFは、PDFラッパー内の写真の集まりです。ページは書類のように見えますが、テキストは画像なので選択も検索もできません。使用可能なテキストを得るには、各ページをOCRにかけます。ページを画像として保存またはスクリーンショットして、画像テキスト変換ツールにドロップします。

PDFビューアからJPGまたはPNGとしてページをエクスポートするか、各ページの鮮明なフルサイズのスクリーンショットを撮ります。

ページ画像を追加し、言語を選択して抽出します。

順番に処理し、テキストをまとめて保持します。

TXTとしてダウンロードするか、きれいな文書が必要ならPDFやWordファイルとしてダウンロードします。

テキストが実際のテキストになれば、契約書の条項を検索したり、古い手紙から住所をコピーしたり、段落を打ち直さずに引用できます。検索可能なアーカイブは、フラットな画像のフォルダより優れています。

スキャンしたPDFは、読み取るまでは単なる画像です。ocrXはそれらのページを検索、コピー、編集可能なテキストに戻します。