すべての記事に戻る2026年4月28日
スキャンしたPDFからテキストを取得する方法
スキャンしたPDFからコピーできない理由
スキャンしたPDFは、PDFラッパー内の写真の集まりです。ページは書類のように見えますが、テキストは画像なので選択も検索もできません。使用可能なテキストを得るには、各ページをOCRにかけます。ページを画像として保存またはスクリーンショットして、画像テキスト変換ツールにドロップします。
ステップバイステップ
1. PDFページを画像に変換
PDFビューアからJPGまたはPNGとしてページをエクスポートするか、各ページの鮮明なフルサイズのスクリーンショットを撮ります。
2. ocrXにアップロード
ページ画像を追加し、言語を選択して抽出します。
3. 全ページを処理
順番に処理し、テキストをまとめて保持します。
4. 結果を保存
TXTとしてダウンロードするか、きれいな文書が必要ならPDFやWordファイルとしてダウンロードします。
なぜやるのか
テキストが実際のテキストになれば、契約書の条項を検索したり、古い手紙から住所をコピーしたり、段落を打ち直さずに引用できます。検索可能なアーカイブは、フラットな画像のフォルダより優れています。
ヒント
- 適切なサイズでページをエクスポートします。小さなサムネイルは読み取り精度が低いです。
- 文書に合った言語を選択します。
- 長いPDFの場合は、小さなバッチで作業して進捗を失わないようにします。
まとめ
スキャンしたPDFは、読み取るまでは単なる画像です。ocrXはそれらのページを検索、コピー、編集可能なテキストに戻します。
