Cara Mendapatkan Teks daripada PDF yang Diimbas
Mengapa anda tidak boleh menyalin dari PDF yang diimbas
PDF yang diimbas adalah timbunan foto dalam pembalut PDF. Halaman kelihatan seperti dokumen, tetapi teks adalah imej, jadi anda tidak boleh memilih atau mencarinya. Untuk mendapatkan teks yang boleh digunakan, anda menjalankan setiap halaman melalui OCR. Simpan atau tangkap skrin halaman sebagai imej, kemudian masukkan ke dalam penukar imej ke teks.
Langkah demi langkah
1. Tukar halaman PDF kepada imej
Eksport halaman sebagai JPG atau PNG dari pembaca PDF anda, atau ambil tangkapan skrin penuh yang jelas bagi setiap halaman.
2. Muat naik ke ocrX
Tambahkan imej halaman, pilih bahasa, dan ekstrak.
3. Kerjakan halaman
Lakukan mengikut urutan dan simpan teks bersama semasa anda melakukannya.
4. Simpan hasil
Muat turun sebagai TXT, atau sebagai fail PDF atau Word jika anda mahukan dokumen yang kemas.
Kenapa bersusah payah
Setelah teks adalah teks sebenar, anda boleh mencari kontrak untuk klausa, menyalin alamat dari surat lama, atau memetik perenggan tanpa menaip semula. Arkib yang boleh dicari mengalahkan folder imej rata.
Petua
- Eksport halaman pada saiz yang sesuai. Gambar kecil yang kecil dibaca dengan buruk.
- Pilih bahasa yang sepadan dengan dokumen.
- Untuk PDF yang panjang, kerja dalam kumpulan kecil supaya anda tidak kehilangan tempat.
Kesimpulan
PDF yang diimbas hanyalah gambar sehingga anda membacanya. ocrX menukar halaman tersebut kembali kepada teks yang boleh anda cari, salin, dan edit.
