Taranmış Bir PDF'den Metin Nasıl Alınır
Neden taranmış bir PDF'den kopyalayamazsınız
Taranmış bir PDF, bir PDF sarmalayıcı içindeki bir fotoğraf yığınıdır. Sayfalar belge gibi görünür ancak metin bir görseldir, bu nedenle seçemez veya arayamazsınız. Kullanılabilir metin almak için her sayfayı OCR'den geçirirsiniz. Bir sayfayı görsel olarak kaydedin veya ekran görüntüsü alın, ardından görüntüden metne dönüştürücüye atın.
Adım adım
1. PDF sayfalarını görsellere dönüştürün
PDF görüntüleyicinizden sayfaları JPG veya PNG olarak dışa aktarın veya her sayfanın net, tam boyutlu bir ekran görüntüsünü alın.
2. ocrX'e yükleyin
Sayfa görselini ekleyin, dili seçin ve çıkarın.
3. Sayfaları işleyin
Sırayla yapın ve ilerledikçe metni bir arada tutun.
4. Sonucu kaydedin
TXT veya düzenli bir belge istiyorsanız PDF ya da Word dosyası olarak indirin.
Neden uğraşmalısınız
Metin gerçek metin olduğunda, bir sözleşmede madde arayabilir, eski bir mektuptan adres kopyalayabilir veya yeniden yazmadan bir paragraftan alıntı yapabilirsiniz. Aranabilir bir arşiv, düz görseller klasörünü yener.
İpuçları
- Sayfaları makul bir boyutta dışa aktarın. Küçük küçük resimler kötü okunur.
- Belgeyle eşleşen dili seçin.
- Uzun PDF'ler için yerinizi kaybetmemek adına küçük gruplar halinde çalışın.
Toparlarken
Taranmış bir PDF, okuyana kadar sadece resimlerdir. ocrX bu sayfaları arayabileceğiniz, kopyalayabileceğiniz ve düzenleyebileceğiniz metne geri dönüştürür.
