Cách lấy văn bản từ PDF đã quét
Tại sao bạn không thể sao chép từ PDF đã quét
PDF đã quét là một tập hợp các ảnh trong một lớp bọc PDF. Các trang trông giống tài liệu, nhưng văn bản là hình ảnh, vì vậy bạn không thể chọn hoặc tìm kiếm nó. Để có văn bản có thể sử dụng, bạn chạy từng trang qua OCR. Lưu hoặc chụp màn hình một trang dưới dạng hình ảnh, sau đó thả nó vào trình chuyển đổi hình ảnh thành văn bản.
Từng bước
1. Biến các trang PDF thành hình ảnh
Xuất các trang dưới dạng JPG hoặc PNG từ trình xem PDF của bạn hoặc chụp ảnh màn hình rõ nét, kích thước đầy đủ của mỗi trang.
2. Tải lên ocrX
Thêm hình ảnh trang, chọn ngôn ngữ và trích xuất.
3. Làm việc qua các trang
Làm theo thứ tự và giữ văn bản lại với nhau khi bạn tiến hành.
4. Lưu kết quả
Tải xuống dưới dạng TXT hoặc dưới dạng PDF hoặc Word nếu bạn muốn một tài liệu gọn gàng.
Tại sao phải làm điều này
Một khi văn bản là văn bản thực, bạn có thể tìm kiếm hợp đồng để tìm điều khoản, sao chép địa chỉ từ một bức thư cũ hoặc trích dẫn một đoạn văn mà không cần gõ lại. Một kho lưu trữ có thể tìm kiếm tốt hơn một thư mục chứa đầy hình ảnh tĩnh.
Mẹo
- Xuất các trang ở kích thước phù hợp. Hình thu nhỏ nhỏ đọc kém.
- Chọn ngôn ngữ phù hợp với tài liệu.
- Đối với PDF dài, làm việc theo từng phần nhỏ để không bị mất vị trí.
Tổng kết
PDF đã quét chỉ là hình ảnh cho đến khi bạn đọc nó. ocrX biến những trang đó trở lại thành văn bản bạn có thể tìm kiếm, sao chép và chỉnh sửa.
