Quay lại tất cả bài viết28 tháng 4, 2026

Cách lấy văn bản từ PDF đã quét

Tại sao bạn không thể sao chép từ PDF đã quét

PDF đã quét là một tập hợp các ảnh trong một lớp bọc PDF. Các trang trông giống tài liệu, nhưng văn bản là hình ảnh, vì vậy bạn không thể chọn hoặc tìm kiếm nó. Để có văn bản có thể sử dụng, bạn chạy từng trang qua OCR. Lưu hoặc chụp màn hình một trang dưới dạng hình ảnh, sau đó thả nó vào trình chuyển đổi hình ảnh thành văn bản.

Từng bước

1. Biến các trang PDF thành hình ảnh

Xuất các trang dưới dạng JPG hoặc PNG từ trình xem PDF của bạn hoặc chụp ảnh màn hình rõ nét, kích thước đầy đủ của mỗi trang.

2. Tải lên ocrX

Thêm hình ảnh trang, chọn ngôn ngữ và trích xuất.

3. Làm việc qua các trang

Làm theo thứ tự và giữ văn bản lại với nhau khi bạn tiến hành.

4. Lưu kết quả

Tải xuống dưới dạng TXT hoặc dưới dạng PDF hoặc Word nếu bạn muốn một tài liệu gọn gàng.

Tại sao phải làm điều này

Một khi văn bản là văn bản thực, bạn có thể tìm kiếm hợp đồng để tìm điều khoản, sao chép địa chỉ từ một bức thư cũ hoặc trích dẫn một đoạn văn mà không cần gõ lại. Một kho lưu trữ có thể tìm kiếm tốt hơn một thư mục chứa đầy hình ảnh tĩnh.

Mẹo

Xuất các trang ở kích thước phù hợp. Hình thu nhỏ nhỏ đọc kém.
Chọn ngôn ngữ phù hợp với tài liệu.
Đối với PDF dài, làm việc theo từng phần nhỏ để không bị mất vị trí.

Tổng kết

PDF đã quét chỉ là hình ảnh cho đến khi bạn đọc nó. ocrX biến những trang đó trở lại thành văn bản bạn có thể tìm kiếm, sao chép và chỉnh sửa.

Cách lấy văn bản từ PDF đã quét

Tại sao bạn không thể sao chép từ PDF đã quét

Từng bước

1. Biến các trang PDF thành hình ảnh

2. Tải lên ocrX

3. Làm việc qua các trang

4. Lưu kết quả

Tại sao phải làm điều này

Mẹo

Tổng kết

Dùng thử ocrX

Xem thêm từ blog

Cách trích xuất văn bản từ hình ảnh (Không cần gõ)

Cách chuyển đổi ảnh thành văn bản trên iPhone và Android

Cách sao chép văn bản từ ảnh chụp màn hình