Cách trích xuất văn bản tiếng Ả Rập từ ảnh

Đọc tiếng Ả Rập từ hình ảnh

Tiếng Ả Rập được viết từ phải sang trái và nối các chữ cái, vì vậy nó cần một công cụ OCR được xây dựng cho nó. ocrX đọc chữ viết Ả Rập. Tải ảnh của bạn lên trình chuyển đổi hình ảnh thành văn bản, đặt ngôn ngữ thành tiếng Ả Rập và trích xuất văn bản.

Tại sao trình đọc tiếng Ả Rập chuyên dụng lại quan trọng

Các chữ cái tiếng Ả Rập thay đổi hình dạng tùy thuộc vào vị trí của chúng trong từ và văn bản chạy từ phải sang trái. Một trình đọc chung được đặt thành tiếng Anh sẽ làm hỏng tất cả. Chọn tiếng Ả Rập yêu cầu ocrX đọc chữ viết đúng cách, bao gồm cả hướng.

Từng bước

1. Tải ảnh lên

Bất cứ thứ gì có văn bản tiếng Ả Rập: biển báo, tài liệu, ảnh chụp màn hình.

2. Chọn tiếng Ả Rập

Đặt ngôn ngữ trước khi trích xuất.

3. Trích xuất và lưu

Sao chép văn bản hoặc tải xuống tệp. Khi bạn lưu dưới dạng PDF, ocrX sử dụng phông chữ tiếng Ả Rập và sắp xếp văn bản từ phải sang trái, vì vậy nó đọc chính xác.

Điều cần biết về văn bản phải sang trái

Khi bạn dán tiếng Ả Rập vào một ứng dụng khác, ứng dụng đó cũng cần hỗ trợ văn bản phải sang trái để hiển thị đúng. Các ký tự mà ocrX cung cấp là chính xác; cách chúng hiển thị phụ thuộc vào nơi bạn dán chúng.

Mẹo

  • Sử dụng hình ảnh rõ ràng, độ tương phản cao.
  • Đặt ngôn ngữ thành tiếng Ả Rập, không phải tiếng Anh.
  • Điều này cũng giúp ích cho tiếng Ba Tư, tiếng Urdu và các ngôn ngữ chữ viết Ả Rập khác mà ocrX cũng hỗ trợ.

Tổng kết

Được đặt thành tiếng Ả Rập, ocrX đọc chữ viết theo cách nó được dự định đọc và cung cấp cho bạn văn bản bạn có thể sao chép, dịch hoặc lưu.

Dùng thử ocrX

Thả ảnh hoặc bản quét và lấy văn bản trong vài giây. Miễn phí, hơn 100 ngôn ngữ, không cần đăng ký.

Trình chuyển đổi hình ảnh thành văn bản

Xem thêm từ blog