Cách trích xuất văn bản tiếng Hindi từ hình ảnh

Đọc tiếng Hindi từ hình ảnh

Tiếng Hindi được viết bằng chữ viết Devanagari, mà một trình đọc tiếng Anh thông thường không thể xử lý. ocrX đọc Devanagari. Tải hình ảnh của bạn lên trình chuyển đổi hình ảnh thành văn bản, đặt ngôn ngữ thành tiếng Hindi và trích xuất văn bản.

Tại sao cài đặt ngôn ngữ là chìa khóa

Devanagari nối các ký tự dọc theo một đường trên cùng và xếp các dấu phía trên và phía dưới chúng. OCR phải được huấn luyện đặc biệt cho nó. Chọn tiếng Hindi trước khi trích xuất là điều tạo nên sự khác biệt giữa văn bản sạch và rác.

Từng bước

1. Tải hình ảnh lên

Ảnh, ảnh chụp màn hình hoặc bản quét có văn bản tiếng Hindi.

2. Chọn tiếng Hindi

Đặt ngôn ngữ để ocrX đọc Devanagari.

3. Trích xuất và lưu

Sao chép văn bản hoặc tải xuống. Xuất PDF sử dụng phông chữ Devanagari, vì vậy chữ viết hiển thị đúng thay vì biến thành các ô trống.

Ngoài tiếng Hindi

Hỗ trợ Devanagari tương tự giúp ích cho tiếng Marathi, tiếng Nepal, tiếng Phạn và các ngôn ngữ khác sử dụng chữ viết này. Chọn cái phù hợp với văn bản của bạn nơi nó được cung cấp.

Mẹo

  • Sử dụng hình ảnh sắc nét để các dấu phía trên và phía dưới chữ cái vẫn rõ ràng.
  • Đặt ngôn ngữ thành tiếng Hindi, không phải tiếng Anh.
  • Độ tương phản tốt giúp các nét mảnh đi qua.

Tổng kết

Với ngôn ngữ được đặt thành tiếng Hindi, ocrX biến hình ảnh Devanagari thành văn bản bạn có thể sao chép, tìm kiếm và dịch.

Dùng thử ocrX

Thả ảnh hoặc bản quét và lấy văn bản trong vài giây. Miễn phí, hơn 100 ngôn ngữ, không cần đăng ký.

Trình chuyển đổi hình ảnh thành văn bản

Xem thêm từ blog