Cách trích xuất văn bản tiếng Hindi từ hình ảnh
Đọc tiếng Hindi từ hình ảnh
Tiếng Hindi được viết bằng chữ viết Devanagari, mà một trình đọc tiếng Anh thông thường không thể xử lý. ocrX đọc Devanagari. Tải hình ảnh của bạn lên trình chuyển đổi hình ảnh thành văn bản, đặt ngôn ngữ thành tiếng Hindi và trích xuất văn bản.
Tại sao cài đặt ngôn ngữ là chìa khóa
Devanagari nối các ký tự dọc theo một đường trên cùng và xếp các dấu phía trên và phía dưới chúng. OCR phải được huấn luyện đặc biệt cho nó. Chọn tiếng Hindi trước khi trích xuất là điều tạo nên sự khác biệt giữa văn bản sạch và rác.
Từng bước
1. Tải hình ảnh lên
Ảnh, ảnh chụp màn hình hoặc bản quét có văn bản tiếng Hindi.
2. Chọn tiếng Hindi
Đặt ngôn ngữ để ocrX đọc Devanagari.
3. Trích xuất và lưu
Sao chép văn bản hoặc tải xuống. Xuất PDF sử dụng phông chữ Devanagari, vì vậy chữ viết hiển thị đúng thay vì biến thành các ô trống.
Ngoài tiếng Hindi
Hỗ trợ Devanagari tương tự giúp ích cho tiếng Marathi, tiếng Nepal, tiếng Phạn và các ngôn ngữ khác sử dụng chữ viết này. Chọn cái phù hợp với văn bản của bạn nơi nó được cung cấp.
Mẹo
- Sử dụng hình ảnh sắc nét để các dấu phía trên và phía dưới chữ cái vẫn rõ ràng.
- Đặt ngôn ngữ thành tiếng Hindi, không phải tiếng Anh.
- Độ tương phản tốt giúp các nét mảnh đi qua.
Tổng kết
Với ngôn ngữ được đặt thành tiếng Hindi, ocrX biến hình ảnh Devanagari thành văn bản bạn có thể sao chép, tìm kiếm và dịch.
