画像からヒンディー語のテキストを抽出する方法

画像からヒンディー語を読む

ヒンディー語はデーヴァナーガリー文字で書かれており、通常の英語リーダーでは処理できません。ocrXはデーヴァナーガリー文字に対応しています。画像を画像テキスト変換ツールにアップロードし、言語をヒンディー語に設定してテキストを抽出します。

デーヴァナーガリー文字は上部の線に沿って文字が結合し、上下に記号が付きます。OCRはこれに特化して学習する必要があります。抽出前にヒンディー語を選択することが、クリーンなテキストとゴミの違いを生みます。

ヒンディー語テキストを含む写真、スクリーンショット、またはスキャン。

ocrXがデーヴァナーガリー文字を読むように言語を設定。

テキストをコピーするかダウンロードします。PDFエクスポートはデーヴァナーガリーフォントを使用するため、文字がボックスにならず適切に表示されます。

同じデーヴァナーガリー文字対応は、マラーティー語、ネパール語、サンスクリット語など、この文字を使用する他の言語にも役立ちます。提供されている場合はテキストに合ったものを選択してください。

2. 言語を英語ではなくヒンディー語に設定します。

3. コントラストが良いと細かいストロークがくっきり出ます。

言語をヒンディー語に設定すれば、ocrXはデーヴァナーガリー文字の画像をコピー、検索、翻訳可能なテキストに変換します。