返回所有文章2026年4月28日
如何从扫描的 PDF 中获取文字
为什么无法从扫描的 PDF 中复制文字
扫描的 PDF 是 PDF 外壳中的一堆照片。页面看起来像文档,但文字是图像,所以您无法选择或搜索它。要获得可用的文字,您需要将每一页通过 OCR 处理。将页面保存或截图作为图像,然后放入图像转文字工具。
逐步操作
1. 将 PDF 页面转换为图像
从 PDF 查看器中将页面导出为 JPG 或 PNG,或对每一页拍摄清晰的全尺寸截图。
2. 上传到 ocrX
添加页面图像,选择语言,然后提取。
3. 逐页处理
按顺序处理,并随时将文字组合在一起。
4. 保存结果
下载为 TXT,或者如果您想要整齐的文档,下载为 PDF 或 Word 文件。
为什么值得费心
一旦文字变成真正的文字,您就可以搜索合同中的条款、复制旧信件中的地址或引用段落,而无需重新输入。可搜索的存档胜过一文件夹的平面图像。
技巧
- 以适当的尺寸导出页面。微小的缩略图识别效果差。
- 选择与文档匹配的语言。
- 对于长 PDF,分批处理,以免丢失进度。
总结
扫描的 PDF 在您读取之前只是图片。ocrX 将这些页面变回您可以搜索、复制和编辑的文字。
