OCR (Optical Character Recognition光学字符识别)技术,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。
文档扫描仪
文件扫描仪
OCRmyPDF将OCR文本层添加到扫描的PDF文件中,从而可以搜索或复制粘贴它们。
ocrmypdf # it's a scr iptable command line program
-l eng+fra # it supports multiple languages
--rotate-pages # it can fix pages that are m