搜索资源 - OCR-Python：Python中的光学字符识别-源码

搜索资源列表

img2txt:Img2Txt是一个python包装器，可使用Google Tesseract Engine从图像中提取文本并将其另存为文本文件。 Tesseract是用于各种操作系统的光学字符识别引擎。它是免费软件，根据Apache许可证
Image2Text Image2Text是一个python包装程序，可使用从图像中提取文本并将其另存为文本文件。 Tesseract是用于各种操作系统的光学字符识别引擎。它是免费软件，根据Apache许可证2.0版发布，自2006年以来一直由Google赞助开发。2006年，Tesseract被认为是当时可用的最准确的开源OCR引擎之一。快速链接：用法 python main.py -i -o usage: main.py [-h] -i INPUT [-o OUTPUT] [-d
所属分类：其它
- 发布日期：2021-03-22
- 文件大小：802816
- 提供者：weixin_42128988

SEC_X17A5：数据读取脚本，用于与EDGAR交互并解析与Amazon Web Services交互的X-17A-5文件-源码
X-17A-5光学字符识别（OCR） 1引言该项目在SageMaker实例中的Amazon Web Services（AWS）上运行。该脚本抓取了SEC的X-17A-5归档文件，并通过Amazon Textract执行了OCR，将资产负债表信息从文件存储到s3存储桶中。 2软件依赖关系 Python 3.6（库boto3，bs4，textract-trp） 3文件结构 3.1资源文件 secRegisteredDealers.txt存储从下载的数据。该ascii文本文件包含中央索引密钥（C
所属分类：其它
- 发布日期：2021-02-25
- 文件大小：1048576
- 提供者：weixin_42175971

ocr-table：使用光学字符识别从扫描的图像PDF中提取表-源码
十进制表该项目旨在使用光学字符识别从扫描的图像PDF中提取表格。安装要求 Tesseract OCR sudo apt-get install tesseract-ocr 影像魔术师 sudo apt-get install imagemagick PDF实用程序 sudo apt-get install poppler-utils Python包 sudo pip install -r requirements.txt 用法清除文件夹并复制所有要扫描的pdf文件。运行OCR：
所属分类：其它
- 发布日期：2021-02-05
- 文件大小：5242880
- 提供者：weixin_42139871