X-17A-5光学字符识别(OCR)
1引言
该项目在SageMaker实例中的Amazon Web Services(AWS)上运行。 该脚本抓取了SEC的X-17A-5归档文件,并通过Amazon Textract执行了OCR,将资产负债表信息从文件存储到s3存储桶中。
2软件依赖关系
Python 3.6(库boto3,bs4,textract-trp)
3文件结构
3.1资源文件
secRegisteredDealers.txt存储从下载的数据。 该ascii文本文件包含中央索引密钥(C