您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. pd3f::factory:PDF文本提取管道-源码

  2. pd3f – PDF文本提取器 超越PDF 实验性使用,请谨慎使用。 pd3f是一个PDF文本提取管道,该管道是自托管,本地优先和基于Docker的。 它借助机器学习来重建原始连续文本。 pd3f可以使用 (Tesseract)进行OCR扫描的PDF,并使用和提取表。 它基于的输出。 Parsr检测文本的层次结构,并将文本拆分为单词,行和段落。 即使Parsr为PDF带来了一些结构,但文本仍然是混乱的,即由于连字符引起的。 底层的Python包尝试通过删除连字符, 行和/或空格来重建原始
  3. 所属分类:其它

    • 发布日期:2021-03-09
    • 文件大小:430080
    • 提供者:weixin_42117037