您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. DataEngineer_CapstoneProject-源码

  2. Capstone专案:用于串流推文的ETL管道 目的 这个Capstone项目开发了一个ETL管道,该管道从S3存储桶中加载包含推文的原始.json文件,将其转换并清理为下面指定的架构,然后将它们作为木地板文件存储在另一个S3存储桶中。 另一个数据输入源是金钱事件。 为此,将创建另一个数据集,其中包含 数据 主要有两个数据源:一个S3存储桶,其中包含来自Twitter API的带有推文的最新原始json文件,以及一个包含所有货币事件的文件。 此存储库中也生成了这些货币事件的代码,因此可以随时再
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:2097152
    • 提供者:weixin_42131352
  1. daskonverter:使用dask将大型源文件从一种格式转换为另一种格式-源码

  2. daskonverter 一个小型python软件包,用于将大型源文件从一种格式转换为另一种格式,即使是对于远程文件也是如此。 用法 if __name__ == "__main__" : convert_files ( "gcs://daskonverter/mongodump.airpair.tags.bson" , "test2.csv" ) convert_files ( "C: \\ blah \\ mongodump.airpair.tags.bson" , "gc
  3. 所属分类:其它

    • 发布日期:2021-03-10
    • 文件大小:56320
    • 提供者:weixin_42106299
  1. poc_aws_datawarehouse-源码

  2. POC数据仓库 Objetivo 数据仓库和数据仓库的竞争者 Validar arquitetura sugerida parainjestãode dados Desenho das Arquiteturas(que estou validandoatéentão) 没有数据流的理想情况,没有数据流,没有安装S3(数据湖)格式的镶木地板。 O GLUEéuma ferramenta de ETL,compare pretendo catalogue e separar os dados
  3. 所属分类:其它

    • 发布日期:2021-03-08
    • 文件大小:78848
    • 提供者:weixin_42116672
  1. warthog-源码

  2. 疣猪 Warthog可帮助您在镶木地板,json,orc和csv文件之间浏览,导出和交叉数据。 您可以使用可视查询构建器,也可以使用Hive SQL工作表进行更复杂的查询。 随意提出拉取请求,建议或捐赠: : 主要特点 1.简单的查询生成器 用于构建简单查询的可视界面。 快速浏览单个文件中包含的数据很有用。 您可以轻松地选择,汇总,应用where子句并对结果进行排序。 2. Hive SQL工作表 为了获得更大的灵活性,您可以使用Hive SQL工作表来构建自己SQL查询。 可用于运行更复
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:1048576
    • 提供者:weixin_42177768
  1. aws-etl-glue-源码

  2. 概述 请记住:在下面的链接中,请使用真实的AWS帐户(例如inventale dev沙箱),而不要假冒{9999999} 该项目包含Scala WeatherToParquetJob作业,以使用将数据从样本转换为镶木地板并将其存储到s3存储桶。 代码位于此处: : 输入数据: : input/ 结果数据: : weather/ 您可以使用查询输入和输出数据 请在这里找到完整的使用数据集: : 您可以在此处找到cloudformation基础结构描述符: ./aws/ 二
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:347136
    • 提供者:weixin_42113456
  1. 木地板元数据浏览器-源码

  2. 木地板元数据浏览器 用于Parquet元数据资源管理器的Spark SQL数据源,它是parquet-cli / parquet-tools的更简单替代方案。 特征: 使用Spark SQL分析Parquet元数据,例如行组大小,数据页标记,编码等。 将Parquet表中的所有文件上的元数据收集为DataFrame。 收集Parquet或任何基于文件的源(如JSON或CSV)的统计信息。 实现为Spark数据源V1,因此代码与Spark的早期版本兼容。 该库可与Apache Spar
  3. 所属分类:其它

    • 发布日期:2021-02-28
    • 文件大小:31744
    • 提供者:weixin_42168750
  1. pyfitparquet:将Garmin FITTCX文件的ETL支持到Apache Parquet-源码

  2. PyFit实木复合地板 pyfitparquet软件包支持将Garmin 和文件ETL转换为列格式。 它旨在在conda环境中使用。 使用两个配置文件来微调ETL行为: 和 。 通常,这些文件分别控制镶木地板输出文件的列和行结构,以及TCX标记名称到FIT / Parquet field_names的映射。 请在配置文件本身中查看详细注释,以进一步了解其用法。 尽管可以直接在$CONDA_PREFIX安装树下直接修改配置文件,但是重新安装pyfitparquet会将配置恢复为默认值。 要在整个
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:519168
    • 提供者:weixin_42154650
  1. Android-Utils:Android实用程序联盟-源码

  2. 图书馆,博物馆,博物馆和博物馆。 提供即时消息。 Android实用工具 Android实用程序。 马ac子 固定地板,木纹,木地板,金属地板等。西班牙语,西班牙语和西班牙语。 La biblioteca muestra algunas vistas,考虑到siguiente: Soporte para tema claro y oscuro,Android的Material Design组件,以及si Est su estilo dediseño。 西班牙语的成语:西班牙语,英语。 壁
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:5242880
    • 提供者:weixin_42165980
  1. 木地板-源码

  2. 木地板! 通过cbindgen接口将Arrow和DataFusion Rust库嵌入Swift MacOS应用程序的原型,并与Rust的wasm-bindgen Javascr ipt等效项共享零拷贝数组。 该应用程序可在macOS 11.1(通用ARM和Intel)上运行。 下载最新发布的并通过将扩展的Parquette.app拖动到Applications文件夹中进行安装。 它经常部署,并自动合并来自Apache Arrow项目的最新DataFusion 4.0.0-SNAPSHOT(
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:1048576
    • 提供者:weixin_42139302
  1. 家-源码

  2. 外形尺寸 现存的: 2,438平方英尺,带有洗衣区,将被移除。 (尺寸来源:富尔顿县网站) 2,355.4平方英尺的两层保留(移除了洗衣区,包括楼梯间) 每层保留1,177.7平方英尺(包括楼梯间) 添加: 每层639平方英尺(包括楼梯开口。不包括外墙) 每层48.13平方英尺-向北伸出,与现有厨房相邻。 新增总面积1374.26平方英尺 总计(不包括阁楼和地下室): 2,355.4 + 1374.26 = 3729.66平方英尺 允许的房屋3750平方英尺(根据调查) 土地面积平方英尺 现
  3. 所属分类:其它

    • 发布日期:2021-02-20
    • 文件大小:283115520
    • 提供者:weixin_42164534
  1. 353-flight-data:用于CMPT353-计算数据科学的最终项目-源码

  2. 353飞行数据 对于CMPT353-计算数据科学的最终项目 数据源: 飞行数据: ( )17文件(2019-01-> 2020-05)作为csv.gz. 由于大小不包含在git中。 机场查询: 航空公司查询: 飞机查询:由Rollin编译 如何使用 01_flight_etl.py-获取输入目录,机场查找,航空公司查找,输出目录。 返回镶木地板文件spark-submit 01_flight_etl.py input_data airports.csv airlines.csv
  3. 所属分类:其它

    • 发布日期:2021-02-18
    • 文件大小:15728640
    • 提供者:weixin_42099087
  1. odbc2parquet:一种命令行工具,用于查询ODBC数据源并将结果写入Parquet文件中-源码

  2. ODBC到木地板 一个命令行工具,用于查询ODBC数据源并将结果写入拼写文件。 内存占用少。 一次只能保存一批。 快速地。 有效利用ODBC批量读取,以降低IO开销。 灵活的。 查询您有驱动程序的任何ODBC数据源。 MySQL,MS SQL,Excel等 类型映射 该工具在ODBC数据源中查询类型信息,并将其映射为实木复合地板类型,如下所示: ODBC SQL类型 实木复合地板类型 小数(p,s) 小数(p,s) 数值(p,s) 小数(p,s) 少量 布尔型 双倍的 双倍的 真
  3. 所属分类:其它

    • 发布日期:2021-02-15
    • 文件大小:32768
    • 提供者:weixin_42117032
  1. 木地板JDBC-源码

  2. 木地板JDBC 一个简单的SPARK / SCALA工具,该工具从Parquet文件或目录中读取数据并插入到JDBC数据库中。 先决条件 Java 1.8或更高版本 JDBC驱动程序,已通过DB2和PostreSQL测试 sbt 安装 git clone cd ParquetJDBC sbt汇编 确保创建了jar。 ls target / scala-2.12 / classes ParquetJDBC.jar update zinc 启动应用程序 在启动应用程序之前,应手动创
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:20480
    • 提供者:weixin_42104947
  1. 木地板-源码

  2. 木地板!
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:1016832
    • 提供者:weixin_42151599
  1. ds-bazaar-workshop:使用Python将实证研究扩展到更大的数据-源码

  2. 使用Python将实证研究扩大到更大的数据 威斯康星大学麦迪逊分校的讲习班材料。 该研讨会的目的是为那些在分析适合内存的数据方面具有丰富经验但对扩展到大于内存数据集感兴趣的研究人员提供帮助。 将涉及以下主题:测量性能和内存使用情况; 抽样和拆分合并策略; 数据类型优化; 镶木地板的高效存储; 简单并行化; Dask简介。 感兴趣的参与者将获得示例数据集和有关设置编程环境的说明。 所有研讨会资料将在此GitHub存储库中公开提供。 应使您对预期的Python和熊猫知识有所了解。 如果您不Py
  3. 所属分类:其它

    • 发布日期:2021-02-11
    • 文件大小:31744
    • 提供者:weixin_42131352
  1. eel-sdk:JVM的大数据工具包-源码

  2. 鳗鱼 Eel是用于在hadoop生态系统中处理数据的工具包。 通过hadoop生态系统,我们指的是大数据世界通用的文件格式,例如HDFS或Hive表等位置中的镶木地板,兽人,csv。 与诸如或分布式批处理或流引擎相比,Eel是旨在直接在过程中使用的SDK。 与较高级别的引擎(例如Spark)相比,Eel是较低级别的API,适用于需要文件API之类的用例。 用例范例 从JDBC之类的源导入到Hive / HDFS之类的另一源 将多个文件(例如spark的输出)合并为一个文件 直接从您的过程中查询
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:1048576
    • 提供者:weixin_42129970
  1. bigdata-profiler:分析数据,验证模式并运行数据质量检查并生成报告-源码

  2. 大数据分析器 这是一个工具,用于分析您的传入数据,检查其是否符合已注册的架构并进行自定义数据质量检查。 在所有这些操作结束时,将自动生成一个人类可读的报告,并将其发送给利益相关者。 产品特点 配置驱动的数据分析和模式验证 每次运行后自动生成报告 与datadog监控系统集成 可扩展且高度可定制。 极少的锅炉板代码。 支持版本化架构验证。 当前支持的数据格式 CSV JSON格式 木地板 可以轻松扩展为Apache Spark支持读取的所有格式。 SQL支持自定义数据质量检查 同时支持ANS
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:331776
    • 提供者:weixin_42121272
  1. elasticsearch_loader:用于将数据文件(json,parquet,csv,tsv)批量加载到ElasticSearch的工具-源码

  2. elasticsearch_loader 主要特点 批量上传CSV(实际上是任何* SV)文件到Elasticsearch 批量上传JSON文件/ JSON行到Elasticsearch 将镶木地板文件批量上传到Elasticsearch 预定义自定义映射 上传前删除索引 使用文档本身的_id索引文档 直接从网址加载数据 SSL和基本身份验证 Unicode支持 :victory_hand: 外挂程式 为了安装插件,只需运行pip install plugin-name 从redis列表
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:22528
    • 提供者:weixin_42125826
  1. Parquet格式:Apache Parquet-源码

  2. 木地板 Parquet是一种支持嵌套数据的列式存储格式。 实木复合地板元数据使用Apache Thrift进行编码。 Parquet-format项目包含所有Thrift定义,这些定义对于创建Parquet文件的读取器和写入器是必需的。 动机 我们创建Parquet是为了使Hadoop生态系统中的任何项目都可以使用压缩的,高效的列式数据表示形式。 Parquet是从头开始构建的,考虑到了复杂的嵌套数据结构,并使用了Dremel论文中描述的。 我们相信这种方法优于嵌套名称空间的简单扁平化。
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:573440
    • 提供者:weixin_42181545
  1. streamx:kafka-connect-s3:从Kafka到对象存储(s3)提取数据-源码

  2. 基于安全问题,已计划此REPO SEC故障单#SEC-2988 StreamX:Kafka Connect for S3 从很棒的 StreamX是基于kafka连接的连接器,用于将数据从Kafka复制到对象存储,例如Amazon s3,Google Cloud Storage和Azure Blob存储。 它专注于可靠和可扩展的数据复制。 它可以以不同的格式(如镶木地板)写出数据,以便分析工具可以轻松使用它,也可以满足不同的分区要求。 ##产品特点 : StreamX从kafka-conn
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:252928
    • 提供者:weixin_42126668
« 12 »