您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. visitor_data_analytics-源码

  2. 网页访问者数据分析-Python ECS任务 概述 要将事件吸收到datalake,请创建数据模型并分析用户页面活动。创建访问者会话分析。 建筑学 拟议的数据流架构 如何设置该项目以进行开发 确保已安装Python 3.7。 使用virtualenv创建虚拟环境,然后pip安装requirements.txt文件。 python -m venv . source bin/activate pip install -r requirements.txt 如何在本地部署Terraform和Docke
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:106496
    • 提供者:weixin_42117267
  1. simple-datalake-client-源码

  2. simple-datalake-client
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:71680
    • 提供者:weixin_42098104
  1. Datalake-Independecia:Django creado para la munisipalidad de indeptendencia-源码

  2. Datalake独立 Django creado para la munisipalidad de indeptendencia
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:25165824
    • 提供者:weixin_42157166
  1. datalake-源码

  2. 数据湖演示 使用Dataproc模板在Dataproc上编排Spark
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:3072
    • 提供者:weixin_42132352
  1. Pointcloud_Labeling_Tool:浏览器的3D点云标签工具-源码

  2. Pointcloud_Labeling_Tool 该工具使您可以在浏览器中标记3D点云。 最后结果 以下链接指向演示该工具的YouTube视频。 安装 安装NodeJS 通过npm安装所有依赖项(npm install) 点云Fromat 每个点云必须上传到名为“ to_label”的AWS S3存储桶。 您必须在“ middleware / datalake.js”中指定存储桶的名称。 在运行服务器之前,请确保导出您的访问密钥和秘密访问密钥。 每个点云必须使用以下格式存储在json
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:1048576
    • 提供者:weixin_42125826
  1. az-adl-acl-源码

  2. 提取ADL ACL 命令行工具遍历Azure Datalake文件系统以从指定目录中导出所有文件和目录ACL 该工具保持其状态,这使得它可以重新启动。 如果工具在精加工之前被中断或终止,要继续运行,请确保使用“ -continue”选项,然后,如果工具在途中停止运行,它将在中断处重新启动。 如果未提供此选项,则新的调用将清除状态并输出文件,然后重新开始。 注意:对于非常大的Datalake(> 1000万个对象),请使用“ -dir”选项来限制生成的数据,并且可以启动该工具的多个实例
  3. 所属分类:其它

    • 发布日期:2021-03-13
    • 文件大小:19456
    • 提供者:weixin_42117267
  1. schedoscope:Schedoscope是一个调度框架,用于无痛地敏捷开发,测试,(重新)加载和监视数据集线器,湖泊或近来您选择调用的Hadoop数据仓库-源码

  2. Schedoscope不再由OttoGroup开发。 随意分叉! 介绍 Schedoscope是一个调度框架,用于无痛地进行敏捷开发,测试,(重新)加载和监视datahub,datalake或这些天您选择的Hadoop数据仓库。 当需要频繁推出并使用Oozie等传统ETL作业调度程序追溯性地对datahub中的计算逻辑和数据结构进行更改时,Schedoscope会让您头痛不已。 使用Schedoscope, 您无需创建DDL和架构迁移脚本; 面对逻辑或数据结构的追溯性更改,您不必手动确定
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:1048576
    • 提供者:weixin_42111465
  1. Udacity-Datalake-Spark:具有Spark的Udacity数据湖-源码

  2. Sparkify的Data Lake ELT流程 概括 介绍 该项目将为Sparkify提取歌曲和日志数据,以使其更易于理解其数据并对该数据进行分析。 该项目正在使用EMR将数据处理到S3上。 入门 该ELT过程是一个非常简单的过程。 如果这是您第一次运行此项目,则应复制dl.cfg.example文件,并为项目dl.cfg配置参数。 然后在您的本地计算机上: python main.py 该过程将检查目标存储桶是否存在。 如果存在,则该进程将删除存储桶以及该存储桶中的所有内容,然后在s3上
  3. 所属分类:其它

    • 发布日期:2021-02-28
    • 文件大小:510976
    • 提供者:weixin_42133680
  1. DeltaLake_Experiment:DataLake实验和教程-源码

  2. DeltaLake_Experiment:DataLake实验和教程
  3. 所属分类:其它

    • 发布日期:2021-02-18
    • 文件大小:1048576
    • 提供者:weixin_42131405
  1. pbila:Power BI日志分析-源码

  2. Power BI日志分析 Power BI Log Analytics是一个免费工具,可帮助您获取有关Power BI使用情况的正确信息。 这是一个入门工具包,可让您对可以做什么以及可以拥有什么样的数据有所了解。 如您所见,我使用PowerShell提取数据并将文件保存在本地计算机中。 您可以调整外壳以将数据保存到Azure Datalake。 我还使用了我的用户名,可以使用Service Principal来提高安全性。 我做了一个简单的方法来快速:)。 先决条件 PowerShell V
  3. 所属分类:其它

    • 发布日期:2021-02-16
    • 文件大小:3145728
    • 提供者:weixin_42174176
  1. 数据工程师:数据工程练习-源码

  2. 数据工程师 数据工程师做什么? 鉴于其各种技能,数据工程角色可以跨越许多不同的职位描述。 数据工程师可以负责数据库设计,方案设计,创建多个数据库解决方案以及创建管道。 这项工作可能还涉及数据库管理员。 作为数据工程师,您可能充当数据库(或Datalake)与数据科学团队之间的桥梁。 在这种情况下,您还将负责数据清理和准备。 如果涉及大数据,那么为该数据提供有效的解决方案是您的工作。 您还需要进行有效的数据查询以进行报告和分析。 您可能需要与多种类型的数据库进行交互,或者编写存储过程以及数据
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:1048576
    • 提供者:weixin_42109178
  1. nessie:Nessie为您的Data Lake提供了类似Git的功能-源码

  2. 内西计划 Nessie项目是一个为Iceberg Tables,Delta Lake Tables,Hive Tables和Sql Views提供类似Git功能的系统。 可以在上找到更多信息。 使用内西 您可以使用我们小的快速docker镜像快速开始使用Nessie。 docker pull projectnessie/nessie docker run -p 19120:19120 projectnessie/nessie 然后安装Nessie CLI工具 pip install pyn
  3. 所属分类:其它

    • 发布日期:2021-02-10
    • 文件大小:1048576
    • 提供者:weixin_42131861
  1. datalake-etl-pipeline:使用Apache Spark的Hadoop中简化的ETL过程。 具有用于datalake的完整ETL管道。 SparkSession扩展,DataFrame验证,列扩展,SQL函数和DataFra

  2. Datalake ETL管道 简化了任何数据平台的数据转换。 Features:该软件包具有完整的ETL过程- 使用元数据,转换和数据模型信息来设计ETL管道 建立目标转换SparkSQL和Spark Dataframes 构建源和目标Hive DDL 验证DataFrames,扩展核心类,定义DataFrame转换并提供UDF SQL函数。 支持ETL管道的以下基本转换- 过滤源和目标数据框 在源和目标数据帧上进行分组和聚合 大量嵌套的查询/数据框 具有复杂且高度嵌套的XML,JS
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:754688
    • 提供者:weixin_42146230
  1. pan-cortex-data-lake-python:适用于Cortex:trade_mark:Data Lake的Python惯用SDK-源码

  2. Palo Alto Networks Cortex:trade_mark:Data Lake SDK 用于Cortex:trade_mark:Data Lake的Python惯用SDK。 创建Palo Alto Networks Cortex数据湖Python SDK是为了帮助开发人员与Palo Alto Networks Cortex:trade_mark:Data Lake API进行编程交互。 主要目标是为以下Cortex:trade_mark:Data Lake服务提供完整的低层A
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:34816
    • 提供者:weixin_42169245
  1. db:出色的快速ACID兼容NoSQL DataLake,支持存储17种格式的数据。 完整SQL和DML功能以及Java存储过程,可进行高级数据处理-源码

  2. 描述 BlobCity DB是一个多合一数据库。 它支持本地存储17种不同格式的数据,包括JSON,XML,CSV,PDF,Word,Excel,Log,GIS,Image等。 它运行两个全功能存储引擎。 一个将数据存储在内存中,另一个将数据存储在磁盘中。 内存存储为实时分析提供了出色的性能,而磁盘存储使BlobCity成为DataLakes的绝佳替代品。 支持的数据格式 以以下17种格式中的任何一种推送数据: JSON,XML,CSV,SQL,纯文本,PDF,Excel,Word,RTF,ZI
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:116391936
    • 提供者:weixin_42138703
  1. terraform-module-azure-datalake:用于Azure数据湖的Terraform模块-源码

  2. Terraform模块Azure数据湖 这是用于Terraform的模块,该模块在Microsoft Azure上部署了完整且可靠的数据湖网络。 组件 Azure数据工厂,用于从各种来源提取数据 Azure Data Lake Storage gen2容器存储数据Lake层的数据 Azure Databricks清理和转换数据 Azure Synapse Analytics存储演示数据 Azure CosmosDB存储元数据 凭据和访问管理已配置就绪 此设计基于Microsoft的一种解决方案的
  3. 所属分类:其它

    • 发布日期:2021-02-01
    • 文件大小:50176
    • 提供者:weixin_42128015
  1. datalake-upload-源码

  2. 数据湖上传
  3. 所属分类:其它

    • 发布日期:2021-04-02
    • 文件大小:3072
    • 提供者:weixin_42111465
  1. GUI_time_series_predictions:autoTS包的可视化工具-源码

  2. 介绍 此存储库包含autoTS GUI的源代码。 该GUI是一个闪亮的应用程序,可让您在R的情况下测试。 要在本地运行有光泽的应用程序,只需在“ app”子文件夹中运行Rstudio中的app.R文件。 如果要构建docker映像(例如,将其托管在Group datalake上的Shinyproxy实例中),只需转到此目录并键入: docker build -t autots/gui . 接触 如果您要添加功能或联系A1组CoE(Vivien Roussez)进行错误更正,则请求请求非常受欢
  3. 所属分类:其它

    • 发布日期:2021-03-31
    • 文件大小:251904
    • 提供者:weixin_42116585