您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Data-Warehouse-with-AWS-Redshift-源码

  2. 自述文件 给审稿人的问题 我在log_data集中的ts列遇到问题。 我正在尝试将其转换为时间戳,并尝试了几种方法,但redshift似乎不喜欢其中任何一种。 我以BIGINT形式开始吗? 我不得不从users表中的user_id中删除PRIMARY KEY名称,因为我一直收到一条错误消息,提示我无法为user_id插入null值。 我假设它是指users表中的user_id 。 概述 简介音乐流媒体创业公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据移至云中。 他们的数
  3. 所属分类:其它

    • 发布日期:2021-03-26
    • 文件大小:121856
    • 提供者:weixin_42133753
  1. event_etl_infra:ETL管道的Terraform设置-源码

  2. event_etl_infra ETL管道的Terraform设置
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:13312
    • 提供者:weixin_42133969
  1. cloud_datawarehouse_with_redshift:为一家名为Sparkify的虚构公司设计云数据仓库-源码

  2. 使用Redshift的云数据仓库 该项目的主要任务是为一家名为Sparkify的虚构公司设计一个云数据仓库,该公司是一个像Spotify / Pandora这样的音乐流媒体平台。 Sparkify已在其网站上记录了有关用户行为的数据。有关的日志数据,歌曲数据和JSON元数据。该数据位于Amazon S3存储桶中。 任务是设计一个维度数据模型和ETL管道,以使用Amazon Redshift作为数据存储来构建数据仓库,以便分析团队可以方便地处理数据。 使用的技术 数据集 日志数据集 该数据集由JS
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:8192
    • 提供者:weixin_42108778
  1. Datawarehouse-源码

  2. 数据仓库 介绍 在这个项目中,一家名为Sparkify的新兴公司正在成长,仅通过迁移到云中就可以满足其数据库需求。数据工程团队的任务是建立ETL管道,该管道从S3中的JSON日志中提取信息,并从其应用程序中提取JSON元数据,并将其持久化到托管在AWS Redshift上的PostgresSQL DB。 架构图 有一个事实表(歌曲播放)和四个维度表(歌曲,用户,艺术家和时间) 在Redshift上实现数据库的步骤 在sql_queries.py中为每个表写出CREATE / DROP SQL语句
  3. 所属分类:其它

    • 发布日期:2021-03-19
    • 文件大小:4096
    • 提供者:weixin_42131790
  1. kangaru-源码

  2. 坎加鲁-埃特尔 设置并运行自定义ETL(提取,转换,加载)任务。 Kargaru-ETL是一个用户友好的跨平台电子应用程序,旨在利用RxJS-ETL库。 RxJS-ETL是使用RxJS可观察对象构建的模块化平台,允许开发人员创建基于流的ETL管道。该平台提供了其他功能,例如缓冲,批量插入,任务完成时通知,作业调度以及任务依赖关系的建立。那些希望或需要使用RxJS-ETL以获得更直观的指导的人可以运行Kangaru-ETL来导入和导出文件,连接到数据库,编写转换脚本以及设置排定的ETL作业队列。
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:128000
    • 提供者:weixin_42118160
  1. Data-Warehouse-with-Amazon-Redshift-and-S3:项目03-源码

  2. 项目描述 音乐流应用启动公司Sparkify希望通过分析和查找相关模式来利用他们从应用中收集的歌曲和用户数据。特别是,分析团队希望知道用户正在听的歌曲。但是,在当前设置中,很难理解数据。最近,该应用程序的用户基础以及歌曲数据库不断增长,并希望将其流程和数据转移到云中。到目前为止,他们的数据位于Amazon s3存储桶中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上具有JSON元数据的目录中,根本不适合进行查询。该项目的目标是创建一个ETL管道,该管道从S3提取数据,
  3. 所属分类:其它

    • 发布日期:2021-03-18
    • 文件大小:241664
    • 提供者:weixin_42131618
  1. drb-etl-pipeline:用于将记录从外部源加载到DRB集合并通过API提供访问权限的应用程序-源码

  2. 数字研究书籍ETL管道 一个容器化的python应用程序,用于从多个源项目中导入数据并将此数据转换为可通过API(为供电)的统一格式。 该服务旨在作为Kubernetes集群运行,但可以部署在任何容器化环境中。 该项目的总体目标是通过单个门户提供对开放源代码和公共领域专论的访问,使研究人员,学生和其他人更容易发现本来就不知道的晦涩的作品和新数字化的资料的。 Craft.io概述 此ETL管道分几个阶段运行,以逐步增强从源项目接收的数据。 这使我们既可以对来自各种来源(自然而然地以多种格式存在
  3. 所属分类:其它

    • 发布日期:2021-03-17
    • 文件大小:276480
    • 提供者:weixin_42168830
  1. Disaster-Response-Pipeline:创建了自然语言处理(NLP)机器学习管道,以根据发送者传达的需求对真实的用户紧急消息进行分类-源码

  2. 目录 项目动机 灾害响应管道项目 该项目的目标是对灾难事件期间从图八提供的数据集中发送的合法消息进行分类。 它要求我们建立机器学习管道,以根据发送方实时传达的需求对紧急消息进行分类。 特定的机器模型是自然语言处理(NLP)模型。 该项目分为三个主要部分: 构建ETL管道以提取数据,清理数据并将其存储到SQlite数据库中。 构建ML模型以训练分类器将消息置于最准确的类别中。 运行该应用程序以实时显示模型的准确性和结果。 结果汇总 该Web应用程序能够对发送的消息进行分类,并将其置于最合适
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:10485760
    • 提供者:weixin_42143806
  1. disaster_response_pipeline:使用图八提供的数据来构建用于对灾难消息进行分类的管道-源码

  2. 灾害响应管道项目 目录 指示: 在项目的根目录中运行以下命令来设置数据库和模型。 运行ETL管道以清理数据并将其存储在数据库中python data/process_data.py data/disaster_messages.csv data/disaster_categories.csv data/DisasterResponse.db 运行用于训练分类器并保存python models/train_classifier.py data/DisasterResponse.db mode
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:7340032
    • 提供者:weixin_42120997
  1. usa-tourism-etl:ETL管道--源码

  2. 美国旅游业 ETL管道-
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:116736
    • 提供者:weixin_42116650
  1. postgres_data_modeling-源码

  2. Udacity数据工程师项目1 为“ Sparkify”创建一个postgres数据库 Sparkify是一家(虚构的)初创公司,提供音乐流媒体服务。 它们累积数据,但尚未利用它们。 该存储库中记录的我的工作是建立ETL管道。 数据存储在文件夹data/中的json文件中。 有两种文件, log_file和songs_file 。 我建立了一个星形架构,其中包含四个维度表和一个事实表。 数据库是关系型的; 我正在使用PostgreSQL。 我将从json文件中获取原始数据,并将它们组织成四个
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:1048576
    • 提供者:weixin_42128315
  1. CloudDataWarehouse:在此存储库中,我为Redshift上托管的数据库创建ETL管道-源码

  2. 云数据仓库 在此存储库中,我为Redshift上托管的数据库创建ETL管道。 我的名字叫数据工程师Akos Nemeth,我提供了一个构建ETL管道的解决方案,该管道从S3提取数据,在Redshift中进行分级,然后将数据转换为一组维表。 由于数据驻留在S3中,因此在该应用程序上用于记录用户活动的JSON目录中以及该应用程序中的歌曲上具有JSON元数据的目录中,我通过AWS检查了S3中的数据。 我使用了log_data和song_data并创建了以下登台表: staging_events
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:2048
    • 提供者:weixin_42132354
  1. etl-pipeline-demand-data-api-源码

  2. python-mysql-parrot-analytics ETL管道从API和INSERT INTO Mysql DB调用Parrot Analytics每月需求数据 使用configuration.py来配置设置 START_DATE ='2020-01-01'->数据查询的开始日期 END_DATE ='2020-12-31'->数据查询的结束日期 市场= ['ID','PH']->要查询的市场 METRIC_TYPE ='dexpercapita'->指标类型(
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:9216
    • 提供者:weixin_42166626
  1. DataWarehouseProject:使用AWS Redshift部署到数据仓库,同时执行etl管道以简化s3存储桶中的数据-源码

  2. 项目:数据仓库 介绍 音乐流初创公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 作为他们的数据工程师,您的任务是建立一个ETL管道,该管道从S3中提取数据,在Redshift中进行分级,然后将数据转换为一组维度表,供其分析团队使用,以继续寻找用户正在收听的歌曲的见解。 。 通过运行Sparkify分析团队提供给您的查询并将您的结果与
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:5120
    • 提供者:weixin_42112894
  1. TM-ESE-TakeHomeExam-KDS-源码

  2. TM-ESE-TakeHomeExam-KDS 该存储库可作为实地考试交付成果的平台,作为Think Machine担任企业解决方案工程师角色的招聘过程的一部分。 可以在各自的文件夹中找到更详细的文档 项目概况 AMT Corp是食品行业最大的企业客户之一,已要求我们为实时欺诈检测设计和部署基于ML的解决方案。 他们希望尽快收到有关欺诈性记录的通知,因此他们可以实时采取行动。 我们已经确定,部署模型的最佳位置是在其流式ETL管道中。 该管道使用CDC(更改数据捕获)技术将数据库更改传输到B
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:153600
    • 提供者:weixin_42151036
  1. 灾害响应管道项目-源码

  2. 灾害响应管道项目 项目动机 在这个项目中,我将运用在数据工程部分学到的技能来分析图8中的灾难数据,以建立用于对灾难消息进行分类的API模型。 指示: 在项目的根目录中运行以下命令来设置数据库和模型。 运行ETL管道以清理数据并将其存储在数据库中python data/process_data.py data/disaster_messages.csv data/disaster_categories.csv data/DisasterResponse.db 运行用于训练分类器并保存pyth
  3. 所属分类:其它

    • 发布日期:2021-02-14
    • 文件大小:5242880
    • 提供者:weixin_42114041
  1. 冠状病毒仪表板管道等-源码

  2. 冠状病毒仪表板 消费者数据管道ETL ETL服务可创建可供消费者使用的CSV和JSON文件,以供下载。 每次将新数据文件部署到publicdata blob存储时触发的事件将调度该服务。 数据与原始数据相同,但结构不同。 注意:数据中缺少值。 方法是在CSV文件中将其保留为空白,并在JSON中分配null值以确保结构一致。 学分 该服务由开发和维护。 版权所有(c)2020英国公共卫生
  3. 所属分类:其它

    • 发布日期:2021-02-13
    • 文件大小:21504
    • 提供者:weixin_42121754
  1. evolving_etl:由Prefect提供支持的ETL数据流水线-源码

  2. 不断发展的ETL 一系列数据管道展示了Prefect Core / Cloud工作流语义。 每个数据管道都建立在先前的级别上,并在随后的每个流程中添加了特性。 ETL的每个级别都显示以下内容: 本地演进ETL 级别1-功能和命令式API,任务装饰器,流上下文,数据依赖项,任务子类,流方法 级别2-流/任务动态性,参数,映射,控制流语义,参数化调度 级别3-任务级别配置,重试,结果,触发器,状态处理程序,记录器 云演进ETL 级别1-功能和命令式API,任务装饰器,流上下文,数据依赖项,任
  3. 所属分类:其它

    • 发布日期:2021-02-12
    • 文件大小:8192
    • 提供者:weixin_42177768
  1. 灾害响应管道项目-源码

  2. 灾害响应管道项目 该项目实现了一个分类器模型,以对自然灾害期间人们发送的消息进行分类。 分类后,可以将消息定向到适当的救灾机构。 图八提供的培训数据是使用ETL和自然语言处理管道挖掘的。 项目描述 该项目分为以下几节: 1.数据处理,ETL管道从源中提取数据,清理数据并将其保存在适当的数据库结构中。 Python脚本process_data.py包含数据清理管道,该管道具有: 加载messages和categories数据集 合并两个数据集 清理数据 将其存储在SQLite数据库中 2.机器
  3. 所属分类:其它

    • 发布日期:2021-02-09
    • 文件大小:6291456
    • 提供者:weixin_42151772
  1. tpack:将Go工作流功能打包为Unix风格的管道命令-源码

  2. 包装 将Go工作流/功能打包为Unix风格的管道命令。 在类Unix的计算机操作系统中,管道是一种使用消息传递进行进程间通信的机制。 管道是一组通过其标准流链接在一起的进程,因此每个进程的输出文本(stdout)作为输入(stdin)直接传递到下一个。 使用tpack编写充当管道命令的Go应用程序。 利用通道,goroutines,正则表达式等来构建强大的并发工作流。 例子 请参阅示例文件夹中的ETL工作流程。 package main import "github.com/reugn/
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:64512
    • 提供者:weixin_42112685
« 12 3 4 5 6 7 »