您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》

  2. 高清版(中文) 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。 除了ODS/DW类比较大型的应用外,Kettle 实际还可以为中小企业提供灵活的数据抽取和数据处理的功能。Kettle除了支
  3. 所属分类:Java

    • 发布日期:2016-05-06
    • 文件大小:60817408
    • 提供者:u010440380
  1. Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案 part2

  2. 资源太大,只能分两部门,这是第二部分,第一部分点我主页看资源,谢谢。 高清版(中文) 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。 《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。 除了ODS/DW类比较大型的应用外,Kettle 实际
  3. 所属分类:Java

    • 发布日期:2016-05-10
    • 文件大小:35651584
    • 提供者:u010440380
  1. Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案(中文版) part2

  2. 本书主要介绍如何使用开源ETL工具来完成数据整合工作。 本书介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。 除了ODS/DW类比较大型的应用外,Kettle 实际还可以为中小企业提供灵活的数据抽取和数据处理的功能。Kettle除了支持各种关系型数据库、HBase、MongoDB这样的NoSQL数据源外,它还支持Excel、Access这类小型的数据源。并且通过插件扩展,Kettle 可
  3. 所属分类:讲义

    • 发布日期:2016-06-20
    • 文件大小:49283072
    • 提供者:wstcilct
  1. AWS上的数据仓库

  2. 全球各大企业的数据工程师、数据分析师和开发人员都期待通过将数据仓库迁移到云来提高性能和降低成本。本白皮书讨论了实现分析和数据仓库体系结构的现代方法,简要介绍了 Amazon Web Services (AWS) 上可用于实施此体系结构的服务,并提供了利用这些服务来构建数据仓库解决方案的常见设计模式。
  3. 所属分类:其它

    • 发布日期:2020-03-03
    • 文件大小:636928
    • 提供者:weixin_38669093
  1. goodreads_etl_pipeline:用于构建数据湖,数据仓库和分析平台的端到端GoodReads数据管道-源码

  2. GoodReads数据管道 建筑学 管道包括各种模块: ETL职位 Redshift仓库模块 分析模块 概述 使用Goodreads Python包装器从Goodreads API实时捕获数据(查看用法 )。从Goodreads API收集的数据存储在本地磁盘上,并及时移至AWS S3上的Landing Bucket。 ETL作业以火花形式编写,并按气流计划以每10分钟运行一次。 ETL流程 从API收集的数据将移至着陆区s3存储桶。 ETL作业具有s3模块,该模块将数据从着陆区复制到工作区
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:1048576
    • 提供者:weixin_42138788
  1. CloudDataWarehouse:在此存储库中,我为Redshift上托管的数据库创建ETL管道-源码

  2. 云数据仓库 在此存储库中,我为Redshift上托管的数据库创建ETL管道。 我的名字叫数据工程师Akos Nemeth,我提供了一个构建ETL管道的解决方案,该管道从S3提取数据,在Redshift中进行分级,然后将数据转换为一组维表。 由于数据驻留在S3中,因此在该应用程序上用于记录用户活动的JSON目录中以及该应用程序中的歌曲上具有JSON元数据的目录中,我通过AWS检查了S3中的数据。 我使用了log_data和song_data并创建了以下登台表: staging_events
  3. 所属分类:其它

    • 发布日期:2021-03-16
    • 文件大小:2048
    • 提供者:weixin_42132354
  1. DataWarehouseProject:使用AWS Redshift部署到数据仓库,同时执行etl管道以简化s3存储桶中的数据-源码

  2. 项目:数据仓库 介绍 音乐流初创公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 作为他们的数据工程师,您的任务是建立一个ETL管道,该管道从S3中提取数据,在Redshift中进行分级,然后将数据转换为一组维度表,供其分析团队使用,以继续寻找用户正在收听的歌曲的见解。 。 通过运行Sparkify分析团队提供给您的查询并将您的结果与
  3. 所属分类:其它

    • 发布日期:2021-03-15
    • 文件大小:5120
    • 提供者:weixin_42112894
  1. Project-4-AWS-Data-Lake-源码

  2. 数据湖 介绍 音乐流初创公司Sparkify进一步扩大了用户群和歌曲数据库,并希望将其数据仓库移至数据湖。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 我建立了一个ETL管道,该管道从S3提取数据,使用Spark进行处理,并将数据作为一组维表加载回S3。 这将使他们的分析团队能够继续发现用户正在听哪些歌曲的见解。 项目描述 在此项目中,我为S3上托管的数据湖构建了ETL管道。 数据从S3加载,使用Spark处理
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:4096
    • 提供者:weixin_42121725
  1. distributed-jenkins-aws:使用在AWS上分发的Jenkins的CICD-源码

  2. AWS上的分布式Jenkins CI / CD管道 该项目的最终结果是在云平台上进行分布式Jenkins设置,该设置将充当用于软件开发的CI / CD管道的骨干。 该项目使用了DevOps原理中使用的几种技术。 AWS :托管基础架构的数据中心平台。 Terraform :用于构建和维护基础结构的基础结构代码(IaC) Ansible :用于在主机上安装和配置工具(如Jenkins)的配置管理(CM) 詹金斯(Jenkins) :用于持续集成和持续部署/交付(CI / CD)功能的主要
  3. 所属分类:其它

    • 发布日期:2021-03-05
    • 文件大小:15360
    • 提供者:weixin_42133415
  1. PT17_cityspire-a-fe:Labspt17的cityspire项目-源码

  2. 基本SPA 有关如何使用此存储库的步骤, Cityspire-fe 您可以在找到已部署的项目。 主页上的“了解美国的更多信息”链接链接到已部署的netlify项目CitySpire 。 对此的GitHub项目是:,以防有人想要继续使用它。 贡献者 分叉并克隆存储库以将其安装为您自己的遥控器。 请注意,请将此仓库为,以指向您的实验室团队前端存储库。 运行: npm install下载所有依赖项。 运行: npm start启动本地开发服务器。 使用Okta进行身份验证时,该应用将需要
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:82837504
    • 提供者:weixin_42139460
  1. 亚马逊AWS数据湖是个什么鬼?

  2. 本文重点介绍了什么是数据胡,、数据湖与数据仓库的区别,AWS数据湖架构,如何构建数据湖等方面来介绍。本文来自谈数据,由火龙果软件Anna编辑、推荐。Datalake,我第一次接触这个概念,是在2014年IBM组织的数据治理交流论坛上。当时只是认为“数据湖”就是一个概念,没什么新意,“不就是把不同结构的数据实现统一存储,Hadoop不就是干这个活的吗?本质上还是换汤不换药、新瓶装老酒,又一个新概念”!后来发现,主流的大数据和云计算公司都在推这个叫“数据湖”的技术。于是,我特意上网百度了一下,“数据
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:693248
    • 提供者:weixin_38720173
  1. Job_Prediction_Project:用于工作预测的仓库-源码

  2. Job_Prediction_Project 项目概况 使用python和selenium从glassdoor中删除了800个工作描述。 创建了一种可估算数据科学家工资的工具,以帮助他们与未来的潜在雇主协商工资。 每个职位描述的功能工程文本,以量化公司在Python,R,SQL,Spark,AWS,Tableau,Excel上的价值。 使用RandomizedSearchCV优化了多个线性,支持向量和随机森林回归,以达到最佳模型。 使用flask构建了面向客户端的API。 使用的代码和资
  3. 所属分类:其它

    • 发布日期:2021-02-18
    • 文件大小:7340032
    • 提供者:weixin_42133899
  1. aws_data_warehouse:AWS平台上的数据仓库实现-源码

  2. AWS V1.0上的数据仓库 背景 一家名为Sparkify的初创公司希望分析他们在新音乐流应用程序上收集的有关歌曲和用户活动的数据。 分析团队对了解用户正在收听的歌曲特别感兴趣。 他们决定在AWS云上实施数据仓库。 架构图 数据驻留在S3中。 ETL管道从S3提取数据并将其分阶段转换为Redshift,将其转换并将其加载到针对歌曲播放分析的查询而优化的星型模式中。 这包括下表。 舞台桌 StagEvents-使用COPY Clouse直接从日志数据文件夹中加载数据 艺术家,身份验证,名字,性
  3. 所属分类:其它

    • 发布日期:2021-02-18
    • 文件大小:6144
    • 提供者:weixin_42169674
  1. dend-project-3:Udacity数据工程纳米学位项目3:具有S3和Redshift的AWS ETL管道-源码

  2. | | 2020-11-23 项目3:AWS数据仓库 音乐流媒体创业公司Sparkify已经扩大了用户群和歌曲数据库,并希望将其流程和数据转移到云中。 他们的数据位于S3中,位于应用程序上有关用户活动的JSON日志目录中,以及位于应用程序中的歌曲上的具有JSON元数据的目录中。 他们要求数据工程师建立一个ETL管道,该管道从S3提取数据,在Redshift中进行分级,然后将数据转换为一组维度表,供其分析团队使用,以继续寻找用户正在收听的歌曲的见解。 通过运行Sparkify分析团队提供给您的
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:62464
    • 提供者:weixin_42125826
  1. Skytrax-Data-Warehouse:完整的数据仓库基础架构,其ETL管道在Apache Airflow的docker上的docker内部运行,用于数据编排,AWS Redshift用于云数据仓库,以及Metabase,可满足数据可

  2. Skytrax数据仓库 完整的数据仓库基础架构,其ETL管道在Apache Airflow上的docker上的docker内部运行,用于数据编排,用于云数据仓库的AWS Redshift和用于满足数据可视化需求(例如分析仪表板)的Metabase。 建筑 数据仓库包括以下各个模块: 总览 数据是从 获得的。 收集的数据存储在本地磁盘上,并及时移至AWS S3上的Landing Bucket。 ETL作业是用SQL编写的,并且以气流的形式进行调度,以每小时运行一次,以保持云数据仓库中数据的新鲜度
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:1048576
    • 提供者:weixin_42162216
  1. aws-amplify-graphql:在进行GraphQL查询和变异时,结合使用AWS Amplify和AWS AppSync进行示例以进行用户登录和授权。 还包括用于使用React应用程序向S3上载数据和从中下载数据的复杂对象-源码

  2. AWS AppSync GraphQL照片示例 请将问题提交到存储库。 该示例应用程序演示了如何使用GraphQL构建一个用户可以登录到系统的应用程序,然后上传和下载他们专用的照片。 该示例使用React编写,并使用AWS AppSync,Amazon Cognito,Amazon DynamoDB和Amazon S3以及Amplify CLI。 架构概述 先决条件 与 npm install -g aws-amplify/cli amplify configure 入门 在本地克隆此仓库
  3. 所属分类:其它

    • 发布日期:2021-02-04
    • 文件大小:768000
    • 提供者:weixin_42177768
  1. athena-express:通过在AWS开发工具包中将一系列方法链接在一起,athena-express使在Amazon Athena上执行SQL查询变得更加容易。 这使您可以在同一同步调用中执行SQL查询并获取JSON结果-非常适合We

  2. Athena-Express:简化Amazon Athena上SQL查询 如发布在官方 概要 雅典娜-Express可以简化亚马逊雅典娜执行SQL查询和获取清理的JSON结果在同一同步调用-非常适合于Web应用程序。 例: 亚马逊雅典娜背景 在AWS re:Invent 2016上启动的使使用标准SQL在Amazon S3中分析数据变得更加容易。 在后台,它使用 (一种由Facebook在2012年开发的开源SQL引擎)来查询其300 Petabyte数据仓库。 非常强大! Amazon At
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:24576
    • 提供者:weixin_42128537
  1. Hello-AWS-Data-Services:AWS数据服务和LinkedIn学习上的ML课程的示例代码-源码

  2. 重要事项此Repo是我的LinkedIn学习课程的伴侣-所涵盖的服务如下图所示。 有关DEMOS for AWS服务的详细信息 学习课程中“ AWS数据服务” - 学习课程中“ AWS机器学习” - 从Lynn了解更多AWS 代码和注释 我的示例AWS GitHub Repos(代码,链接和示例数据): 'hello-aws-data-services'--此仓库 'aws-cost-control'--回购/课程 '学习成群-火花' --回购/课程 'learning-nosql'--回购/
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:95420416
    • 提供者:weixin_42132359
  1. 亚马逊AWS数据湖是个什么鬼?

  2. 本文重点介绍了什么是数据胡,、数据湖与数据仓库的区别,AWS数据湖架构,如何构建数据湖等方面来介绍。 本文来自谈数据,由火龙果软件Anna编辑、推荐。Datalake,我第一次接触这个概念,是在2014年IBM组织的数据治理交流论坛上。当时只是认为“数据湖”就是一个概念,没什么新意,“不就是把不同结构的数据实现统一存储,Hadoop不就是干这个活的吗?本质上还是换汤不换药、新瓶装老酒,又一个新概念”!后来发现,主流的大数据和云计算公司都在推这个叫“数据湖”的技术。于是,我特意上网百度了一下,“数
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:693248
    • 提供者:weixin_38672731
  1. simple-data-warehouse:简单数据仓库-源码

  2. 简单数据仓库 公开数据的简单REST API应用程序-从csv文件中提取 API使用以下参数: 要汇总的一组指标(加上计算得出的指标) 一组可选的尺寸(按以下分组) 一组可选的尺寸过滤器,用于对其进行过滤 数据如下所示: 时间维度(日期) 常规尺寸(广告系列,数据源) 指标(点击次数,展示次数) 代管 托管在AWS上 原料药 Swagger UI可视化 GET“ / api / info”返回有关应用程序的信息 文件上传 CSV文件可以通过POST作为多部分文件上传到“ / upload”,并
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:2048
    • 提供者:weixin_42151599
« 12 »