您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 01_Spark基础(spark概述、spark集群安装)

  2. Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户
  3. 所属分类:spark

    • 发布日期:2018-08-28
    • 文件大小:488448
    • 提供者:u010749802
  1. spark详细教程课件

  2. 1.1.1 Spark基础入门; 1.1.2 Spark集群搭建; 2.1 Spark编程实例; 2.2 简易电影受众系统; 3 Spark计算引擎剖析; 4、Spark应用经验与程序调优; 5.1 SparkSQL与DataFrame; 5.2 SparkSQL程序设计基础; 6.1Spark+SQL程序设计基础; 7、Spark+Streaming应用及案例分析; 8.1 Spark MLlib基础与应用; 8.2 信用卡欺诈检测系统; 9.1 Spark综合案例:简易电影推荐系统; 9.
  3. 所属分类:深度学习

    • 发布日期:2018-11-20
    • 文件大小:90177536
    • 提供者:qq_40800403
  1. IQL即席查询服务

  2. 基于SparkSQL实现了一套即席查询服务,具有如下特性: 优雅的交互方式,支持多种datasource/sink,多数据源混算 spark常驻服务,基于zookeeper的引擎自动发现 负载均衡,多个引擎随机执行 多session模式实现并行查询 采用spark的FAIR调度,避免资源被大任务独占 基于spark的动态资源分配,在无任务的情况下不会占用executor资源 支持Cluster和Client模式启动 基于Structured Streaming实现SQL动态添加流 基于REPL
  3. 所属分类:spark

    • 发布日期:2018-12-17
    • 文件大小:14680064
    • 提供者:cherryzxh007
  1. 大数据开发之内存计算

  2. Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。
  3. 所属分类:其它

    • 发布日期:2019-02-17
    • 文件大小:83886080
    • 提供者:lixinkuan328
  1. Spark和TiDB (Spark on TiDB)

  2. SparkTI (Spark on TiDB)是TiDB基于Apache Spark的独立于原生系统的计算引擎。它将Spark和TiDB深度集成,在原有MySQL Workload之外借助Spark支持了更多样的用户场景和API。这个项目在SparkSQL和Catalyst引擎之外实现了一套扩展的,为TiDB定制的SQL前端(Parser,Planner和优化器):它了解TiDB如何组织数据,并知晓如何借助TiDB本身的计算能力加速查询,而不仅仅是一个Connector。凭借SparkTI,T
  3. 所属分类:spark

    • 发布日期:2019-04-30
    • 文件大小:314368
    • 提供者:flexie
  1. Python-SQLFlow将SQL数据库和TensorFlow相结合

  2. SQLFlow是将TensorFlow和其他机器学习工具包与SQL引擎的连接桥梁,例如 MySQL,Hive,SparkSQL或SQL Server。 SQLFlow扩展了SQL语言,以支持模型训练,预测和推理。
  3. 所属分类:其它

  1. ApacheSparkMeetupChina第1期杭州站.pdf

  2. 主题介绍: 主题一、Spark优化实践阿里云E-MapReduce-王道远介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作,包括SmartShuffle、file skip index等。 主题二、Spark使用对象存储的机遇和挑阿里云E-MapReduce-余根茂介绍Spark对对象存储这种类似的访问的原理机制,以及优化的策略 主题三、基于SparkSQL的安防大数据检索分析优化外部杭州海康威视研究院大数据技术部 - 陈国栋 介绍基于SparkSQL构建安防大数据交互式查询分析
  3. 所属分类:其它

    • 发布日期:2019-08-29
    • 文件大小:1048576
    • 提供者:weixin_38743506
  1. ApacheSparkMeetupChina第1期杭州站.pdf

  2. 主题介绍: 主题一、Spark优化实践阿里云E-MapReduce-王道远介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作,包括SmartShuffle、file skip index等。 主题二、Spark使用对象存储的机遇和挑阿里云E-MapReduce-余根茂介绍Spark对对象存储这种类似的访问的原理机制,以及优化的策略 主题三、基于SparkSQL的安防大数据检索分析优化外部杭州海康威视研究院大数据技术部 - 陈国栋 介绍基于SparkSQL构建安防大数据交互式查询分析
  3. 所属分类:其它

    • 发布日期:2019-08-29
    • 文件大小:8388608
    • 提供者:weixin_38743602
  1. sequoiadb-3.0

  2. SequoiaDB 巨杉数据库是一款金融级分布式关系型数据库,其自研的原生分布式存储引擎支持完整 ACID,具备弹性扩展、高并发和高可用特性,支持 MySQL、PostgreSQL 和 SparkSQL 等多种 SQL 访问形式,适用于核心交易、数据中台、内容管理等应用场景
  3. 所属分类:Linux

    • 发布日期:2020-12-02
    • 文件大小:665845760
    • 提供者:xiangge52
  1. SparkSQL 笔记 01

  2. 目录SparkSQL1. 基础概念2.DataFrame3.SparkSql程序开发(1.x,2.x)(1)SparkSQL1.x(2)SparkSQL2.x SparkSQL 1. 基础概念 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 与HiveSql的区别:Hive SQL是通过转换成MapReduce任务,然后提交到集群上执行,简化了编写MapReduce的程序的复杂性。但由于MapReduce
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:123904
    • 提供者:weixin_38737565
  1. Spark学习之路【SparkSQL入门解析】

  2. 【一】简介 (本文部分图片来自网络,侵删) Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用 【二】特点 【2.1】易整合 Spark SQL可以使用SQL或熟悉的DataFrame API在Spark程序中查询结构化数据,可在Java,Scala,Python和R中使用 【2.2】统一的数据访问方式 DataFrame和SQL提供了一种访问各种数据源的通用方法,包括Hive,Avro,Parquet,
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:687104
    • 提供者:weixin_38607088
  1. 【大数据】SparkSql连接查询中的谓词下推处理(一)

  2. 转自:vivo互联网技术 作者:李勇 1.SparkSql SparkSql是架构在Spark计算框架之上的分布式Sql引擎,使用DataFrame和DataSet承载结构化和半结构化数据来实现数据复杂查询处理,提供的DSL 可以直 接使用scala语言完成Sql查询,同时也使用thriftserver提供服务化的Sql查询功能。SparkSql提供了DataSource API,用户通过这套API可以自己开发一套Connector,直接查询各类数据源,数据源包括NoSql、RDBMS、搜索
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:418816
    • 提供者:weixin_38606897
  1. Spark Structured Streaming

  2. Spark Structured Streaming 一、概述 http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html 简单来说Spark Structured Streaming提供了流数据的快速、可靠、容错、端对端的精确一次处理语义,它是建立在SparkSQL基础之上的一个流数据处理引擎; 我们依然可以使用Spark SQL的Dataset/DataFrame API操作处理流数据(操作方
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:449536
    • 提供者:weixin_38729221
  1. Spark计算引擎之SparkSQL详解

  2. 1.SparkSQL概述1.1.SparkSQL的前世今生Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询,但是Shark继承了Hive的大且复杂的代码使得Shark很难优化和维护,同时Shark依赖于Spark的版本。随着我们遇到了性能优化的上限,以及集成SQL的一些复杂的分析功能,我们发现Hive的MapReduce设计的框架限制了Sha
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:741376
    • 提供者:weixin_38549721
  1. 实时数仓|你需要的是一款强大的OLAP引擎

  2. 在开源盛世的今天,实时数仓的建设业界已经有了成熟的方案。技术选型上实时计算、消息队列都有最优解,唯独在OLAP领域,百家争鸣,各有所长。大数据领域开源OLAP引擎包括不限于Hive、Hawq、Presto、Kylin、Impala、SparkSQL、Druid、Clickhouse、Greeplum等等。我们就各个常用开源OLAP引擎的优缺点和使用场景做出详细对比,让开发者进行技术选型时做到心中有数。今年有个现象,实时数仓建设突然就被大家所关注。我个人在公众号也写过和转载过几篇关于实时数据仓库的
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:2097152
    • 提供者:weixin_38730821
  1. SparkSQLWithFeDB:使用fedb在1分钟内部署您的sparksql功能引擎解决方案-源码

  2. FEDB与SparkSQL演示 最初称为RTIDB,现在重命名为FEDB 工程文件介绍 数据目录,里面存放着相关训练数据 get_deps.sh用于下载依赖jar包 train.sh用于运行训练模型流程 train_sql.py被train.sh使用pyspark脚本 Forecast_server.py实时推理服务脚本 import.py用于创建数据库,表,导入数据工具 Forecast.py用于发送请求脚本 支持运行环境 目前只支持在第四范式官方大规模内部运行 拉取docker更大 dock
  3. 所属分类:其它

    • 发布日期:2021-02-06
    • 文件大小:1048576
    • 提供者:weixin_42117622
  1. 自研的原生分布式存储引擎支持完整的ACID,具有弹性扩展,高并发和高可用特性,支持MySQL,PostgreSQL和SparkSQL等多种SQL。访问形式,适用于核心交易,数据中台,内容管理等应用场景-源码

  2. 更新说明: 大家好,我们的开源项目“ SequoiaDB”立即受到了攻击,GitHub被攻击的影响,代码库出现了混乱。之前我们和平台都努力尝试修复但并没有解决问题,无奈最后只能将项目清除并重新上传如有任何问题,请在问题向我们留言,或登录SequoiaDB官网(链接到联系我们)向我们的支持人员咨询 我们即将继续持续加大开源方面的投入,和大家共同整合开源社区,也希望大家逐步多多支持! 红杉数据库自述文件 关于我们 SequoiaDB是MySQL / PostgreSQL兼容的分布式关系数据库。 它
  3. 所属分类:其它

    • 发布日期:2021-02-05
    • 文件大小:439353344
    • 提供者:weixin_42122340
  1. XSQL:基于SparkSQL的统一SQL分析引擎-源码

  2. | XSQL是一种易于使用,运行稳定的多数据源查询引擎。1)首先,XSQL提供了一种使用标准SQL从NoSQL数据库读取数据的解决方案,因此大数据工程师可以专注于数据,而API具有特殊数据源。 2)XSQL致力于优化SQL执行的执行计划以及监视每个SQL的运行状态,从而使用户的工作运行更健康。 产品特点 XSQL现在支持八个内置数据源(例如,Hive,Mysql,EleasticSearch,Mongo,Kafka,Hbase,Redis,Druid)。 XSQL设计了一个3-layer me
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:18874368
    • 提供者:weixin_42105570
  1. Spark计算引擎之SparkSQL详解

  2. 1.SparkSQL概述 1.1.SparkSQL的前世今生 Shark是一个为Spark设计的大规模数据仓库系统,它与Hive兼容。Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来。这个方法使得Shark的用户可以加速Hive的查询,但是Shark继承了Hive的大且复杂的代码使得Shark很难优化和维护,同时Shark依赖于Spark的版本。随着我们遇到了性能优化的上限,以及集
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:741376
    • 提供者:weixin_38705762
  1. 实时数仓|你需要的是一款强大的OLAP引擎

  2. 在开源盛世的今天,实时数仓的建设业界已经有了成熟的方案。技术选型上实时计算、消息队列都有最优解,唯独在 OLAP领域,百家争鸣,各有所长。 大数据领域开源OLAP引擎包括不限于Hive、Hawq、Presto、Kylin、Impala、SparkSQL、Druid、Clickhouse、Greeplum 等等。我们就各个常用开源OLAP引擎的优缺点和使用场景做出详细对比,让开发者进行技术选型时做到心中有
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:2097152
    • 提供者:weixin_38602982
« 12 »