您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. SPARK实现单字段窗口函数

  2. 在SPARK中实现对单字段分区,对单字段排序,进行窗口函数ROWNUMBER以及LIMIT
  3. 所属分类:其它

    • 发布日期:2015-10-28
    • 文件大小:3072
    • 提供者:souldazyzky
  1. Spark学习--RDD编码

  2. RDD:弹性分布式数据集(ResilientDistributed Dataset),是Spark对数据的核心抽象。RDD其实是分布式的元素集合。当Spark对数据操作和转换时,会自动将RDD中的数据分发到集群,并将操作并行化执行。 Spark中的RDD是一个不可变的分布式对象集合。每个RDD都倍分为多个分区,这些分区运行在集群中的不同节点。RDD可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义对象,本文主要通过Java实现相关示例。 Spark程序或shel
  3. 所属分类:Java

    • 发布日期:2017-05-09
    • 文件大小:10240
    • 提供者:a123demi
  1. spark自定义分区

  2. spark的内容很多,这个pdf主要是spark自定义分区部分内容讲解,
  3. 所属分类:spark

    • 发布日期:2017-12-08
    • 文件大小:393216
    • 提供者:stronglyh
  1. spark自定义分区以及写了一个例子,对文件进行处理

  2. 用spark自定义了一个分区,并且写了一些数据!写了一个scala类,进行测试!里面备注详细,对于初学者来说是一个不错的例子!
  3. 所属分类:spark

    • 发布日期:2018-01-12
    • 文件大小:587776
    • 提供者:qq_28429443
  1. spark性能调优(参数设置)

  2. 要做好调优,前期相关的规划设计也非常重要。如: HBase 的表设计, Region 分区; Spark 的数据来源等;本章节主要阐述与性能调优强相关的部分设计约束。本文主要描 述相关的要点,具体的设计请参考相关的二次开发文档指导。
  3. 所属分类:spark

    • 发布日期:2018-07-30
    • 文件大小:1048576
    • 提供者:hexinghua0126
  1. spark基础概念

  2. Spark的核心思想是通过一种可并行操作且有容错机制的弹性分布式数据集RDD(Resilient Distributed Dataset)以减少磁盘以及网络IO开销。RDD是一个能并行的数据结构,可以让用户显式地将数据存储到磁盘或内存中,并能控制数据的分区。
  3. 所属分类:其它

    • 发布日期:2018-09-01
    • 文件大小:550912
    • 提供者:chaorenzcl
  1. spark RDD操作详解

  2. RDD即弹性分布式数据集,有容错机制并可以被并行操作的元素集合,具有只读、分区、容错、高效、无需物化、可以缓存、RDD依赖等特征。RDD只是数据集的抽象,分区内部并不会存储具体的数据。
  3. 所属分类:spark

    • 发布日期:2018-09-25
    • 文件大小:711680
    • 提供者:xly520
  1. 使用kafka,spark,hbase开发日志分析系统

  2. # 日志分析系统 ## 系统架构 本使用kafka,spark,hbase开发日志分析系统。 ![architecture](/docs/images/architecture.png "architecture") ### 软件模块 * Kafka:作为日志事件的消息系统,具有分布式,可分区,可冗余的消息服务功能。 * Spark:使用spark stream功能,实时分析消息系统中的数据,完成计算分析工作。 * Hbase:做为后端存储,存储spark计算结构,供其他系统进行调用 ## 环
  3. 所属分类:Java

    • 发布日期:2018-10-12
    • 文件大小:237568
    • 提供者:qq_25288411
  1. 大数据spark学习之rdd概述

  2. RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含 Python、Java、Scala 中任意类型的对象, 甚至可以包含用户自定义的对象。RDD具有数据流模型的特点:自动容错、位置感知性调
  3. 所属分类:互联网

    • 发布日期:2020-05-03
    • 文件大小:3072
    • 提供者:fy1235
  1. Spark-2.3.1源码解读

  2. Spark-2.3.1源码解读。 Spark Core源码阅读 Spark Context 阅读要点 Spark的缓存,变量,shuffle数据等清理及机制 Spark-submit关于参数及部署模式的部分解析 GroupByKey VS ReduceByKey OrderedRDDFunctions那些事 高效使用mappartitions standalone模式下executor调度策略 Spark Sql源码阅读 Spark Sql源码阅读 hive on spark调
  3. 所属分类:spark

    • 发布日期:2019-10-20
    • 文件大小:15728640
    • 提供者:bruce__ray
  1. Spark学习笔记—Spark计算模型

  2. 一.弹性分布式数据集-RDD RDD是Spark核心数据结构,它是逻辑集的实体,在集群中多台机器之间进行数据分区,通过对多台机器上RDD分区的控制,能够减少数据的重排(data Shuffling)。Spark通过partitionBy运算符对原始RDD进行数据再分配从而创建一个新的RDD。通过RDD之间的依赖关系形成了Spark的调度顺序。 1.RDD的几种创建方式: (1).从hadoop文件系统输入创建如HDFS,也可以是其他与hadoop兼容的持久化存储系统如Hive,Hbase创建。
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:89088
    • 提供者:weixin_38562026
  1. Spark代码笔记03——自定义排序、自定义分区、累加器、广播变量

  2. 一、自定义排序 自定义排序     Spark对简单的数据类型可以直接排序,但是对于一些复杂的条件就需要用自定义排序来实现了 1.第一种定义方法: 用到了隐式转换  package scalaBase.day11 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} case class Girl(name:String,faceValue:Int,age:Int) object my
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:130048
    • 提供者:weixin_38600341
  1. 基于迭代填充的内存计算框架分区映射算法

  2. 针对内存计算框架 Spark 在作业 Shuffle 阶段一次分区产生的数据倾斜问题,提出一种内存计算框架的迭代填充分区映射算法( IFPM) 。首先,分析 Spark 作业的执行机制,建立作业效率模型和分区映射模型,给出作业执行时间和分配倾斜度的定义,证明这些定义与作业执行效率的因果逻辑关系; 然后,根据模型和定义求解,设计扩展式数据分区算法( EPA) 和迭代式分区映射算法( IMA) ,在 Map 端建立一对多分区函数,并通过分区函数将部分数据填.入扩展区内,在数据分布局部感知后再执行扩展
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:1048576
    • 提供者:weixin_38518518
  1. 基于迭代填充的内存计算框架分区映射算法

  2. 针对内存计算框架 Spark 在作业 Shuffle 阶段一次分区产生的数据倾斜问题,提出一种内存计算框架的迭 代填充分区映射算法( IFPM) 。首先,分析 Spark 作业的执行机制,建立作业效率模型和分区映射模型,给出作业执行 时间和分配倾斜度的定义,证明这些定义与作业执行效率的因果逻辑关系; 然后,根据模型和定义求解,设计扩展式 数据分区算法( EPA) 和迭代式分区映射算法( IMA) ,在 Map 端建立一对多分区函数,并通过分区函数将部分数据填 入扩展区内,在数据分布局部感知后再执
  3. 所属分类:其它

    • 发布日期:2021-03-07
    • 文件大小:1048576
    • 提供者:weixin_38746387
  1. spark-study-源码

  2. 火花备忘单 Dataframe API cache()与persist() - cache()始终以默认存储级别MEMORY_AND_DISK缓存,而persist()允许指定存储级别 Dataframe的API repartition() VS coalesce() - repartition()确实在存储器中的新鲜重新分区,它可以增加或减少分区数由主叫参数所指示的。 另一方面, coalesce()避免了改组,并将分区数减少到调用参数所指示的数 cache()或( persist() )不会
  3. 所属分类:其它

    • 发布日期:2021-03-06
    • 文件大小:1048576
    • 提供者:weixin_42115074
  1. Spark源码系列(六)Shuffle的过程解析

  2. Spark大会上,所有的演讲嘉宾都认为shuffle是最影响性能的地方,但是又无可奈何。之前去百度面试hadoop的时候,也被问到了这个问题,直接回答了不知道。这篇文章主要是沿着下面几个问题来开展:shuffle过程的划分?shuffle的中间结果如何存储?shuffle的数据如何拉取过来?Spark的操作模型是基于RDD的,当调用RDD的reduceByKey、groupByKey等类似的操作的时候,就需要有shuffle了。再拿出reduceByKey这个来讲。reduceByKey的时候,
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:208896
    • 提供者:weixin_38581447
  1. schedoscope:Schedoscope是一个调度框架,用于无痛地敏捷开发,测试,(重新)加载和监视数据集线器,湖泊或近来您选择调用的Hadoop数据仓库-源码

  2. Schedoscope不再由OttoGroup开发。 随意分叉! 介绍 Schedoscope是一个调度框架,用于无痛地进行敏捷开发,测试,(重新)加载和监视datahub,datalake或这些天您选择的Hadoop数据仓库。 当需要频繁推出并使用Oozie等传统ETL作业调度程序追溯性地对datahub中的计算逻辑和数据结构进行更改时,Schedoscope会让您头痛不已。 使用Schedoscope, 您无需创建DDL和架构迁移脚本; 面对逻辑或数据结构的追溯性更改,您不必手动确定
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:1048576
    • 提供者:weixin_42111465
  1. Spark与Hadoop的结合

  2. 本文来自于csdn,本文介绍了Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。Spark可以直接对HDFS进行数据的读写,同样支持SparkonYARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:276480
    • 提供者:weixin_38502814
  1. Spark创建RDD、DataFrame各种情况的默认分区数

  2. 本文来自dongkelun,讲各种情况下的sc.defaultParallelism,defaultMinPartitions,各种情况下创建以及转化。熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDFS文件的Block数量有关,还有很坑的某些情况的默认分区数为1。如果分区数少,那么并行执行的task就少,特别情
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:3145728
    • 提供者:weixin_38678022
  1. Spark创建RDD、DataFrame各种情况的默认分区数

  2. 本文来自dongkelun,讲各种情况下的sc.defaultParallelism,defaultMinPartitions,各种情况下创建以及转化。熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDFS文件的Block数量有关,还有很坑的某些情况的默认分区数为1。如果分区数少,那么并行执行的task就少,特别情
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:3145728
    • 提供者:weixin_38631978
« 12 3 »