您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Spark学习笔记

  2. spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、GraphX、Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎。其相应的生态环境包括zepplin等可视化方面,正日益壮大。大型公司争相实用sp
  3. 所属分类:spark

    • 发布日期:2017-11-06
    • 文件大小:34603008
    • 提供者:mr_liyang
  1. 图解Spark++核心技术与案例实战

  2. 1) 大数据爱好者 随着大数据时代的来临,无论传统行业、IT行业以及互联网等行业都将涉及到大数据技术,本书能够帮助这些行业的大数据爱好者了解Spark生态圈和发展演进趋势。通过本书可以了解到Spark特点和使用的场景,如果希望继续深入学习Spark知识,该书也是很好的入门选择。 (2) Spark开发人员 如果要进行Spark应用的开发,仅仅掌握Spark基本使用方法是不够的,还需深入了解Spark的设计原理、架构和运行机制。在本书中将深入浅出地讲解Spark的编程模型、作业运行机制、存储原理
  3. 所属分类:其它

    • 发布日期:2018-04-25
    • 文件大小:70254592
    • 提供者:hmliy_hao
  1. Spark大数据处理

  2. 本书是国内首本系统讲解 Spark 编程实战的书籍,涵盖 Spark 技术的方方面面。 1)对 Spark 的架构、运行机制、系统环境搭建、测试和调优进行深入讲解,以期让读者 知其所以然。讲述 Spark 最核心的技术内容,以激发读者的联想,进而衍化至繁。 2)实战部分不但给出编程示例,还给出可拓展的应用场景。 3)剖析 BDAS 生态系统的主要组件的原理和应用,让读者充分了解 Spark 生态系统。 本书的理论和实战安排得当,突破传统讲解方式,使读者读而不厌。 本书中一些讲解实操部署和示例的
  3. 所属分类:spark

    • 发布日期:2018-01-18
    • 文件大小:3145728
    • 提供者:qq_28743951
  1. 开源的分布式内存文件系统 Tachyon.zip

  2. Tachyon是一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。把Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。主要职责是将那些不需要落地到DFS里的文件,落地到分布式内存文件系统中,来达到共享内存,从而提高效率。同时可以减少内存冗余,GC时间等。        特性:类 Java 的文件 API兼容性:实现 Hadoop 文件系统接口可插入式的底层文件系统内建 Raw 原生表的支持基于 Web 的 UI 提供命令行接口
  3. 所属分类:其它

    • 发布日期:2019-07-19
    • 文件大小:10485760
    • 提供者:weixin_39840387
  1. Spark RDD.docx

  2. Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本文将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。
  3. 所属分类:spark

    • 发布日期:2020-03-29
    • 文件大小:273408
    • 提供者:weixin_43416958
  1. 基于流式计算的电信实时营销系统设计与实现.caj

  2. 在移动互联网时代,各式各样的新业务和新产品不断出现,通信市场的用户总体规模增长速度变缓,使运营商之间的竞争愈加激烈,新产品营销的时效性和准确度问题亟需解决。实时营销作为新的营销方式,具有较高的实时性,通过运用大数据分析技术分析用户上网行为特征,并在合适的时间、合适的地点向用户推荐合适的内容,从而提升用户感知、增加用户粘性。如何运用大数据技术实现实时营销是本文的重要内容。本文深入调研分析了大数据实时流式处理技术,并结合其在满足非功能性需求方面的独特优势,设计了一个可以同时满足大数据存储、大数据实时
  3. 所属分类:spark

    • 发布日期:2019-10-20
    • 文件大小:3145728
    • 提供者:weixin_41045909
  1. 基于MQTT协议IM的研究和实现.pdf

  2. 随着移动互联网和智能终端的发展与普及, IM(Instant messaging 即时通讯)再次成为一个炙手可热的领域. 由于移动终端设备在低功耗、低带宽等方面的限制, 对即时通讯协议提出了更高的要求. MQTT(MessageQueuing Telemetry Transport, 消息队列遥测传输)作为一种轻量级基于发布/订阅模式的消息传输协议, 是移动终端应用的理想选择. 介绍了MQTT 的基本内容和特点, 并与其他即时通讯协议SIMPLE 协议和XMPP 协议进行了对比, 从而提出一种基
  3. 所属分类:其它

    • 发布日期:2019-09-14
    • 文件大小:1048576
    • 提供者:weixin_38744153
  1. Spark RDD是什么?

  2. Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。 RDD 的基本概念 RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在集群的结点上,以函数式操作集合的方式进行各种并行操作。 通俗点来讲,可以将 RDD 理解为一个分布
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:266240
    • 提供者:weixin_38732519
  1. hugegraph:HugeGraph数据库核心组件,包括图形引擎,API和内置后端-源码

  2. 巨图 HugeGraph是一个快速且高度可扩展的。 HugeGraph具有出色的OLTP功能,因此可以轻松地将数十亿个顶点和边存储到HugeGraph中并从中查询。 为了符合框架,可以通过 (一种强大的图形遍历语言)来完成各种复杂的图形查询。 特征 符合支持 架构元数据管理,包括VertexLabel,EdgeLabel,PropertyKey和IndexLabel 多类型索引,支持精确查询,范围查询和复杂条件组合查询 插件后端存储驱动程序框架,现在支持RocksDB,Cassandra,
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:2097152
    • 提供者:weixin_42104181
  1. Spark源码系列(四)图解作业生命周期

  2. 这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,letyouknow!我们先回顾一下这个图,DriverProgram是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,RDD都必须通过它来获得。下面讲一讲它所不为认知的一面,它和其它组件是如何交互的。SparkContext实例化之后,在内部实例化两个很重要的类,DAGScheduler和TaskScheduler。在standalone的模式下,TaskScheduler的
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:269312
    • 提供者:weixin_38669618
  1. Databricks孟祥瑞:ALS在SparkMLlib中的实现

  2. 摘要:MLlib在1.3中添加了不少机器学习及数据挖掘算法:研究主题分布的LDA、估计点集分布的GMM、提取频繁项集的FP-growth等等。本文主要聚焦ALS的实现及其在1.3中的提升。深受用户喜爱的大数据处理平台ApacheSpark1.3于前不久发布,MLlib作为Spark负责机器学习(ML)的核心组件在1.3中添加了不少机器学习及数据挖掘的算法:研究主题分布的latentDirichletallocation(LDA)、估计点集分布的高斯混合模型(GMM)、提取频繁项集的FP-grow
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:178176
    • 提供者:weixin_38717843
  1. Spark生态系统组件

  2. 言:随着大数据技术的发展,实时流计算、机器学习、图计算等领域成为较热的研究方向,而Spark作为大数据处理的“利器”有着较为成熟的生态圈,能够一站式解决类似场景的问题。那么Spark生态系统中有哪些组件你知道吗?下面让我们跟着本文一同了解下这些不可或缺的组件。本文选自《图解Spark:核心技术与案例实战》。Spark生态系统以SparkCore为核心,能够读取传统文件(如文本文件)、HDFS、AmazonS3、Alluxio和NoSQL等数据源,利用Standalone、YARN和Mesos等资
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:354304
    • 提供者:weixin_38667849
  1. Spark知识体系完整解读

  2. Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成,并且所提供的API深度借鉴Scala函数式的编程思想,提供与Scala
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:441344
    • 提供者:weixin_38519387
  1. 深入解析Spark中的RPC

  2. Spark是一个快速的、通用的分布式计算系统,而分布式的特性就意味着,必然存在节点间的通信。本文主要介绍不同的Spark组件之间是如何通过RPC(RemoteProcedureCall)进行点对点通信的,分为三个章节:SparkRPC的简单示例和实际应用;SparkRPC模块的设计原理;SparkRPC核心技术总结。Spark的RPC主要在两个模块中:在Spark-core中,主要承载了更好的封装server和client的作用,以及和scala语言的融合,它依赖于模块org.apache.sp
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:594944
    • 提供者:weixin_38646706
  1. Python学习笔记——大数据之Spark简介与环境搭建

  2. Spark是Apache顶级项目里面最火的大数据处理的计算引擎,它目前是负责大数据计算的工作。包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。核心组件如下:SparkCore:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和SparkCore之上的。SparkSQL:提供通过ApacheHive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。每个数据库表被当做一个RDD,SparkSQL查询被
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:570368
    • 提供者:weixin_38643401
  1. Spark生态系统组件

  2. 言:随着大数据技术的发展,实时流计算、机器学习、图计算等领域成为较热的研究方向,而Spark作为大数据处理的“利器”有着较为成熟的生态圈,能够一站式解决类似场景的问题。那么Spark生态系统中有哪些组件你知道吗?下面让我们跟着本文一同了解下 这些不可或缺的组件。本文选自《图解Spark:核心技术与案例实战》。Spark生态系统以SparkCore为核心,能够读取传统文件(如文本文件)、HDFS、Amazon S3、Alluxio和NoSQL等数据源,利用Standalone
  3. 所属分类:其它

    • 发布日期:2021-02-01
    • 文件大小:354304
    • 提供者:weixin_38746918
  1. Spark源码系列(四)图解作业生命周期

  2. 这一章我们探索了Spark作业的运行过程,但是没把整个过程描绘出来,好,跟着我走吧,let youknow!我们先回顾一下这个图,DriverProgram是我们写的那个程序,它的核心是SparkContext,回想一下,从api的使用角度,RDD都必须通过它来获得。下面讲一讲它所不为认知的一面,它和其它组件是如何交互的。SparkContext实例化之后,在内部实例化两个很重要的类,DAGScheduler和TaskScheduler。在standalone的模式下,TaskScheduler
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:269312
    • 提供者:weixin_38593823
  1. Databricks孟祥瑞:ALS在SparkMLlib中的实现

  2. 摘要:MLlib在1.3中添加了不少机器学习及数据挖掘算法:研究主题分布的LDA、估计点集分布的GMM、提取频繁项集的FP-growth等等。本文主要聚焦ALS的实现及其在1.3中的提升。深受用户喜爱的大数据处理平台ApacheSpark1.3于前不久发布,MLlib作为Spark负责机器学习(ML)的核心组件在1.3中添加了不少机器学习及数据挖掘的算法:研究主题分布的latentDirichletallocation(LDA)、估计点集分布的高斯混合模型(GMM)、提取频繁项集的FP-grow
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:162816
    • 提供者:weixin_38543950
  1. Spark知识体系完整解读

  2. Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。 Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成,并且所提供的API深度借鉴Scala函数式的
  3. 所属分类:其它

    • 发布日期:2021-01-28
    • 文件大小:441344
    • 提供者:weixin_38742421
  1. Spark的核心组件

  2. Spark的出现 Apache Spark: 1.一个大规模数据处理同一分析引擎 2.最初由美国加州破壳利大学的AMP实验室开发 3.基于内存计算的大数据并行计算框架 4.用于构建大型的、低延迟的数据分析应用程序 Spark的特点 1.速度快 采用先进的DAG调度程序 查询优化器 物理执行引擎 2.容易使用 提供了超过80种高级运算符 支持多种语言进行编程 Spark Shell交互式编程 3.完整强大的技术栈 SQL查询 流式计算 机器学习 图计算组件 4.运行模式多样 可运行与独立的集群模式
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:73728
    • 提供者:weixin_38635996
« 12 3 »