您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 《ApacheSpark设计与实现》.zip

  2. 本文主要讨论 Apache Spark 的设计与实现,重点关注其设计思想、运行原理、实现架构及性能调优,附带讨论与 Hadoop MapReduce 在设计与实现上的区别。不喜欢将该文档称之为“源码分析”,因为本文的主要目的不是去解读实现代码,而是尽量有逻辑地,从设计与实现原理的角度,来理解 job 从产生到执行完成的整个过程,进而去理解整个系统。讨论系统的设计与实现有很多方法,本文选择 问题驱动 的方式,一开始引入问题,然后分问题逐步深入。从一个典型的 job 例子入手,逐渐讨论 job 生
  3. 所属分类:其它

    • 发布日期:2019-07-19
    • 文件大小:66060288
    • 提供者:weixin_39840387
  1. Hadoop MapReduce.md

  2. 结论: 本章介绍了 Hadoop MapReduce,同时发现它有以下缺点: 1、程序设计模式不容易使用,而且 Hadoop 的 Map Reduce API 太过低级,很难提高开发者的效率。 2、有运行效率问题,MapReduce 需要将中间产生的数据保存到硬盘中,因此会有读写数据延迟问题。 3、不支持实时处理,它原始的设计就是以批处理为主。
  3. 所属分类:Hadoop

    • 发布日期:2019-09-17
    • 文件大小:12288
    • 提供者:qq_42534801
  1. Flink笔记.md

  2. 首先大数据存储和分析引擎Hadoop自2006年诞生。谈及Hadoop大家自然不会对 MapReduce感到陌生,它将计算分为两个阶段,分别为 Map 和 Reduce。MapReduce计算框架虽然借鉴了函数式编程和矢量编程的思想完成了分布式计算。但不得不承认MapReduce在矢量编程结构过于简单,在完成一些比较复杂的高阶计算(例如:机器学习线性回归)的时候,需要将多个MapReduce任务串联起来才能完成一个复杂的计算逻辑,因此在早期人们需要在编写完多个job任务之后还需要Job的调用流程
  3. 所属分类:flink

    • 发布日期:2020-03-31
    • 文件大小:92160
    • 提供者:weixin_44027155
  1. 大数据.pdf

  2. 大数据理论知识讲解,及Hadoop的配置,4V属性讲解,Nosql2、搭建 Hadoop集群环境 21安装DK 见附件:《DK环境搭建.md》 22搭建z0 keeper集群 见附件:《乙K环境搭建.md》 23搭建 hadoop集群 见巛 hadoop集群搭建md》 六、 Hadoop-HDFS 1、简介 Hadoop Distributed File Systen Hadoop的分布式文件系统,是GFs( Google File System)的克隆 分布式 分别部署,将一个系统划分为多个子
  3. 所属分类:Hadoop

    • 发布日期:2019-08-17
    • 文件大小:714752
    • 提供者:longhhao
  1. MapReduce之自定义OutPutFormat.md

  2. MapReduce之自定义 OutPutFormat,通过一个案例,实现自定义的一个OutPutFormat,来更加的深刻的理解MR的过程
  3. 所属分类:Hadoop

    • 发布日期:2020-08-12
    • 文件大小:7168
    • 提供者:a987271725
  1. mapreduce.md

  2. 关于Hadoop中MapReduce的Wordcount以及数据去重的一点概括,不是太准确,我也还只是个初学者,不足之处请指正
  3. 所属分类:Hadoop

    • 发布日期:2020-11-11
    • 文件大小:18432
    • 提供者:m0_46549746