您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. MapReduce研发参考手册

  2. 亚信联创科技(中国)有限公司 一、 MapReduce介绍 5 二、 MapReduce工作原理 5 1. MapReduce作业运行流程 5 2. Map、Reduce任务中Shuffle和排序的过程 6 三、 MapReduce程序开发 9 1. Word count 统计程序map reduce实现 9 2. 项目开发实战 10 四、 MapReduce编码流程 16 1. 编程组件 16 2. 创建Map类和map函数 16 3. 创建Reducer类和reduce函数 17 4. 配
  3. 所属分类:Java

    • 发布日期:2013-11-11
    • 文件大小:764928
    • 提供者:qiangdao0415
  1. hadoop开发者

  2. •HDFSAPI •MapReduce架构 •MapReduceJob处理流程 •MapReduce编写 •PIG语言编写MapReduce •实验——编写MapReduce程序 •实验——实验Pig开发MapReduce程序
  3. 所属分类:其它

    • 发布日期:2014-02-18
    • 文件大小:884736
    • 提供者:wu461486522
  1. Hadoop MapReduce原理

  2. 本文分别对传统MapReduce和YARN的体系结构、工作流程及故障处理等三个方面进行讲解,让你深入理解MapReduce的工作原理
  3. 所属分类:群集服务

    • 发布日期:2015-07-14
    • 文件大小:459776
    • 提供者:zhangbaolin
  1. MapReduce 2.0源码分析与编程实

  2. 《MapReduce2.0源码分析与编程实战》比较系统地介绍了新一代MapReduce2.0的理论体系、架构和程序设计方法。全书分为10章,系统地介绍了HDFS存储系统,Hadoop的文件I/O系统,MapReduce2.0的框架结构和源码分析,MapReduce2.0的配置与测试,MapReduce2.0运行流程,MapReduce2.0高级程序设计以及相关特性等内容。《MapReduce2.0源码分析与编程实战》最后部分介绍了数据挖掘的初步知识,以及不同应用类型的MapReduce2.0编
  3. 所属分类:其它

    • 发布日期:2015-11-08
    • 文件大小:65011712
    • 提供者:hx0_0_8
  1. 基于MapReduce编程模型的TFIDF算法研究

  2. 随着Internet等技术的飞速发展,信息处理已经成为人们获取有用信息不可或缺的工具,如何在海量信息中高效地获得有用信息至关重要,因此自动文本分类技术尤为重要。现有的文本分类算法在时间复杂性和空间复杂性上遇到瓶颈,不能满足人们的需求,为此提出了基于Hadoop分布式平台的TFIDF算法,给出了算法实现的具体流程,通过MapReduce编程实现了该算法,并在单机和集群模式下进行了对比实验,同时与传统串行算法进行了对比。实验证明,使用TFIDF文本分类算法可实现对海量数据的高速有效分类。
  3. 所属分类:其它

    • 发布日期:2020-10-17
    • 文件大小:373760
    • 提供者:weixin_38526979
  1. Hadoop中MapReduce基本案例及代码(五)

  2. 前四节提供了几个小案例 下面详细介绍MapReduce中Map任务Reduce任务以及MapReduce的执行流程。 Map任务: 读取输入文件内容,解析成key,value对。对输入文件的每一行,解析成key,value对。每一个键值对调用一次map函数。 写自己的逻辑,对输入的key,value处理,转换成新的key,value输出。 对输出的key,value进行分区。 对相同分区的数据,按照key进行排序(默认按照字典排序)、分组。相同key的value放在一个集合中。 (可选)分组后对
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:370688
    • 提供者:weixin_38530202
  1. Scala基础(11) 运行基本流程及RDD

  2. Spark和Hadoop的比较 MapReduce Spark 数据存储结构:磁盘HDFS文件系统的split 使用内存构建弹性分布式数据集RDD,对数据进行运算和cache 编程范式:Map+Reduce DAG:Transformation+Action 计算中间结果写入磁盘,IO及序列化、反序列化代价大 计算中间结果在内存中维护,存取速度比磁盘高几个数量级 Task以进程方式维护 需要数秒时间才能够启动任务 Task以线程方式 对于小数据集读取能够达到亚秒级的延
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:84992
    • 提供者:weixin_38579899
  1. Hadoop新MapReduce框架Yarn详解

  2. 对于业界的大数据存储及分布式处理系统来说,Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架,对于Hadoop框架的介绍在此不再累述,读者可参考Hadoop官方简介。使用和学习过老Hadoop框架(0.20.0及之前版本)的同仁应该很熟悉如下的原MapReduce框架图:图1.Hadoop原MapReduce架构从上图中可以清楚的看出原MapReduce程序的流程及设计思路:可以看得出原来的map-reduce架构是简单明了的,在最初推出的几年,也得到了众多的成功案例,获得业界广泛的支持和
  3. 所属分类:其它

    • 发布日期:2021-03-04
    • 文件大小:664576
    • 提供者:weixin_38622427
  1. MapReduce执行流程

  2. MapReduce的大体流程是这样的,如图所示:由图片可以看到mapreduce执行下来主要包含这样几个步骤1.首先对输入数据源进行切片2.master调度worker执行map任务3.worker读取输入源片段4.worker执行map任务,将任务输出保存在本地5.master调度worker执行reduce任务,reduceworker读取map任务的输出文件6.执行reduce任务,将任务输出保存到HDFS若对流程细节进行深究,可以得到这样一张流程图从生命周期的角度来看,mapreduce
  3. 所属分类:其它

    • 发布日期:2021-03-04
    • 文件大小:152576
    • 提供者:weixin_38705874
  1. MapReduce编程模型在日志分析方面的应用

  2. 简介:日志分析往往是商业智能的基础,而日益增长的日志信息条目使得大规模数据处理平台的出现成为必然。MapReduce处理数据的有效性为日志分析提供了可靠的后盾。本文将以对访问网页用户的日志进行分析,进而挖掘出用户兴趣点这一完整流程为例,详尽解释MapReduce模型的对应实现,涵盖MapReduce编程中对于特殊问题的处理技巧,比如机器学习算法、排序算法、索引机制、连接机制等。本文将以对访问网页用户的日志进行分析,进而挖掘出用户兴趣点这一完整流程为例,详细解释MapReduce模型的对应实现,涵
  3. 所属分类:其它

    • 发布日期:2021-03-02
    • 文件大小:427008
    • 提供者:weixin_38599412
  1. MapReduceV1:Job提交流程之JobClient端分析

  2. 我们基于Hadoop1.2.1源码分析MapReduceV1的处理流程。MapReduceV1实现中,主要存在3个主要的分布式进程(角色):JobClient、JobTracker和TaskTracker,我们主要是以这三个角色的实际处理活动为主线,并结合源码,分析实际处理流程。下图是《Hadoop权威指南》一书给出的MapReduceV1处理Job的抽象流程图:如上图,我们展开阴影部分的处理逻辑,详细分析Job提交在JobClient端的具体流程。在编写好MapReduce程序以后,需要将Jo
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:151552
    • 提供者:weixin_38612811
  1. 分布式计算框架MapReduce

  2. 本文来自于51cto,文章介绍了MapReduce是什么、MapReduce执行流程以及MapReduce1.x架构和MapReduce2.x架构等相关内容。MapReduce源自Google的MapReduce论文,论文发表于2004年12月。HadoopMapReduce可以说是GoogleMapReduce的一个开源实现。MapReduce优点在于可以将海量的数据进行离线处理,并且MapReduce也易于开发,因为MapReduce框架帮我们封装好了分布式计算的开发。而且对硬件设施要求不高
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:1048576
    • 提供者:weixin_38654944
  1. MapReduce执行流程

  2. MapReduce的大体流程是这样的,如图所示:由图片可以看到mapreduce执行下来主要包含这样几个步骤1.首先对输入数据源进行切片2.master调度worker执行map任务3.worker读取输入源片段4.worker执行map任务,将任务输出保存在本地5.master调度worker执行reduce任务,reduceworker读取map任务的输出文件6.执行reduce任务,将任务输出保存到HDFS若对流程细节进行深究,可以得到这样一张流程图从生命周期的角度来看,mapreduce
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:152576
    • 提供者:weixin_38501045
  1. 创建MapReduce查询来处理特定类型的数据

  2. MapReduce处理为处理和构建不同类型的查询创建了一整套新范例和结构。然而,要最充分地利用 Hadoop,意味着要编写合适的MapReduce查询来处理信息。本文介绍许多不同的场景,其中包含如何开发不同类型的查询的食谱式示例。处理文本是MapReduce流程的一种常见用法,因为文本处理相对复杂且是处理器资源密集的处理。基本的字数统计常常用于演示 Haddoop处理大量文本和基本汇总大体内容的能力。要获得字数,将文本从一个输入文件中拆分(使用一个基本的stringt
  3. 所属分类:其它

    • 发布日期:2021-02-01
    • 文件大小:107520
    • 提供者:weixin_38563552
  1. MapReduce编程模型在日志分析方面的应用

  2. 简介: 日志分析往往是商业智能的基础,而日益增长的日志信息条目使得大规模数据处理平台的出现成为必然。MapReduce 处理数据的有效性为日志分析提供了可靠的后盾。本文将以对访问网页用户的日志进行分析,进而挖掘出用户兴趣点这一完整流程为例,详尽解释 MapReduce模型的对应实现,涵盖MapReduce编程中对于特殊问题的处理技巧,比如机器学习算法、排序算法、索引机制、连接机制等。本文将以对访问网页用户的日志进行分析,进
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:427008
    • 提供者:weixin_38743481
  1.  基于MapReduce模型遗传算法的一种改进与实现

  2. 遗传算法的内在隐并行性决定了其能够以少量的问题编码进而处理大量模式,不少处理更大规模且复杂问题的并行遗传算法也提了出来。本文给出了在Hadoop中MapReduce并行计算框架下简单遗传算法的并行化处理流程,结合框架处理输入和输出键值对的特点提出了基于最小堆的最优个体保留策略的遗传算法在的设计与实现,进一步优化了算法的收敛速度。实验结果表明:运用框架的并行处理能力及堆的线性操作时间,应用于较大规模复杂问题该算法实现在收敛速度上呈良好特性。
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:1048576
    • 提供者:weixin_38703123
  1. MapReduceV1:Job提交流程之JobClient端分析

  2. 我们基于Hadoop1.2.1源码分析MapReduceV1的处理流程。MapReduceV1实现中,主要存在3个主要的分布式进程(角色):JobClient、JobTracker和TaskTracker,我们主要是以这三个角色的实际处理活动为主线,并结合源码,分析实际处理流程。下图是《Hadoop权威指南》一书给出的MapReduce V1处理Job的抽象流程图:如上图,我们展开阴影部分的处理逻辑,详细分析Job提交在JobClient端的具体流程。在编写好MapReduce程序以后,需要将J
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:151552
    • 提供者:weixin_38569675
  1. 分布式计算框架MapReduce

  2. 本文来自于51cto,文章介绍了MapReduce是什么、MapReduce执行流程以及MapReduce1.x架构和MapReduce2.x架构等相关内容。 MapReduce源自Google的MapReduce论文,论文发表于2004年12月。Hadoop MapReduce可以说是GoogleMapReduce的一个开源实现。MapReduce优点在于可以将海量的数据进行离线处理,并且MapReduce也易于开发,因为MapReduce框架帮我们封装好了分布式计算的开发
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:1048576
    • 提供者:weixin_38555616
  1. MapReduce处理流程

  2. MapReduce 的输入和输出 MapReduce 框架运转在键值对上,也就是说,框架把作业的输入看成是一组键值对,同样也产生一组键值对作为作业的输出,这两组键值对可能是不同的。 一个 MapReduce 作业的输入和输出类型如下图所示:可以看出在整个标准的流程中,会有三组键值对类型的存在。 MapReduce 的处理流程 mapper执行过程  第一阶段是把输入目录下文件按照一定的标准逐个进行逻辑切片,形成切片规划。默认情况下,Split size = Block size。每一个
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:599040
    • 提供者:weixin_38734200
  1. 一种基于改进的链式MapReduce的并行ETL应用

  2. 介绍了并行ETL 的相关工作和常见的处理多MapReduce 作业流程的方法;提出一种改进的链式MapReduce 框架,并将此框架应用于一个并行ETL 工具,同时提出一些针对ETL 处理的流程级优化规则,使ETL流程产生更少的MapReduce作业,从而减少I/O以及网络传输的消耗;利用某省份手机上网数据与Hive进行了大数据对比实验,结果表明,本ETL工具的性能平均比Hive快10%~20%。
  3. 所属分类:其它

    • 发布日期:2021-01-19
    • 文件大小:1048576
    • 提供者:weixin_38642285
« 12 3 »