您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 云计算与数据中心建设

  2. 中国信息化培训中心 朱永春 系统架构师讲解 课程内容: 云计算与虚拟化 云计算概述 虚拟化技术概述 Power服务器的虚拟化 云计算的实现 存储系统概述 大数据存储系统(Hadoop HDFS等) 云存储服务 课程安排 云计算中的数据处理(Hadoop MapReduce等) 企业级性能管理与容量规划 某银行性能容量管理系统参考架构 容量评估基本理论 某银行系统容量评估参考案例 压力测试基本理论 系统性能设计与调优 数据库性能的关键点:锁
  3. 所属分类:电信

    • 发布日期:2012-07-28
    • 文件大小:13631488
    • 提供者:cocohwang
  1. hdfs文件传输调优

  2. hdfs文件传输调优,hdfs文件传输调优 hdfs文件传输调优
  3. 所属分类:其它

    • 发布日期:2014-05-20
    • 文件大小:46080
    • 提供者:myhome199899
  1. Hbase中文文档

  2. 目录 序 1. 入门 1.1. 介绍 1.2. 快速开始 2. 配置 2.1. Java 2.2. 操作系统 2.3. Hadoop 2.4. HBase运行模式:单机和分布式 2.5. ZooKeeper 2.6. 配置文件 2.7. 配置示例 2.8. 重要配置 2.9. Bloom Filter 3. 升级 3.1. 从HBase 0.20.x or 0.89.x 升级到 HBase 0.90.x 3.2. 从 0.90.x 到 0.92.x 4. The HBase Shell 4.1
  3. 所属分类:其它

    • 发布日期:2014-08-25
    • 文件大小:1048576
    • 提供者:it_xhf
  1. Hadoop技术内幕 深入理解MapReduce架构设计与实现原理.pdf

  2. Hadoop技术内幕:深入解析MapReduce架构设计与实现原理 目录 前言 第一部分 基础篇 第1章 阅读源代码前的准备 1.1 准备源代码学习环境 1.1.1 基础软件下载 1.1.2 如何准备Windows环境 1.1.3 如何准备Linux环境 1.2 获取Hadoop源代码 1.3 搭建Hadoop源代码阅读环境 1.3.1 创建Hadoop工程 1.3.2 Hadoop源代码阅读技巧 1.4 Hadoop源代码组织结构 1.5 Hadoop初体验 1.5.1 启动Hadoop 1
  3. 所属分类:Java

    • 发布日期:2015-11-24
    • 文件大小:48234496
    • 提供者:yuan_xw
  1. Spark在不同存储格式下的性能对比

  2. 笔者发现,很多同学在各种项目中尝试使用Spark,大多数同学最初开始尝试使用Spark的原因都很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark进行合理的调优,Spark作业的执行速度可能会很慢,甚至根本体会不到Spark作为一种快速大数据计算引擎的优势。 事实上,Spark系统的性能调优是一个很复杂的过程,需要对Spark以及Hadoop有足够的知识储备,从硬件、操作系统、HDFS、数据存储格
  3. 所属分类:其它

    • 发布日期:2017-03-06
    • 文件大小:5242880
    • 提供者:vv8086
  1. Flume++构建高可用、可扩展的海量日志采集系统pdf

  2. 其中上篇介绍了HDFS以及流式数据/日志的问题,同时还谈到了Flume是如何解决这些问题的。本书展示了Flume的架构,包括将数据移动到数据库中以及从数据库中获取数据、NoSQL数据存储和性能调优。对于各个架构组件(源、通道、接收器、通道处理器、接收器组等),都提供了详尽的各种实现以及配置选项,你可以借此根据自己的需要来定制Flume。
  3. 所属分类:Hadoop

    • 发布日期:2018-03-15
    • 文件大小:73400320
    • 提供者:niyunlouzhu
  1. IT十八掌课程-徐培成-大数据-配套PPT

  2. '[IT18掌www.it18zhang.com]001.Hadoop基础篇.pptx' '[IT18掌www.it18zhang.com]014.Hadoop Win7开启网络访问.pptx' '[IT18掌www.it18zhang.com]Kafka.pptx' '[IT18掌www.it18zhang.com]002.VMware下载与安装.pptx' '[IT18掌www.it18zhang.com]015.Hadoop 架构分析.pptx' '[IT18掌www.it18zhang
  3. 所属分类:Hadoop

    • 发布日期:2018-05-11
    • 文件大小:14680064
    • 提供者:weixin_42187084
  1. hadoop性能调优与运维

  2. Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
  3. 所属分类:Hadoop

    • 发布日期:2018-07-30
    • 文件大小:1048576
    • 提供者:hexinghua0126
  1. 尚gg大数据项目实战电商数仓系统开发教程.txt

  2. 01_数仓项目介绍.avi4 b4 Q* Q8 Z0 Y) C6 O! w 02_数仓采集_用户行为采集课程介绍.avi8 \7 f3 O. c- {: v# W& V$ Y& b 03_数仓采集_数仓的概念.avi8 Z# X* q/ c; }3 A* [ T 04_数仓采集_项目需求.avi6 B8 n s0 h! M4 X# j! |0 ` 05_数仓采集_项目技术选型.avi8 [% N% W, U# y5 s 06_数仓采集_系统数据流程设计.avi8 N: L Y6 D6 y 07
  3. 所属分类:Hive

  1. 08_高级集群配置.docx

  2. HDFS - NameNode 调优 dfs.namenode.handler.count 设置在HDFS/NameNode Group/Performance ■ NameNode 服务器线程数 ■ 用于来自客户端和DataNode 的RPC 调用的线程(心跳和元数据操作) ■ CM默认是30(非CM默认值为10) ■ 推荐:集群节点数x 20 的自然对数 ■ 设置太低的症状:DataNode 日志中的“连接被拒绝” 消息是由于DateNode 尝试将块报告传输到NameNod
  3. 所属分类:讲义

    • 发布日期:2020-02-24
    • 文件大小:1048576
    • 提供者:weixin_43250197
  1. Vertica实时数据分析平台

  2. 深度介绍Vertica产品总体架构、核心优势、集群能力、Vertica与Hadoop的数据交换、SQL高级分析、与分布式R无缝集成、灾备能力等等,是不可多得的了解Vertica的好资料。数据分析平台演进阶段及挑战 事件触发,全量数据实时分析频 价值实 业务相关性分析 繁访问 产品分析、用户行为分析客客户活动预测,客户流失预测,直接提升业务 户分析等灵活直询和数据分析产品盈利预测 面向大量业务人员 MOLAP CUBE生成 面向少量管理者的机器学习和 现整合层行业模型批量加工 预测 监管报送等数据
  3. 所属分类:Hadoop

    • 发布日期:2019-04-20
    • 文件大小:4194304
    • 提供者:skyon
  1. 大纲及下载地址.doc

  2. 大数据研发--架构资料包(共28G) 01 - Linux视频 02 - 全网最全的Hadoop集群搭建视频 03 - 深度揭秘世界级分布式文件系统 HDFS 架构设计 04 - 老司机带你自研RPC 05 - 老司机带你自研分布式文件系统 06 - 老司机带你自研分布式计算引擎 07 - Hive底层执行引擎深度剖析 08 - 全宇宙最强的25条Hive性能调优实战 09 - Kafka消息引擎底层架构深度剖析 10 - Kafka高性能的消息封装 11 - Kafka客户端容错体系源 12
  3. 所属分类:互联网

    • 发布日期:2020-08-06
    • 文件大小:74752
    • 提供者:MaChiTuZeng
  1. 【Hadoop学习】_28Haoop企业优化

  2. 文章目录一、MapReduce跑得慢的原因二、MapReduce优化方法(一)数据输入(二)Map阶段(三)Reduce阶段(四)I/O阶段(五)数据倾斜问题(六)常用的调优参数三、HDFS小文件优化方法 一、MapReduce跑得慢的原因 MapReduce程序效率的瓶颈在于两点: 计算机性能 CPU、内存、磁盘健康、网络。 I/O操作优化 (1)数据倾斜 (2)Map和Reduce数量设置不合理 (3)Map运行时间太长,导致Reduce等待过久 (4)小文件过多 (5)大量不可分块的超大文
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:89088
    • 提供者:weixin_38712874
  1. spark优化

  2. Spark的开发优化 1.Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。 原则一:避免创建重复的RDD   通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:274432
    • 提供者:weixin_38694674
  1. Spark性能优化:开发调优篇

  2. Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDDlineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:532480
    • 提供者:weixin_38704284
  1. Spark创建RDD、DataFrame各种情况的默认分区数

  2. 本文来自dongkelun,讲各种情况下的sc.defaultParallelism,defaultMinPartitions,各种情况下创建以及转化。熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDFS文件的Block数量有关,还有很坑的某些情况的默认分区数为1。如果分区数少,那么并行执行的task就少,特别情
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:3145728
    • 提供者:weixin_38678022
  1. HadoopLearning:完整的大数据基础学习教程,包含最基础的centos,maven。大数据主要包含hdfs,mr,yarn,hbase,kafka,scala,sparkcore,sparkstreaming,sparksql。-

  2. 1,基础教程 1.1,centos相关 1.2,maven相关 2,大数据教程 2.1,hdfs教程 2.1,mapreduce教程 3,剩余编写 HDFS入门,深入,Shell访问,Java API操作 MapReduce入门,深入,编程基础,编程进阶,实战分析和训练 Yarn入门,原理剖解和应用场景 Hbase存储原理,RowKey设计,协处理,Shell访问,Java API访问和Hbase性能调优 ElasticSearch入门,概念基础,基础原理,索引,映射,搜索,聚合和性能优化 Sc
  3. 所属分类:其它

    • 发布日期:2021-02-03
    • 文件大小:5242880
    • 提供者:weixin_42139302
  1. Spark性能优化:开发调优篇

  2. Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后
  3. 所属分类:其它

    • 发布日期:2021-02-01
    • 文件大小:532480
    • 提供者:weixin_38640150
  1. Spark创建RDD、DataFrame各种情况的默认分区数

  2. 本文来自dongkelun,讲各种情况下的sc.defaultParallelism,defaultMinPartitions,各种情况下创建以及转化。熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDFS文件的Block数量有关,还有很坑的某些情况的默认分区数为1。如果分区数少,那么并行执行的task就少,特别情
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:3145728
    • 提供者:weixin_38631978