您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. hive性能优化

  2. 一个Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对M/R中单个步骤的优化,针对M/R全局的优化,和针对整个查询(多M/R job)的优化,下文会分别阐述
  3. 所属分类:其它

    • 发布日期:2014-10-23
    • 文件大小:112640
    • 提供者:xdy2000
  1. Hive Join优化

  2. Facebook的资料,介绍hive join的各种算法,用于性能优化
  3. 所属分类:其它

    • 发布日期:2015-02-07
    • 文件大小:1048576
    • 提供者:jampoo1023
  1. 基于hive的性能优化方法的研究与实践

  2. 基于hive的性能优化方法的研究与实践 hadoop上面的数据仓库 支持海量数据 支持sql 支持hql
  3. 所属分类:其它

    • 发布日期:2015-04-15
    • 文件大小:4194304
    • 提供者:xinguozhong
  1. Hive性能优化

  2. Hive性能优化 数据倾斜 hql优化 count(distinct)优化
  3. 所属分类:其它

    • 发布日期:2016-01-13
    • 文件大小:784384
    • 提供者:pning1234
  1. Accelerate Your Hive Query

  2. Apache Hive是Hadoop生态圈中比较流行的大数据数据库引擎。在本次演讲中,涵盖一些新的Hive性能提升的优化,包括了最新Spark引擎升级到2.0,Parquet数据类型的向量化支持,以及nested column pruning等新特性。并介绍配置选项从而达到优化的性能。及benchmark数据来展现这些特性能够给Hive带来的性能提升。
  3. 所属分类:讲义

    • 发布日期:2017-05-16
    • 文件大小:698368
    • 提供者:erjin_ren
  1. hive的优化

  2. 介绍如何对数据仓库hive进行优化,借以提高hive的性能
  3. 所属分类:Hive

    • 发布日期:2017-10-17
    • 文件大小:75776
    • 提供者:burning1206
  1. Hive性能优化pdf

  2. 数据量大不是问题,数据倾斜是个问题 jobs数比较多的作业运行效率相对比较低,比如及时有几百行的表,如果多次关联汇总,产生十几个jobs,耗时很长,原因是map reduce作业初始化的时间是比较长的
  3. 所属分类:Hive

    • 发布日期:2018-04-04
    • 文件大小:462848
    • 提供者:weixin_35722097
  1. hive性能优化

  2. hive查询优化实践总结 optimizing hive queries, 详细描述了一些经典hive查询优化方法
  3. 所属分类:Hive

    • 发布日期:2018-06-02
    • 文件大小:968704
    • 提供者:weixin_39391253
  1. hive性能调优

  2. 本文主要是从Hive参数配置及应用程序设计与开发的角度,总结几种常用的性能优化方法
  3. 所属分类:Hive

    • 发布日期:2018-07-24
    • 文件大小:1048576
    • 提供者:long199366
  1. 大数据-hive性能优化

  2. 详细讲解了大数据中的海量数据存储架构,hive的性能优化方案。
  3. 所属分类:Hive

    • 发布日期:2018-09-04
    • 文件大小:305152
    • 提供者:dch215810
  1. hive性能优化.pptx

  2. hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载。此文档是基于hive大数据库简介、使用场景、性能优化
  3. 所属分类:Hive

    • 发布日期:2020-09-02
    • 文件大小:203776
    • 提供者:fzjie000
  1. HBase 数据库检索性能优化策略

  2. HBase 数据表介绍   HBase 数据库是一个基于分布式的、面向列的、主要用于非结构化数据存储用途的开源数据库。其设计思路来源于 Google 的非开源数据库”BigTable”。   HDFS 为 HBase 提供底层存储支持,MapReduce 为其提供计算能力,ZooKeeper 为其提供协调服务和 failover(失效转移的备份操作)机制。Pig 和 Hive 为 HBase 提供了高层语言支持,使其可以进行数据统计(可实现多表 join 等),Sqoop 则为其提供 RDB
  3. 所属分类:其它

    • 发布日期:2020-12-14
    • 文件大小:328704
    • 提供者:weixin_38678498
  1. 数据仓库中的SQL性能优化(Hive篇)

  2. 一个Hive查询生成多个mapreducejob,一个mapreducejob又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MRjob)的优化,下文会分别阐述。在开始之前,先把MR的流程图帖出来(摘自Hadoop权威指南),方便后面对照。另外要说明的是,这个优化只是针对Hive0.9版本,而不是后来Hortonwork发起Stinger项目之后的版本
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:333824
    • 提供者:weixin_38529123
  1. HBase数据库检索性能优化策略

  2. HBase数据库是一个基于分布式的、面向列的、主要用于非结构化数据存储用途的开源数据库。其设计思路来源于Google的非开源数据库”BigTable”。HDFS为HBase提供底层存储支持,MapReduce为其提供计算能力,ZooKeeper为其提供协调服务和failover(失效转移的备份操作)机制。Pig和Hive为HBase提供了高层语言支持,使其可以进行数据统计(可实现多表join等),Sqoop则为其提供RDBMS数据导入功能。HBase不能支持where条件、Orderby查询,只
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:359424
    • 提供者:weixin_38645865
  1. Spark性能优化:开发调优篇

  2. Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDDlineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:532480
    • 提供者:weixin_38704284
  1. Hive性能优化

  2. 本文来自于cnblogs,赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍:继续《那些年使用Hive踩过的坑》一文中的剩余部分.首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是mapreduce作业初始化的时间是比较长的。sum,count,max,min等UDAF,
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:195584
    • 提供者:weixin_38543293
  1. Spark性能优化:开发调优篇

  2. Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设计、算子的合理使用、特殊操作的优化等。在开发过程中,时时刻刻都应该注意以上原则,并将这些原则根据具体的业务以及实际的应用场景,灵活地运用到自己的Spark作业中。通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后
  3. 所属分类:其它

    • 发布日期:2021-02-01
    • 文件大小:532480
    • 提供者:weixin_38640150
  1. 数据仓库中的SQL性能优化(Hive篇)

  2. 一个Hive查询生成多个map reducejob,一个mapreducejob又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR job)的优化,下文会分别阐述。在开始之前,先把MR的流程图帖出来(摘自Hadoop权威指南),方便后面对照。另外要说明的是,这个优化只是针对Hive
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:333824
    • 提供者:weixin_38729022
  1. HBase数据库检索性能优化策略

  2. HBase数据库是一个基于分布式的、面向列的、主要用于非结构化数据存储用途的开源数据库。其设计思路来源于Google的非开源数据库”BigTable”。HDFS为HBase提供底层存储支持,MapReduce为其提供计算能力,ZooKeeper为其提供协调服务和failover(失效转移的备份操作)机制。Pig和Hive为HBase提供了高层语言支持,使其可以进行数据统计(可实现多表join等),Sqoop则为其提供RDBMS数据导入功能。HBase不能支持where条件、Orderby查询,只
  3. 所属分类:其它

    • 发布日期:2021-01-30
    • 文件大小:359424
    • 提供者:weixin_38713099
  1. Hive性能优化

  2. 本文来自于cnblogs,赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍:继续《那些年使用Hive踩过的坑》一文中的剩余部分.首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始化的时间是比较长的。sum,count,max,min等UDAF
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:188416
    • 提供者:weixin_38507208
« 12 3 »