您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 单片机倾斜传感器资料

  2. 我的其他资源都是免费的,是对于c语言初学者的帮助比较大的,其中有单片机,ARM,数据结构,window编程。我也在学c语言,每当我写完一个程序,我都会免费发上来。
  3. 所属分类:嵌入式

    • 发布日期:2013-03-12
    • 文件大小:343040
    • 提供者:luoyikun
  1. Hive优化方法整理

  2. Hive优化方法整理 hive 数据倾斜 内连接
  3. 所属分类:其它

    • 发布日期:2014-06-13
    • 文件大小:25600
    • 提供者:zhzhiqun
  1. Spark-数据倾斜的解决方案.pdf

  2. 介绍:Spark-数据倾斜的解决方案
  3. 所属分类:spark

    • 发布日期:2017-08-18
    • 文件大小:1048576
    • 提供者:zhangewill
  1. Hive大数据倾斜总结

  2. Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有
  3. 所属分类:Hive

    • 发布日期:2017-09-07
    • 文件大小:214016
    • 提供者:qq_37051667
  1. 数据倾斜解决方案之使用随机key实现双重聚合

  2. 数据倾斜解决方案之使用随机key实现双重聚合
  3. 所属分类:算法与数据结构

    • 发布日期:2017-11-29
    • 文件大小:20971520
    • 提供者:m0_38001972
  1. JAVA实现的Spark的解决数据倾斜的单词技术的计数

  2. 用JAVA实现的基于Spark的解决数据倾斜的单词技术的计数
  3. 所属分类:spark

    • 发布日期:2017-12-11
    • 文件大小:3072
    • 提供者:fanyao4144
  1. Spark性能调优和数据倾斜解决方案

  2. 详细介绍了各种情况下spark生产环节遇到的问题以及性能调优解决方案,以及全套的数据倾斜解决方案
  3. 所属分类:spark

    • 发布日期:2018-05-22
    • 文件大小:577536
    • 提供者:u013174239
  1. hive数据倾斜问题总结笔记

  2. 总结了hive中数据处理发生的倾斜问题,不同的原因对应不同的解决方案,比较具体可实操的方法
  3. 所属分类:Hive

    • 发布日期:2018-07-22
    • 文件大小:13312
    • 提供者:lwmxa
  1. 关于Spark数据倾斜的优化

  2. 在shuffle操作的时候,是按照key来进行value的数据的输出,拉取和聚合的,同一个key的values,一定是分配到同一个reduce task进行处理的,假如多个key对应的value一共有90万条数据,但是可能某条key对应了88万条,其他key最多也就对应数万条数据,那么处理这88万条数据的reduce task肯定会特别耗费时间,甚至会直接导致OOM,这就是所谓的数据倾斜
  3. 所属分类:spark

    • 发布日期:2018-07-21
    • 文件大小:5242880
    • 提供者:qq_42692756
  1. 解决Spark 数据倾斜的八大实用方法.doc

  2. 什么是数据倾斜?对 Spark/Hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整
  3. 所属分类:其它

    • 发布日期:2020-04-01
    • 文件大小:40960
    • 提供者:willfen9192
  1. 自定义RDD-从HDFS读取数据代码.zip

  2. Spark自定义RDD从HDFS读取数据,实现和sc.textFile相同功能,代码测试通过,可以根据需求避免数据源数据倾斜
  3. 所属分类:spark

    • 发布日期:2020-03-19
    • 文件大小:4096
    • 提供者:diyuhudievv
  1. 【Spark2运算效率】第四节 影响生产集群运算效率的原因之数据倾斜

  2. 【Spark2运算效率】【Spark2运算效率】第四节 影响生产集群运算效率的原因之数据倾斜前言倾斜实例治理过程结语跳转 前言 当ETL调度任务所能拥有的资源能够满足其在较为资源冗余的状况下实施运算,长时间的运算过程中可能是涉及了数据倾斜的现象;数据倾斜可以说是分布式运算中不可避免的一种现象,这种现象带来的后果就是任务执行时长会随着倾斜度的增加而变长,甚至会有Fail的风险(任务重跑); 不管是任务执行延时还是任务重跑,这都在一定程度上增加了集群的运营压力,所幸的是,只要编写过程稍加注意,还是能
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:1048576
    • 提供者:weixin_38690522
  1. 数据挖掘:数据清洗——数据不平衡处理

  2. 数据挖掘:数据清洗——数据不平衡处理 一、什么是数据不平衡? 不平衡数据集指的是数据集各个类别的样本数目相差巨大,也叫数据倾斜。以二分类问题为例,即正类的样本数量远大于负类的样本数量。严格地讲,任何数据集上都有数据不平衡现象,一点的差异不会引起太多的影响,我们只关注那些分布差别比较悬殊的。 关于分布悬殊:如果类别不平衡比例超过4:1,那么其分类器会大大地因为数据不平衡性而无法满足分类要求的。因此在构建分类模型之前,需要对分类不均衡性问题进行处理。 不平衡数据的学习即需要在分布不均匀的数据集中学
  3. 所属分类:其它

    • 发布日期:2021-01-06
    • 文件大小:590848
    • 提供者:weixin_38660731
  1. 数据倾斜.xmind

  2. 此图总结了处理数据时产生数据倾斜的原因以及其解决思路和方法
  3. 所属分类:互联网

    • 发布日期:2021-01-05
    • 文件大小:153600
    • 提供者:weixin_44731004
  1. 基于一趟聚类的不平衡数据下抽样算法

  2. 抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高.
  3. 所属分类:其它

    • 发布日期:2021-03-01
    • 文件大小:244736
    • 提供者:weixin_38727087
  1. Spark性能优化:数据倾斜调优

  2. 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。1、绝大多数task执行得都非常快,但个别task执行
  3. 所属分类:其它

    • 发布日期:2021-02-26
    • 文件大小:1048576
    • 提供者:weixin_38722052
  1. spark作业调优秘籍,解数据倾斜之痛

  2. 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。如果数据倾斜没有解决,完全没有可能进行性能调优,其他所有的调优手段都是一个笑话。数据倾斜是最能体现一个spark大数据工程师水平的性能调优问题。数据倾斜如果能够解决的话,代表对spark运行机制了如指掌。数据倾斜俩大直接致命后果。1数据倾斜直接会导致一种情况:OOM。2运行速度慢,特别慢,非常慢,极端的
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:420864
    • 提供者:weixin_38703787
  1. Spark之旅:大数据产品的一种测试方法与实现

  2. spark作为现在主流的分布式计算框架,已经融入到了很多的产品中作为ETL的解决方案。而我们如果想要去测试这样的产品就要对分布式计算的原理有个清晰的认知并且也要熟悉分布式计算框架的使用来针对各种ETL场景设计不同的测试数据。而一般来说我们需要从以下两个角度来进行测试。ETL能兼容各种不同的数据(不同的数据规模,数据分布和数据类型)ETL处理数据的正确性ETL是按一定规则针对数据进行清洗,抽取,转换等一系列操作的简写。那么一般来说他要能够处理很多种不同的数据类型。我们在生产上遇见的bug有很大一部
  3. 所属分类:其它

    • 发布日期:2021-02-24
    • 文件大小:279552
    • 提供者:weixin_38621638
  1. Spark性能优化:数据倾斜调优

  2. 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。1、绝大多数task执行得都非常快,但个别task执行
  3. 所属分类:其它

    • 发布日期:2021-02-01
    • 文件大小:1048576
    • 提供者:weixin_38677046
  1. spark作业调优秘籍,解数据倾斜之痛

  2. 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。如果数据倾斜没有解决,完全没有可能进行性能调优,其他所有的调优手段都是一个笑话。数据倾斜是最能体现一个spark大数据工程师水平的性能调优问题。数据倾斜如果能够解决的话,代表对spark运行机制了如指掌。 数据倾斜俩大直接致命后果。1数据倾斜直接会导致一种情况:OOM。2运行速度慢,特别慢,非常慢,极端
  3. 所属分类:其它

    • 发布日期:2021-02-01
    • 文件大小:420864
    • 提供者:weixin_38681719
« 12 3 4 5 6 7 8 9 10 ... 24 »