您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Hadoop从业者为什么需要Spark?

  2. Hadoop从业者为什么需要Spark?答案是Hadoop已死,Spark称霸。 而Hadoop的死亡过程在2012年已经开始: 1,由于Hadoop自身架构的导致了在离线数据存储分析意外的一切领域都力不从心,理论已经证明MapReduce模型可以模拟一切分布式计算,但是效率成为其死穴,而Spark基于RDD的计算图可以轻松、完整地表达MapReduce模型,并且能极为容易的处理实时流计算、机器学习、图计算、误差查询等; 2,2012年以来Hadoop本身架构臃肿并未得到本质性的改善,很多修改
  3. 所属分类:虚拟化

    • 发布日期:2014-09-22
    • 文件大小:421888
    • 提供者:javaniceyou
  1. 基于Spark的并行频繁模式挖掘算法

  2. 在大数据环境下Apriori频繁模式挖掘算法在数据处理过程具有预先设定最小阈值、时间复杂度高等缺陷,为此采用多阶段挖掘策略实现并行化频繁模式挖掘算法PTFP-Apriori。首先将预处理数据以模式树的形式存储,通过最为频繁的k个模式得到最优阈值。然后根据该值删除预期不能成长为频繁的模式以降低计算规模,并利用弹性分布式数据集RDD完成统计项集支持度计数、候选项集生成的工作。实验分析表明相比于传统的频繁模式挖掘算法,该算法具有更高的效率以及可扩展性。
  3. 所属分类:spark

    • 发布日期:2018-06-22
    • 文件大小:1048576
    • 提供者:qq_28339273
  1. 基于 Spark 框架的文本主题特征提取与分类

  2. 主题模型目前广泛应用于机器学习与自然语言分析等领域,该模型自动分析一系列未识别的文档,试图通过统计信息发现多个抽象主题。主题模型在新闻文本智能处理与推荐领域的应用前景十分广阔。本文首先从文档自动分类为出发点,介绍文本分析的一般流程。 在此基础之上,介绍主题模型和基于 LDA 模型的文本主题特征提取原理。最后结合 Spark 大数据处理的内存迭代和分布式计算特性,实现了基于 LDA 模型的文本主题提取过程,并给 出了在新闻文本数据集上的主题抽取与分类预测结果。
  3. 所属分类:spark

    • 发布日期:2018-01-17
    • 文件大小:395264
    • 提供者:weixin_36200363
  1. 基于实时数据流的煤矿监测数据流计算模式分析

  2. 结合煤矿的现场实际情况和大数据中流计算框架,提出了基于Spark streaming的煤矿实时数据应用的流计算框架。该计算框架可以高效、快速处理来自于监测监控系统的不同系统、不同接口、不同传输速率的要求,快速地采集和处理监测监控系统的实时数据流,融合处理各业务系统的实时数据。该框架的建立可以使得基于采、掘、机、运、通等内容的矿井整体建立运营管控模型,在矿井生产全过程实现信息可采、过程可视、运行可控的能力,确保生产过程信息的完整性、可靠性、真实性。
  3. 所属分类:其它

    • 发布日期:2020-05-18
    • 文件大小:177152
    • 提供者:weixin_38556541
  1. 基于流式计算的电信实时营销系统设计与实现.caj

  2. 在移动互联网时代,各式各样的新业务和新产品不断出现,通信市场的用户总体规模增长速度变缓,使运营商之间的竞争愈加激烈,新产品营销的时效性和准确度问题亟需解决。实时营销作为新的营销方式,具有较高的实时性,通过运用大数据分析技术分析用户上网行为特征,并在合适的时间、合适的地点向用户推荐合适的内容,从而提升用户感知、增加用户粘性。如何运用大数据技术实现实时营销是本文的重要内容。本文深入调研分析了大数据实时流式处理技术,并结合其在满足非功能性需求方面的独特优势,设计了一个可以同时满足大数据存储、大数据实时
  3. 所属分类:spark

    • 发布日期:2019-10-20
    • 文件大小:3145728
    • 提供者:weixin_41045909
  1. Spark的Shuffle总结分析

  2. 一、shuffle原理分析 1.1 shuffle概述 Shuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂。 在MapReduce框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce,而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个程序的性能高低。而Spark也会有自己的shuffl
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:91136
    • 提供者:weixin_38518958
  1. 基于迭代填充的内存计算框架分区映射算法

  2. 针对内存计算框架 Spark 在作业 Shuffle 阶段一次分区产生的数据倾斜问题,提出一种内存计算框架的迭代填充分区映射算法( IFPM) 。首先,分析 Spark 作业的执行机制,建立作业效率模型和分区映射模型,给出作业执行时间和分配倾斜度的定义,证明这些定义与作业执行效率的因果逻辑关系; 然后,根据模型和定义求解,设计扩展式数据分区算法( EPA) 和迭代式分区映射算法( IMA) ,在 Map 端建立一对多分区函数,并通过分区函数将部分数据填.入扩展区内,在数据分布局部感知后再执行扩展
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:1048576
    • 提供者:weixin_38518518
  1. 基于 RDD关键度的Spark检查点管理策略

  2. Spark默认容错机制 由程序员设置检查点,并 利 用 弹 性 分 布 式 数 据 集 (resilientdistributeddataset,RDD)的血统(lineage)进行计算.在应用程序复杂度高、迭代次数多以及数据量较大时,恢复过程需要耗费大量的计算开销.同时,在执行恢复任务时,仅考虑数据本地性选择节点,并未考虑节点的计算能力,这都会导致恢复时间增加,无法最大化发挥集群的性能.因此,在建立 Spark执行模型、检查点模型 和 RDD 关键度模型的 基础上,提出一种基于关 键度的检查点
  3. 所属分类:其它

    • 发布日期:2021-03-11
    • 文件大小:393216
    • 提供者:weixin_38638647
  1. 基于迭代填充的内存计算框架分区映射算法

  2. 针对内存计算框架 Spark 在作业 Shuffle 阶段一次分区产生的数据倾斜问题,提出一种内存计算框架的迭 代填充分区映射算法( IFPM) 。首先,分析 Spark 作业的执行机制,建立作业效率模型和分区映射模型,给出作业执行 时间和分配倾斜度的定义,证明这些定义与作业执行效率的因果逻辑关系; 然后,根据模型和定义求解,设计扩展式 数据分区算法( EPA) 和迭代式分区映射算法( IMA) ,在 Map 端建立一对多分区函数,并通过分区函数将部分数据填 入扩展区内,在数据分布局部感知后再执
  3. 所属分类:其它

    • 发布日期:2021-03-07
    • 文件大小:1048576
    • 提供者:weixin_38746387
  1. 专访QQ大数据团队,谈分布式计算系统开发

  2. 他们前身是QQ成立之初后台3个基础团队之一的QQ运营组,当下致力于腾讯内部的分析系统,在离线及交互式计算系统上积累了大量经验,更是面向应用的数据解决方案ADs的作者。NoSQL是笔者最早接触大数据领域的相关知识,因此在大家都在畅谈Hadoop、Spark时,笔者仍然保留着NoSQL博文的阅读习惯。在偶尔阅读一篇Redis博文过程中,笔者发现了jacksu>的个人博客,并在其中发现了大量的分布式系统操作经验,从而通过他的引荐了解了QQ成立之初后台3个基础团队之一的QQ运营组,这里我们一起走进
  3. 所属分类:其它

    • 发布日期:2021-03-03
    • 文件大小:638976
    • 提供者:weixin_38704786
  1. Udacity-Datalake-Spark:具有Spark的Udacity数据湖-源码

  2. Sparkify的Data Lake ELT流程 概括 介绍 该项目将为Sparkify提取歌曲和日志数据,以使其更易于理解其数据并对该数据进行分析。 该项目正在使用EMR将数据处理到S3上。 入门 该ELT过程是一个非常简单的过程。 如果这是您第一次运行此项目,则应复制dl.cfg.example文件,并为项目dl.cfg配置参数。 然后在您的本地计算机上: python main.py 该过程将检查目标存储桶是否存在。 如果存在,则该进程将删除存储桶以及该存储桶中的所有内容,然后在s3上
  3. 所属分类:其它

    • 发布日期:2021-02-28
    • 文件大小:510976
    • 提供者:weixin_42133680
  1. Spark技术在基因序列分析中的应用

  2. 生命科学方兴未艾,从食品工业中的细菌培养鉴定到癌症快速诊断,基于DNA分析的应用不断出现,但同时基因分析应用也面临着很大挑战;许多新技术、新方法被应用到基因序列分析应用中,包括Spark、FPGA以及GPU协处理器加速等,这些技术的应用不仅能够使大部分生命科学领域的应用,包括开源和ISV软件,在不需要复杂的MPI编程情况下实现并行化处理,同时Spark内存内计算技术也能够提高分析效率,加速工作流程,缩短分析时间,从而有更多新的发现。本文将介绍如何利用Spark技术运行常用的基因序列分析应用,包括
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:764928
    • 提供者:weixin_38743084
  1. Spark计算过程分析

  2. Spark是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark延续了Hadoop的MapReduce计算模型,相比之下Spark的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时Spark也提供了更丰富的计算API。MapReduce是Hadoop和Spark的计算模型,其特点是Map和Reduce过程高度可并行化;过程间耦合度低,单个过程的失败后可以重新计算,而不会导致整体失败;最重要的是数据处理中的计算逻辑可以很好的转换为M
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:258048
    • 提供者:weixin_38708361
  1. Spark知识体系完整解读

  2. Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成,并且所提供的API深度借鉴Scala函数式的编程思想,提供与Scala
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:441344
    • 提供者:weixin_38519387
  1. 基于分配适应度的Spark渐进填充分区映射算法

  2. 分析 Spark 的作业执行机制,建立了执行效率模型和 Shuffle 过程模型,给出了分配适应度(AFD, allocation fitness degree)的定义,提出了算法的优化目标。根据模型的相关定义求解,设计了渐进填充分区映射算法(PFPM, progressive filling partitioning and mapping algorithm),通过扩展式分区和渐进填充映射,建立适应 Reducer 计算能力的数据分配方案,有效缩减 Shuffle 过程的同步延时,提高集群计
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:1048576
    • 提供者:weixin_38650516
  1. 专访QQ大数据团队,谈分布式计算系统开发

  2. 他们前身是QQ成立之初后台3个基础团队之一的QQ运营组,当下致力于腾讯内部的分析系统,在离线及交互式计算系统上积累了大量经验,更是面向应用的数据解决方案ADs的作者。NoSQL是笔者最早接触大数据领域的相关知识,因此在大家都在畅谈Hadoop、Spark时,笔者仍然保留着NoSQL博文的阅读习惯。在偶尔阅读一篇Redis博文过程中,笔者发现了jacksu>的个人博客,并在其中发现了大量的分布式系统操作经验,从而通过他的引荐了解了QQ成立之初后台3个基础团队之一的QQ运营组,这里我们一起走进
  3. 所属分类:其它

    • 发布日期:2021-02-21
    • 文件大小:638976
    • 提供者:weixin_38522636
  1. k_means_clustering:使用Spark使用K-Means算法进行聚类-源码

  2. 使用Spark与K-Means聚类 马其顿大学希腊大数据课程团队项目 在包含5维空间的坐标的数据集中找到K均值。 使用Apache Spark,其中构建了一个节点集群以计算k均值。 该过程运行了多次,其中每个群集中的节点数均不同。 最后,将每次执行的时间记录下来,并打印到图表中进行分析和比较。 成员: George Michoulis-第16067页/ Nikolaos Stefanidis-第16054页/ Dimitris Tourgaidis-第16057页/ Kwstas Tsiwli
  3. 所属分类:其它

    • 发布日期:2021-02-17
    • 文件大小:958464
    • 提供者:weixin_42099151
  1. 一种面向大数据分析的快速并行决策树算法(网络在线,培养研究生成果)

  2. 为了提高基于大规模数据的决策树训练效率提出了一种基于Spark平台的并行决策树算法 (SPDT). 首先,采用数据按列分区的方法,该方法把单个属性列完整地保留在一个分区内,使缓存该分区数据 的数据节点能独立完成信息熵的计算,以减少数据节点之间的信息交流造成的网络资源的占用. 然后,数据 在按列分区后以稠密向量的形式缓存于内存中,SPDT对数据进行压缩,以减少对内存的占用. 最后,SPDT采 用基于边界点类别判定的连续属性离散化方法来处理连续属性,减少决策树训练过程中信息熵计算的频次, 并提出使用
  3. 所属分类:其它

    • 发布日期:2021-02-08
    • 文件大小:3145728
    • 提供者:weixin_38647822
  1. Spark计算过程分析

  2. Spark是一个分布式的内存计算框架,其特点是能处理大规模数据,计算速度快。Spark延续了Hadoop的MapReduce计算模型,相比之下Spark的计算过程保持在内存中,减少了硬盘读写,能够将多个操作进行合并后计算,因此提升了计算速度。同时Spark也提供了更丰富的计算API。MapReduce是Hadoop和Spark的计算模型,其特点是Map和Reduce过程高度可并行化;过程间耦合度低,单个过程的失败后可以重新计算,而不会导致整体失败;最重要的是数据处理中的计算逻辑可以很好的转换为M
  3. 所属分类:其它

    • 发布日期:2021-02-01
    • 文件大小:258048
    • 提供者:weixin_38638688
  1. 基于Spark的支持隐私保护的聚类算法

  2. 针对经典聚类方法无法应对任意背景知识下恶意攻击者在海量数据挖掘过程中的恶意攻击问题,结合差分隐私保护机制,提出一种适用于Spark内存计算框架下满足差分隐私保护的聚类算法,并从理论上证明了改进算法满足在Spark并行计算框架下的ε-差分隐私。实验结果表明,改进算法在保证聚类结果可用性前提下,具有良好的隐私保护性和满意的运行效率,在海量数据聚类分析的隐私保护挖掘中,具有很好的应用前景和价值。
  3. 所属分类:其它

    • 发布日期:2021-01-20
    • 文件大小:512000
    • 提供者:weixin_38590685
« 12 »