您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. 开源力量——数据挖掘原理与实战

  2. 整套大数据课程从hadoop入门开始,由浅入深,内置“hadoop源码解析与企业应用开发实战”,“Hive开发实战”,“Hbase开发实战”,“Spark,mahout,sqoop,storm诸模块开发实战”,“数据挖掘基础。这个系列课程有几个板块组成,所以学员可以按照自己的实际情况选择学习。例如,对于只需要了解hadoop基本编程的人,只需要选择“hadoop源码解析与企业应用开发实战”模块就可以了;对于立志于从事大数据领域的零起点人员,可以选择四个板块依次学习;对于已经有一定基础的hado
  3. 所属分类:Java

  1. Spark学习笔记

  2. spark 可以很容易和yarn结合,直接调用HDFS、Hbase上面的数据,和hadoop结合。配置很容易。 spark发展迅猛,框架比hadoop更加灵活实用。减少了延时处理,提高性能效率实用灵活性。也可以与hadoop切实相互结合。 spark核心部分分为RDD。Spark SQL、Spark Streaming、MLlib、GraphX、Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎。其相应的生态环境包括zepplin等可视化方面,正日益壮大。大型公司争相实用sp
  3. 所属分类:spark

    • 发布日期:2017-11-06
    • 文件大小:34603008
    • 提供者:mr_liyang
  1. 基于大数据平台构建数据仓库的研究与实践.pdf

  2. 数据仓库设计文档,帮助大家理解及如何设计数据仓库,很不错的一篇论文。专题 lTo 学习体系,能从海量数据中提炼高价值信息,构建自主 (1)源系统结构化数据:源系统按大数据平合的 训练与反馈、可不断从最新数据中调整演化的智能业务供数规范要求提供表数据文本和标志文件。 模型体系。 (2)文件交换区FSA:文件的交换中枢,含源系 以 Hadoop^ Spark为代表的大规模数据处理技术为统结构化数据和半结构化、非结构化数据(主要是外部 超越传统数据库的处理局限性提供了先进的并行计算和数据)。 资源调度
  3. 所属分类:其它

    • 发布日期:2019-07-16
    • 文件大小:1048576
    • 提供者:bucaixia08
  1. 研究论文-高校大数据平台建设与研究.pdf

  2. 数据资源建设是高校信息化建设的重要组成部分,构建大数据管理服务平台将为高校大数据应用分析场景建设, 提供数据、 管理、服务、技术等多层面的有效支撑。以DAMA数据管理服务体系方法论作为理论依据,以教育部发布的《JYT1002_教育管理基础信息》、《JYT1003_教育行政管理信息》、《JYT1006_高等学校管理信息》等标准文件内容作为参考,结合高校数据特点,在传统高校数据共享平台相关技术的基础上将Hadoop框架体系、Spark技术、Elasticsearch数据引擎技术等大数据技术进行深度
  3. 所属分类:其它

    • 发布日期:2019-08-07
    • 文件大小:1048576
    • 提供者:weixin_39840924
  1. CDALevel2 大数据分析师考试大纲.pdf

  2. CDALevelⅡ:大数据分析师。一年以上数据分析岗位工作经验,或通过CDALevelⅠ认证半年以上。专指政府、金融、电信、零售、互联网、电商、医学等行业专门从事数据分析与云端大数据的人员。在LevelⅠ的基础上要求掌握JAVA语言和linux操作系统知识,能够掌握运用Hadoop、Spark、Storm等至少一门专业大数据分析软件,从海量数据中提取相关信息,并能够结合R、python等软件,形成严密的数据分析报告。
  3. 所属分类:专业指导

    • 发布日期:2020-02-21
    • 文件大小:311296
    • 提供者:CDA_ZheJiang
  1. 基于流式计算的电信实时营销系统设计与实现.caj

  2. 在移动互联网时代,各式各样的新业务和新产品不断出现,通信市场的用户总体规模增长速度变缓,使运营商之间的竞争愈加激烈,新产品营销的时效性和准确度问题亟需解决。实时营销作为新的营销方式,具有较高的实时性,通过运用大数据分析技术分析用户上网行为特征,并在合适的时间、合适的地点向用户推荐合适的内容,从而提升用户感知、增加用户粘性。如何运用大数据技术实现实时营销是本文的重要内容。本文深入调研分析了大数据实时流式处理技术,并结合其在满足非功能性需求方面的独特优势,设计了一个可以同时满足大数据存储、大数据实时
  3. 所属分类:spark

    • 发布日期:2019-10-20
    • 文件大小:3145728
    • 提供者:weixin_41045909
  1. Hadoop与Spark 肖睿+PDF

  2. 大数据技术让我们以一种靠前的方式,对海量数据进行分析,从中获得有巨大价值的产品和服务,很终形成变革之力。本书围绕Hadoop和Spark两个主流大数据技术进行讲解,主要内容包括Hadoop环境配置、Hadoop分布式文件系统(HDFS)、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、数据仓库Hive、大数据离线处理辅助系统、Spark Core、Spark SQL、Spark Streaming等知识。本书
  3. 所属分类:其它

    • 发布日期:2019-08-18
    • 文件大小:171966464
    • 提供者:ermaoermao
  1. Spark与Hadoop的结合

  2. 本文来自于csdn,本文介绍了Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。Spark可以直接对HDFS进行数据的读写,同样支持SparkonYARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:276480
    • 提供者:weixin_38502814
  1. 基于Hadoop大数据分析应用场景与实战

  2. 本文来自于linkedkeeper.com,本文主要介绍了一下kafka的基本概念,并结合一些实验帮助理解kafka中的一些难点,如多个consumer的容错性机制,offset管理。为了满足日益增长的业务变化,京东的京麦团队在京东大数据平台的基础上,采用了Hadoop等热门的开源大数据计算引擎,打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具,而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分
  3. 所属分类:其它

    • 发布日期:2021-02-25
    • 文件大小:356352
    • 提供者:weixin_38674883
  1. Spark与Hadoop的结合

  2. 本文来自于csdn,本文介绍了Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。Spark可以直接对HDFS进行数据的读写,同样支持Sparkon YARN。Spark可以与MapReduce运行于同集群中,共享存储资源与计算,数据仓库Shark实现上借用Hive,几乎与Hive完全兼容。 RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核
  3. 所属分类:其它

    • 发布日期:2021-01-27
    • 文件大小:276480
    • 提供者:weixin_38718307
  1. 智慧平安社区大数据云服务平台研究与设计

  2. 为了加强城市社区治安管理,提升基层社会治理能力,目前政府正在大力推进平安社区的建设,平安社区大数据云服务平台在平安社区的整体建设中处于重要地位,为落实平安社区的建设,本论文通过重点分析社区基础数据智能采集技术、多源异构大数据精准关联技术、治安风险监测预警技术以及治安风险防范技术,实现社区治安基础数据的采集、处理、分析与预警,并结合目前主流的Hadoop+Spark+HBase的分布式框架,最终完成平安社区大数据云服务平台的研究与设计。
  3. 所属分类:其它

    • 发布日期:2021-01-13
    • 文件大小:1048576
    • 提供者:weixin_38502915