您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. Spark学习--RDD编码

  2. RDD:弹性分布式数据集(ResilientDistributed Dataset),是Spark对数据的核心抽象。RDD其实是分布式的元素集合。当Spark对数据操作和转换时,会自动将RDD中的数据分发到集群,并将操作并行化执行。 Spark中的RDD是一个不可变的分布式对象集合。每个RDD都倍分为多个分区,这些分区运行在集群中的不同节点。RDD可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义对象,本文主要通过Java实现相关示例。 Spark程序或shel
  3. 所属分类:Java

    • 发布日期:2017-05-09
    • 文件大小:10240
    • 提供者:a123demi
  1. Spark学习---统计文件单词出现次数

  2. 上一节我们简单介绍了RDD中转化和执行操作的用法,本节将通过一个具体的示例来加深对RDD的认识。 一.需求 统计本地文件中单词出现次数 二.操作流程 1.读取外部文件创建JavaRDD; 2.通过flatMap转化操作切分字符串,获取单词新JavaRDD; 3.通过mapToPair,以key为单词,value统一为1的键值JavaPairRDD; 4.通过reduceByKey,累计叠加每个key,统计单词出现次数; 三.代码实现 四.下载代码
  3. 所属分类:Java

    • 发布日期:2017-05-12
    • 文件大小:13312
    • 提供者:a123demi
  1. Spark最全操作完整示例代码

  2. 最全Spark操作完整示例代码-------是基于java的。 包含所有的spark常用算子操作和ml以及mlib、sparkstreaming、sparkSQL操作的示例DEMO。 内附有详细说明,由于内容过大删除了两个jar包,需要自己去下载,spark的安装包下的有这两个包,导入项目即可。懒得改maven项目了。 适合有一定基础和已经工作的人员下载学习。 个人Github: https://github.com/huangyueranbbc
  3. 所属分类:spark

    • 发布日期:2017-08-03
    • 文件大小:43
    • 提供者:huangyueranbbc
  1. spark官方文档

  2. 1 概述(Overview) Spark SQL是Spark的一个组件,用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象,DataFrames可以充当分布式SQL查询引擎。 2 DataFrames DataFrame是一个分布式的数据集合,该数据集合以命名列的方式进行整合。DataFrame可以理解为关系数据库中的一张表,也可以理解为R/Python中的一个data frame。DataFrames可以通过多种数据构造,例如:结构化的数据文件、hive中的
  3. 所属分类:spark

    • 发布日期:2017-09-01
    • 文件大小:15728640
    • 提供者:qq_39532946
  1. Spark 2.0.2 Spark 2.2 中文文档

  2. 本资源为网页,不是PDF Apache Spark 2.0.2 中文文档 Spark 概述 编程指南 快速入门 Spark 编程指南 概述 Spark 依赖 Spark 的初始化 Shell 的使用 弹性分布式数据集(RDDS) 并行集合 外部数据集 RDD 操作 RDD 持久化 共享变量 Broadcast Variables (广播变量) Accumulators (累加器) 部署应用到集群中 使用 Java / Scala 运行 spark Jobs 单元测试 Spark 1.0 版本前
  3. 所属分类:spark

    • 发布日期:2017-12-07
    • 文件大小:62
    • 提供者:huoyongjie698
  1. SparkSQL的jdbc操作及java的api操作

  2. 关于SparkSQL的jdbc操作及java的api操作的Idea maven工程代码。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
  3. 所属分类:spark

    • 发布日期:2018-03-19
    • 文件大小:100352
    • 提供者:alert_java_song
  1. spark2.1.0.chm(spark java API)

  2. spark 通过java操作的API详细说明,chm格式,可搜索自己想要的API,内部有详细的用法说明
  3. 所属分类:spark

    • 发布日期:2018-04-20
    • 文件大小:5242880
    • 提供者:xiaoqingwa0214
  1. Spark-2.1.1-Java测试最小依赖包(经过严格测试)

  2. spark-2.1.1-Java测试最小依赖包,很多博客都写过,但是很多博客都没有经过验证,本依赖包是经过代码严格检测的,能够通过最简单的hbase数据写入,数据读取等操作的,请放心下载
  3. 所属分类:spark

    • 发布日期:2018-07-15
    • 文件大小:39845888
    • 提供者:y1170328179s
  1. spark2.1.0 JAVA API

  2. spark 通过java操作的API详细说明,chm格式,可搜索自己想要的API,内部有详细的用法说明
  3. 所属分类:spark

    • 发布日期:2019-02-06
    • 文件大小:5242880
    • 提供者:xiaoxiang154
  1. spark 2.0.1 JavaAPI

  2. spark 通过java操作的API详细说明,chm格式,可搜索自己想要的API,内部有详细的用法说明
  3. 所属分类:spark

    • 发布日期:2019-02-06
    • 文件大小:4194304
    • 提供者:xiaoxiang154
  1. 大数据spark学习之rdd概述

  2. RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有RDD 以及调用 RDD 操作进行求值。每个 RDD 都被分为多个分区,这些分区运行在集群中的不同节点上。RDD 可以包含 Python、Java、Scala 中任意类型的对象, 甚至可以包含用户自定义的对象。RDD具有数据流模型的特点:自动容错、位置感知性调
  3. 所属分类:互联网

    • 发布日期:2020-05-03
    • 文件大小:3072
    • 提供者:fy1235
  1. Java操作Spark入门程序

  2. 使用Java语言编写操作Spark的入门程序,包括Java连接Spark,所需的信息配置开发,连接目标配置Spark集群详细说明
  3. 所属分类:Java

    • 发布日期:2020-10-15
    • 文件大小:5120
    • 提供者:qq_35564982
  1. pyspark操作MongoDB的方法步骤

  2. 如何导入数据 数据可能有各种格式,虽然常见的是HDFS,但是因为在Python爬虫中数据库用的比较多的是MongoDB,所以这里会重点说说如何用spark导入MongoDB中的数据。 当然,首先你需要在自己电脑上安装spark环境,简单说下,在这里下载spark,同时需要配置好JAVA,Scala环境。 这里建议使用Jupyter notebook,会比较方便,在环境变量中这样设置 PYSPARK_DRIVER_PYTHON=jupyter PYSPARK_DRIVER_PYTHON_OPT
  3. 所属分类:其它

    • 发布日期:2020-12-25
    • 文件大小:102400
    • 提供者:weixin_38690830
  1. Python拾趣013 数据持久化之HDF5数据操作

  2. HDF(Hierarchical Data Format)是一种设计用于存储和组织大量数据的文件格式,最开始由美国国家超算中心研发,后来由一个非盈利组织HDF Group支持.HDF支持多种商业及非商业的软件平台,包括MATLAB、Java、Python、R和Julia等等,现在也提供了Spark.其版本包括了HDF4和现在大量用的HDF5。详细内容可以查看HDF5简介。 Python也可以方便运用这个库,因为OpenCV的数据都是NumPy形式,操作也比较简单。 """ 有趣的事情 没有结束
  3. 所属分类:其它

    • 发布日期:2020-12-21
    • 文件大小:1048576
    • 提供者:weixin_38747566
  1. SourceCode_Spark:Spark原始码-spark source code

  2. 阿帕奇火花 Spark是用于大数据的快速通用集群计算系统。 它提供了Scala,Java,Python和R中的高级API,以及优化的引擎,该引擎支持用于数据分析的通用计算图。 它还支持丰富的高级工具集,包括用于SQL和DataFrames的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和用于流处理的Spark Streaming。 在线文件 您可以在找到最新的Spark文档,包括编程指南。 此自述文件仅包含基本的安装说明。 建筑火花 Spark是使用构建的。 要构建Sp
  3. 所属分类:其它

    • 发布日期:2021-03-24
    • 文件大小:22020096
    • 提供者:weixin_42138780
  1. Spark_compile:通过maven编译之后的Spark原始码-源码通

  2. 阿帕奇火花 Spark是用于大数据的快速通用集群计算系统。 它提供了Scala,Java,Python和R中的高级API,以及优化的引擎,该引擎支持用于数据分析的通用计算图。 它还支持丰富的高级工具集,包括用于SQL和DataFrames的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和用于流处理的Spark Streaming。 在线文件 您可以在和上找到最新的Spark文档,包括编程指南。 此自述文件仅包含基本的安装说明。 建筑火花 Spark是使用构建的。 要构建
  3. 所属分类:其它

    • 发布日期:2021-03-24
    • 文件大小:16777216
    • 提供者:weixin_42121058
  1. spark-3.0.1:Spark-3.0.1源码-源码

  2. 阿帕奇火花 Spark是用于大规模数据处理的统一分析引擎。 它提供了Scala,Java,Python和R中的高级API,以及优化的引擎,该引擎支持用于数据分析的通用计算图。 它还支持丰富的高级工具集,包括用于SQL和DataFrames的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和用于流处理的结构化流。 在线文件 您可以在找到最新的Spark文档,包括编程指南。 此自述文件仅包含基本的安装说明。 建筑火花 Spark是使用构建的。 要构建Spark及其示例程序,请
  3. 所属分类:其它

    • 发布日期:2021-03-23
    • 文件大小:30408704
    • 提供者:weixin_42151772
  1. spark-2.4.7:spark-2.4.7源码-源码

  2. 阿帕奇火花 Spark是用于大数据的快速通用集群计算系统。 它提供了Scala,Java,Python和R中的高级API,以及优化的引擎,该引擎支持用于数据分析的通用计算图。 它还支持丰富的高级工具集,包括用于SQL和DataFrames的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和用于流处理的Spark Streaming。 在线文件 您可以在找到最新的Spark文档,包括编程指南。 此自述文件仅包含基本的安装说明。 建筑火花 Spark是使用构建的。 要构建Sp
  3. 所属分类:其它

    • 发布日期:2021-03-23
    • 文件大小:23068672
    • 提供者:weixin_42178688
  1. spark-1.3.0:原始码分析与修改[spark-parent_2.10]-源码

  2. 阿帕奇火花 Spark是用于大数据的快速通用集群计算系统。 它提供了Scala,Java和Python中的高级API,以及优化的引擎,该引擎支持用于数据分析的通用计算图。 它还支持丰富的高级工具集,包括用于SQL和结构化数据处理的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和用于流处理的Spark Streaming。 在线文件 您可以在和上找到最新的Spark文档,包括编程指南。 此自述文件仅包含基本的安装说明。 建筑火花 Spark是使用构建的。 要构建Spark
  3. 所属分类:其它

    • 发布日期:2021-03-23
    • 文件大小:13631488
    • 提供者:weixin_42151599
  1. spark1.52:Spark源代码中文注释-源码

  2. 阿帕奇火花 Spark是用于大数据的快速通用集群计算系统。 它提供了Scala,Java,Python和R中的高级API,以及优化的引擎,该引擎支持用于数据分析的通用计算图。 它还支持丰富的高级工具集,包括用于SQL和DataFrames的Spark SQL,用于机器学习的MLlib,用于图形处理的GraphX和用于流处理的Spark Streaming。 在线文件 您可以在和上找到最新的Spark文档,包括编程指南。 此自述文件仅包含基本的安装说明。 建筑火花 Spark是使用构建的。 要构建
  3. 所属分类:其它

    • 发布日期:2021-03-23
    • 文件大小:337641472
    • 提供者:weixin_42153793
« 12 3 »