您好,欢迎光临本网站![请登录][注册会员]  

搜索资源列表

  1. spark 二次开发所需缺失3jar包

  2. spark 源码工程部署缺少的3个jar包
  3. 所属分类:Java

    • 发布日期:2014-04-23
    • 文件大小:3145728
    • 提供者:yxjolin
  1. 用sbt构造好的Intellij版的spark工程

  2. sbt构造spark项目实在是太慢了,终于构造好了,拿出来和大家分享,直接导入到intellij里就可以研究spark了,定义跳转非常方便。基于当前最新版本的spark构造的工程。
  3. 所属分类:其它

    • 发布日期:2016-07-23
    • 文件大小:18874368
    • 提供者:o1101574955
  1. Spark大数据中文分词统计Java工程源码

  2. 参考网络资源使用IKAnalyzer分词组件,实现了纯Java语言、MapReduce模式及Spark 框架三种方式对唐诗宋词等国学经典进行中文分词统计排序的功能,你可以轻松发现唐诗宋词中最常用的词是那几个。
  3. 所属分类:Java

    • 发布日期:2016-08-12
    • 文件大小:388096
    • 提供者:yangdanbo1975
  1. Spark大数据中文分词统计Scala语言工程源码

  2. 参考网络资源使用IKAnalyzer分词组件,实现了在Spark框架下使用Scala语言对唐诗宋词等国学经典进行中文分词统计排序的功能,你可以轻松发现唐诗宋词中最常用的词是那几个。
  3. 所属分类:Java

    • 发布日期:2016-08-20
    • 文件大小:404480
    • 提供者:yangdanbo1975
  1. Google的pagerank实现(Java+scala)Eclipse工程实例带测试数据结果和JAR包

  2. ******************************************************** 作者:邓佑权 日期:2016年 功能:实现google的PageRank算法,带完整的测试数据和结果,java、scala语言版本 ********************************************************* 版本: scala2.10.4 spark 1.6.1 Scala IDE Build id: 4.4.1-vfinal-2016-05
  3. 所属分类:Java

    • 发布日期:2016-11-01
    • 文件大小:10485760
    • 提供者:moviebat
  1. Spark下运行的KMean算法(scala语言)

  2. Spark下K-Means算法的Scala工程,代码不是特别长。对应的可以参考我的博客。
  3. 所属分类:其它

    • 发布日期:2017-02-13
    • 文件大小:467968
    • 提供者:clam1234
  1. spark升级后无logging类

  2. 在使用spark读取kafka数据时,当spark升级到2.0之后,出现如上问题:之前遇到了,当时在工程里面添加了org.apache.spark.Logging类,能够运行。
  3. 所属分类:其它

    • 发布日期:2017-08-11
    • 文件大小:88064
    • 提供者:nma_123456
  1. 基于Spark1.6使用Spark SQL和sqlite数据库进行诗歌浏览查询和集句的Scala工程源码

  2. 基于Spark1.6,使用Spark SQL框架和sqlite数据库,把唐诗三百首,宋诗三百首和元明清诗精选导入数据库,可以按来源,体裁及作者,方便地查出诗句或试题中包含某个关键字的作品,还可以在选中作品后,进行五绝,七绝和五律,七律的自动集句的尝试。
  3. 所属分类:spark

    • 发布日期:2017-10-15
    • 文件大小:49283072
    • 提供者:yangdanbo1975
  1. Spark集群及开发环境搭建

  2. 初学者手册 一、 软件及下载 2 二、 集群环境信息 2 三、 机器安装 3 1. 安装虚拟机VirtualBox 3 2. 安装CentOs7 3 四、 基础环境搭建(hadoop用户下) 7 1. 机器名HostName 7 2. 关闭防火墙 7 3. 系统更新及常用工具安装 8 4. IP配置 8 5. JDK安装 9 五、 Hadoop安装及配置 10 1. 安装 10 2. 配置 10 六、 机器集群搭建 14 1. 复制机器 14 2. 设置静态IP 15 3. 设置机器名host
  3. 所属分类:spark

    • 发布日期:2018-04-09
    • 文件大小:744448
    • 提供者:jane8687
  1. Spark升级后无Logging类

  2. 在使用spark读取kafka数据时,当spark升级到2.0之后,出现如上问题:之前遇到了,当时在工程里面添加了org.apache.spark.Logging类,能够运行。
  3. 所属分类:spark

  1. vm安装高可以spark集群.rar

  2. 虚拟机搭建高可以spark集群(附各个节点配置文件 和 安装文档)。安装文档里含idea开发工具配置SCALA插件以及建工程,并有一个KAFKA消费生产代码工程
  3. 所属分类:spark

    • 发布日期:2019-10-15
    • 文件大小:7340032
    • 提供者:lookup123
  1. Spark 工程

  2. Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑, 由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码 只有63个Scala文件,非常短小精悍。project/plugins. sbt logLevel Level Warn resolvers + Resolver url("artifactory url(http://scalasbt.artifactoryonline.com/sca
  3. 所属分类:spark

    • 发布日期:2019-07-02
    • 文件大小:333824
    • 提供者:abacaba
  1. Spark概述与环境搭建(yarn|Standlone)

  2. 概述 Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于 DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给 集群计算节点 处理。 MapReduce VS Spark MapReduce作为第一代大数据处理框架,在设计初期只是为了满足基于海量数据级的海量数据计算的迫切需求。自2006年剥离自Nutch(Java搜索引擎
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:505856
    • 提供者:weixin_38631960
  1. idea中通过spark访问hive

  2. IDEA中使用Spark SQL 连接Hive 折腾了两个小时,好久没有弄了,记录一下 一、复制hive-site.xml 复制hive-site.xml到idea工程中的resource目录下 二、在windows中安装hadoop并配置环境变量 1、解压hadoop 2、修改hadoop etc/hadoop中的 hadoop-env.cmd、mapred-env.sh、yarn-env.sh的java_home路径 3、配置hadoop的环境变量 HADOOP_HOME D:\mod
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:27648
    • 提供者:weixin_38694023
  1. Spark学习一:安装、IDEA编写代码

  2. 文章目录Spark下载和安装Spark的部署模式spark on yarnIDEA编写spark程序下载Scala安装Scala插件建立Maven工程编写wordcount程序打成jar包验证JAR包 Spark下载和安装 可以去Spark官网下载对应的spark版本。此处我选择了 spark-2.4.5-bin-hadoop2.6.tgz。注意该spark版本是2.4.5,与hadoop2.6相匹配,用的scala 2.11版本编译的spark源码。 如果觉得官网比较慢,可以去中国科学技术大学
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:625664
    • 提供者:weixin_38746387
  1. Spark数据处理与特征工程

  2. sklearn在中小型数据集上,在工业界是在使用的 xgboost、lightgbm在工业界的实用度非常的高 工业界数据体量真的达到上亿或者十亿这样的规模用sklern处理起来是比较吃力的, 可借助于大数据的工具,比如spark来解决 现在可以用spark来做大数据上的数据处理,比如数据工程、监督学习、无监督学习模型的构建,只要计算资源够就OK。【大数据底层做分布式处理】 注意:spark基于RDD形态、DataFrame形态两种形态的工具库,其中基于RDD形态的工具库目前已经暂停维护,所以建议
  3. 所属分类:其它

    • 发布日期:2021-01-07
    • 文件大小:76800
    • 提供者:weixin_38691006
  1. Spark-SourceCode-Analysis:Apache Spark笔记本-spark source code

  2. Spark-SourceCode分析 Apache Spark笔记本作者:祁传宏军 Spark简介 Spark起源自科研院所,加州大学伯克利分校UC Berkeley的AMP实验室。该校在edx上开设了系列课程:)“使用Spark XSeries进行数据科学与工程”。 08,09年起,一说到大数据,大家就想到Hadoop。但是这两年,Spark迅猛发展。 Spark是Hadoop生态圈的一环。Spark是一种计算框架,16年开始爆发,现在已经基本取代了Hadoop中的Map Reduce。 计
  3. 所属分类:其它

    • 发布日期:2021-03-24
    • 文件大小:106496
    • 提供者:weixin_42127835
  1. spark-java:java实现spark核心源代码-源码

  2. 一:模块介绍 本工程模仿Spark用Java实现,其主要的模块有: 1,常见 2,核心 二:模块详解
  3. 所属分类:其它

    • 发布日期:2021-03-23
    • 文件大小:539648
    • 提供者:weixin_42135754
  1. awesome-opensource-data-engineering:很棒的开源数据工程项目清单-源码

  2. 很棒的开源数据工程 该旨在概述与数据工程相关项目。这是社区的努力:请并发送您的拉取请求,以增加此列表!有关包括非OSS工具的列表的信息,请参阅此令人惊叹的 。 目录 分析工具 用于大规模数据处理的统一分析引擎。包括Scala,Java,Python(称为PySpark)和R(SparkR)中的API。 -Google DataFlow的开源实现。提供在任何执行引擎(包括Spark,Flink或它自己的DirectRunner)上运行的批处理和流数据处理作业的功能。支持Java,Python和
  3. 所属分类:其它

    • 发布日期:2021-03-20
    • 文件大小:6144
    • 提供者:weixin_42100032
  1. Udacity-Data-Engineering-6:数据工程的顶峰项目-源码

  2. Udacity-数据工程-6 顶石项目 关于/简介 在数据工程的顶峰项目中,我结合了我在整个程序中学到的知识。 我从Udacity提供的包含四个数据集的项目开始。 主要数据集包括有关移民到美国的数据,补充数据集包括有关机场代码,美国城市人口统计数据和温度数据的数据。 所得数据集可用于分析前往美国的旅行和移民趋势。 目录 项目范围 我将研究四个数据集,分别是美国移民数据,美国城市人口统计信息,天气信息和机场数据。 所得数据集可用于分析前往美国的旅行和移民趋势。 我正在使用本地Spark实例来处理本
  3. 所属分类:其它

    • 发布日期:2021-03-14
    • 文件大小:38797312
    • 提供者:weixin_42131316
« 12 3 4 »