搜索资源 - spark工程 - 点数信息

点数信息

注册会员 | 设为首页 | 加入收藏夹

您好，欢迎光临本网站！[请登录] ！[注册会员]！

热门搜索： 源码 Android 整站插件识别 p2p 游戏算法更多...

在线客服QQ:632832888

当前位置：

搜索资源 - spark工程

下载资源分类

移动开发

开发技术

课程资源

网络技术

操作系统

安全技术

数据库

行业

服务器应用

存储

信息化

考试认证

云计算

大数据

跨平台

音视频

游戏开发

人工智能

区块链

资源分类

搜索资源列表

spark 二次开发所需缺失3jar包
spark 源码工程部署缺少的3个jar包
所属分类：Java
- 发布日期：2014-04-23
- 文件大小：3145728
- 提供者：yxjolin

用sbt构造好的Intellij版的spark工程
sbt构造spark项目实在是太慢了，终于构造好了，拿出来和大家分享，直接导入到intellij里就可以研究spark了，定义跳转非常方便。基于当前最新版本的spark构造的工程。
所属分类：其它
- 发布日期：2016-07-23
- 文件大小：18874368
- 提供者：o1101574955

Spark大数据中文分词统计Java工程源码
参考网络资源使用IKAnalyzer分词组件，实现了纯Java语言、MapReduce模式及Spark 框架三种方式对唐诗宋词等国学经典进行中文分词统计排序的功能，你可以轻松发现唐诗宋词中最常用的词是那几个。
所属分类：Java
- 发布日期：2016-08-12
- 文件大小：388096
- 提供者：yangdanbo1975

Spark大数据中文分词统计Scala语言工程源码
参考网络资源使用IKAnalyzer分词组件，实现了在Spark框架下使用Scala语言对唐诗宋词等国学经典进行中文分词统计排序的功能，你可以轻松发现唐诗宋词中最常用的词是那几个。
所属分类：Java
- 发布日期：2016-08-20
- 文件大小：404480
- 提供者：yangdanbo1975

Google的pagerank实现（Java+scala)Eclipse工程实例带测试数据结果和JAR包
******************************************************** 作者：邓佑权日期：2016年功能：实现google的PageRank算法，带完整的测试数据和结果，java、scala语言版本 ********************************************************* 版本： scala2.10.4 spark 1.6.1 Scala IDE Build id: 4.4.1-vfinal-2016-05
所属分类：Java
- 发布日期：2016-11-01
- 文件大小：10485760
- 提供者：moviebat

Spark下运行的KMean算法(scala语言)
Spark下K-Means算法的Scala工程，代码不是特别长。对应的可以参考我的博客。
所属分类：其它
- 发布日期：2017-02-13
- 文件大小：467968
- 提供者：clam1234

spark升级后无logging类
在使用spark读取kafka数据时，当spark升级到2.0之后，出现如上问题：之前遇到了，当时在工程里面添加了org.apache.spark.Logging类，能够运行。
所属分类：其它
- 发布日期：2017-08-11
- 文件大小：88064
- 提供者：nma_123456

基于Spark1.6使用Spark SQL和sqlite数据库进行诗歌浏览查询和集句的Scala工程源码
基于Spark1.6，使用Spark SQL框架和sqlite数据库，把唐诗三百首，宋诗三百首和元明清诗精选导入数据库，可以按来源，体裁及作者，方便地查出诗句或试题中包含某个关键字的作品，还可以在选中作品后，进行五绝，七绝和五律，七律的自动集句的尝试。
所属分类：spark
- 发布日期：2017-10-15
- 文件大小：49283072
- 提供者：yangdanbo1975

Spark集群及开发环境搭建
初学者手册一、软件及下载 2 二、集群环境信息 2 三、机器安装 3 1. 安装虚拟机VirtualBox 3 2. 安装CentOs7 3 四、基础环境搭建（hadoop用户下） 7 1. 机器名HostName 7 2. 关闭防火墙 7 3. 系统更新及常用工具安装 8 4. IP配置 8 5. JDK安装 9 五、 Hadoop安装及配置 10 1. 安装 10 2. 配置 10 六、机器集群搭建 14 1. 复制机器 14 2. 设置静态IP 15 3. 设置机器名host
所属分类：spark
- 发布日期：2018-04-09
- 文件大小：744448
- 提供者：jane8687

Spark升级后无Logging类
在使用spark读取kafka数据时，当spark升级到2.0之后，出现如上问题：之前遇到了，当时在工程里面添加了org.apache.spark.Logging类，能够运行。
所属分类：spark
- 发布日期：2018-11-06
- 文件大小：88064
- 提供者：accumulate_zhang

vm安装高可以spark集群.rar
虚拟机搭建高可以spark集群(附各个节点配置文件和安装文档)。安装文档里含idea开发工具配置SCALA插件以及建工程，并有一个KAFKA消费生产代码工程
所属分类：spark
- 发布日期：2019-10-15
- 文件大小：7340032
- 提供者：lookup123

Spark 工程
Spark是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速。Spark非常小巧玲珑，由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala，项目的core部分的代码只有63个Scala文件，非常短小精悍。project/plugins. sbt logLevel Level Warn resolvers + Resolver url("artifactory url(http://scalasbt.artifactoryonline.com/sca
所属分类：spark
- 发布日期：2019-07-02
- 文件大小：333824
- 提供者：abacaba

Spark概述与环境搭建（yarn|Standlone）
概述 Spark是一个快如闪电的统一分析引擎（计算框架）用于大规模数据集的处理。Spark在做数据的批处理计算，计算性能大约是Hadoop MapReduce的10~100倍，因为Spark使用比较先进的基于 DAG 任务调度，可以将一个任务拆分成若干个阶段，然后将这些阶段分批次交给集群计算节点处理。 MapReduce VS Spark MapReduce作为第一代大数据处理框架，在设计初期只是为了满足基于海量数据级的海量数据计算的迫切需求。自2006年剥离自Nutch（Java搜索引擎
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：505856
- 提供者：weixin_38631960

idea中通过spark访问hive
IDEA中使用Spark SQL 连接Hive 折腾了两个小时，好久没有弄了，记录一下一、复制hive-site.xml 复制hive-site.xml到idea工程中的resource目录下二、在windows中安装hadoop并配置环境变量 1、解压hadoop 2、修改hadoop etc/hadoop中的 hadoop-env.cmd、mapred-env.sh、yarn-env.sh的java_home路径 3、配置hadoop的环境变量 HADOOP_HOME D:\mod
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：27648
- 提供者：weixin_38694023

Spark学习一：安装、IDEA编写代码
文章目录Spark下载和安装Spark的部署模式spark on yarnIDEA编写spark程序下载Scala安装Scala插件建立Maven工程编写wordcount程序打成jar包验证JAR包 Spark下载和安装可以去Spark官网下载对应的spark版本。此处我选择了 spark-2.4.5-bin-hadoop2.6.tgz。注意该spark版本是2.4.5，与hadoop2.6相匹配，用的scala 2.11版本编译的spark源码。如果觉得官网比较慢，可以去中国科学技术大学
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：625664
- 提供者：weixin_38746387

Spark数据处理与特征工程
sklearn在中小型数据集上，在工业界是在使用的 xgboost、lightgbm在工业界的实用度非常的高工业界数据体量真的达到上亿或者十亿这样的规模用sklern处理起来是比较吃力的，可借助于大数据的工具，比如spark来解决现在可以用spark来做大数据上的数据处理，比如数据工程、监督学习、无监督学习模型的构建，只要计算资源够就OK。【大数据底层做分布式处理】注意：spark基于RDD形态、DataFrame形态两种形态的工具库，其中基于RDD形态的工具库目前已经暂停维护，所以建议
所属分类：其它
- 发布日期：2021-01-07
- 文件大小：76800
- 提供者：weixin_38691006

Spark-SourceCode-Analysis:Apache Spark笔记本-spark source code
Spark-SourceCode分析 Apache Spark笔记本作者：祁传宏军 Spark简介 Spark起源自科研院所，加州大学伯克利分校UC Berkeley的AMP实验室。该校在edx上开设了系列课程:)“使用Spark XSeries进行数据科学与工程”。 08，09年起，一说到大数据，大家就想到Hadoop。但是这两年，Spark迅猛发展。 Spark是Hadoop生态圈的一环。Spark是一种计算框架，16年开始爆发，现在已经基本取代了Hadoop中的Map Reduce。计
所属分类：其它
- 发布日期：2021-03-24
- 文件大小：106496
- 提供者：weixin_42127835

spark-java:java实现spark核心源代码-源码
一：模块介绍本工程模仿Spark用Java实现，其主要的模块有： 1，常见 2，核心二：模块详解
所属分类：其它
- 发布日期：2021-03-23
- 文件大小：539648
- 提供者：weixin_42135754

awesome-opensource-data-engineering:很棒的开源数据工程项目清单-源码
很棒的开源数据工程该旨在概述与数据工程相关项目。这是社区的努力：请并发送您的拉取请求，以增加此列表！有关包括非OSS工具的列表的信息，请参阅此令人惊叹的。目录分析工具用于大规模数据处理的统一分析引擎。包括Scala，Java，Python（称为PySpark）和R（SparkR）中的API。 -Google DataFlow的开源实现。提供在任何执行引擎（包括Spark，Flink或它自己的DirectRunner）上运行的批处理和流数据处理作业的功能。支持Java，Python和
所属分类：其它
- 发布日期：2021-03-20
- 文件大小：6144
- 提供者：weixin_42100032

Udacity-Data-Engineering-6:数据工程的顶峰项目-源码
Udacity-数据工程-6 顶石项目关于/简介在数据工程的顶峰项目中，我结合了我在整个程序中学到的知识。我从Udacity提供的包含四个数据集的项目开始。主要数据集包括有关移民到美国的数据，补充数据集包括有关机场代码，美国城市人口统计数据和温度数据的数据。所得数据集可用于分析前往美国的旅行和移民趋势。目录项目范围我将研究四个数据集，分别是美国移民数据，美国城市人口统计信息，天气信息和机场数据。所得数据集可用于分析前往美国的旅行和移民趋势。我正在使用本地Spark实例来处理本
所属分类：其它
- 发布日期：2021-03-14
- 文件大小：38797312
- 提供者：weixin_42131316

« 12 3 4 »