Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑, 由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码 只有63个Scala文件,非常短小精悍。安装 Spark
yum install spark-core spark-master spark-worker spark-python
部署 Spark到HDFs
source /etc/spark/ conf/spark-env sh
hd