本文来自于简书,ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。文章主要通过八个方面全面介绍了spark的架构原理,更多内容请看全文。ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表