火花项目
使用Python中的Apache Spark进行大数据
概述
此存储库包含一些有用的代码,这些代码是我在Udemy上有关Apache Spark的课程中的一些活动和练习的一部分。 我在非分布式环境中具有处理所有这些方面的经验(广度优先搜索和流数据除外)。 使用spark RDD和数据框框架将这些方法应用于大型数据集(甚至在我的个人计算机上)真的很有趣。 了解广度优先搜索算法并将其应用于在(伪)社交媒体图中找到分离度的过程非常令人着迷。 除此之外,我还尝试处理与Apache Spark提