PySpark样式指南
PySpark是一种包装语言,它允许用户与Apache Spark后端进行交互以快速处理数据。 Spark可以在服务器的分布式网络上的海量数据集上运行,如果正确使用,则可以提供主要的性能和可靠性优势。即使PySpark语法汲取了Spark的JVM继承,因此也实现了可能不熟悉的代码模式,即使对于有经验的Python开发人员而言,也带来了挑战。
这份自以为是的PySpark代码风格指南介绍了我们遇到的常见情况以及基于PySpark存储库中最频繁重复出现的主题的最佳实践。
除了