火花备忘单
Dataframe API cache()与persist() - cache()始终以默认存储级别MEMORY_AND_DISK缓存,而persist()允许指定存储级别
Dataframe的API repartition() VS coalesce() - repartition()确实在存储器中的新鲜重新分区,它可以增加或减少分区数由主叫参数所指示的。 另一方面, coalesce()避免了改组,并将分区数减少到调用参数所指示的数
cache()或( persist() )不会