为了能够及时了解 Spark 环境下经典聚类算法 K-means 的最新研究进展,把握 K-means 算法当前的研究热 点和方向,针对 K-means 算法的初始中心点优化研究进行综述。首先介绍了内存计算框架 Spark 和 K-means 算法, 并分析了 K-means 算法聚类不稳定性的成因和影响,其目的在于指出优化 K-means 算法的重要性。详细介绍了目前 在 Spark 环境下优化 K-means 初始中心点的主要方法和最新研究现状,并展望了 K-means 初始中心点优化问题的