Zhang T, Ramakrishnan R, Livny M. BIRCH: A new data clustering algorithm and its applications[J]. Data Mining and Knowledge Discovery, 1997, 1(2): 141-182. 不错的英文文献。
B I R C H算法是一种适应于大规模数据集的聚类算法, 通过对所有叶节点设定统一阈值 来构建聚类特 征( c F ) 树, 并在各阶段采取不同的阈值来重建树, 但没有给出一个合理设定阈值初值 及如何在各阶段提升阈值大 小的具体方法。另外 B I R C H算法只能处理数值型数据, 这使其应用受到限制。针对以上不足, 对 B I R C H算法做 了以 下改进: 1 ) 改进原B I R C H算法的 C F结构, 使其可以处理混合型属性数据集; 2 ) 启发式为 B I R C H算法选择