双聚类算法是近年来提出的一种新的聚类方法,这种算法从思想上有别于传统的聚类算法,它主要强调在聚类时基因和条件聚类的同时性。 由于它具有诸多特性,它一出现就引起了各国科学研究学者的注意,并很快成为聚类领域的一个研究热点。其中Cheng and Church 算法又是其中最重要一种算法,其它算法都是从该算法演化而来。 本文在分析Cheng and Church 算法的基础上,对该算法进行了具体的实现。 同时对原算法第二阶段扩展空间过程进行了改进。改进后,在运行时间增加不多的条件下,试验的效果有了明
B I R C H算法是一种适应于大规模数据集的聚类算法, 通过对所有叶节点设定统一阈值 来构建聚类特 征( c F ) 树, 并在各阶段采取不同的阈值来重建树, 但没有给出一个合理设定阈值初值 及如何在各阶段提升阈值大 小的具体方法。另外 B I R C H算法只能处理数值型数据, 这使其应用受到限制。针对以上不足, 对 B I R C H算法做 了以 下改进: 1 ) 改进原B I R C H算法的 C F结构, 使其可以处理混合型属性数据集; 2 ) 启发式为 B I R C H算法选择