非平衡大数据集分类是近年来机器学习领域的研究热点。因为许多实际应用领域中都存在非平衡大数据,如医疗诊断数据、信用卡欺诈检测数据、网络入侵检测数据等集。所以研究非平衡大数据集分类具有重要的理论意义和实际应用价值。针对两类非平衡大数据集分类,本文提出了正类样例交叉上采样与分类器集成相结合的方法。具体地,在上采样阶段,正类样例的上采样按下面两步交叉进行:第一步,利用Map Reduce计算正类样例的类中心,并在中心与每一个正类样例点的连线上进行采样;第二步,对新采样的正类样例中的每一个样例点,用Map