数据清理
乳腺癌使用的数据集特征是根据乳腺肿块细针抽吸(FNA)的数字化图像计算得出的。他们描述了图像中存在的细胞核的特征。在3维空间中的描述如下:[KP Bennett和OL Mangasarian:“两个线性不可分集合的鲁棒线性编程判别”,优化方法和软件1,1992, 23-34]。等级分配:357良性,212恶性
缺失值请注意,只有“裸核”列包含缺失值。在以下示例中,“裸核”列中的缺失值替换为该列的中值。显示了数据点子集的替换前后的值。代替替换丢失的值,另一种常见方法是丢弃包含丢失的值的数