用于分类的机器学习库的可伸缩性,速度和准确性的简单/有限/不完整基准
所有基准都是错误的,但有些是有用的
该项目旨在为一些机器学习算法的常用实现的可伸缩性,速度和准确性提供一个最低基准。 这项研究的目标是使用数字和分类输入(具有有限的基数,即不是很稀疏)并且没有丢失的数据进行二进制分类,这可能是业务应用程序中最常见的问题(例如,信用评分,欺诈检测或客户流失预测)。 如果输入矩阵的大小为n x p ,则n的变化范围为10K,100K,1M,10M,而p为〜1K(在将分类扩展为伪变量/一次编码后)。