Pipelines:组织数据预处理和建模的方法,他捆绑了预处理和建模的步骤,使用Pipeline可以是你的代码更加简洁、直观、不容易出BUG、简单部署、有更多的模型验证选项。
假设你有训练数据验证数据:X_train, X_valid, y_train, and y_valid.这些数据包含有缺失值的变量和类别变量。
下面的代码是使用Pipeline进行预处理和建模的例子。
定义预处理步骤
1.对于数值型的缺失值我们估算(imputes)它(均值、众数、中位数、零等)
2.类别变量中的我们先估算