EDA (Exploratory Data Analysis),也就是对数据进行探索性的分析,从而为之后的数据预处理和特征工程提供必要的结论。
通常我们用到pandas库和可视化工具如 matplotlib 和 seaborn 就可以完成了。主要的步骤是:理解问题;读取数据;单变量探索;多变量探索;数据预处理;建立假设,并检验。
本次对二手车价格数据EDA的整个过程我用代码记录了下来,下面是我代码的一些展示,不再用过多的语言描述。
import warnings
warnings.filterw