泰坦尼克号
一个分类问题,与预测泰坦尼克号沉没灾难中的乘客的生存情况有关。 通过查看,分析和可视化具有因变量(即“生存”)的不同特征之间的关系和估计效果来开始问题。 通过各种图表(如直方图,条形图,使用matplotlib和seaborn库的点图)可视化每个变量。 通过使用数字数据类型的均值和分类数据类型的均值填充具有缺失值的要素来完成训练和测试数据集。 执行特征工程以排除在预测中具有可忽略的重要性的特征。 使用一键编码处理分类变量。 使用Logistic回归(准确度分数= 0.8),决策树(准