文件名称:
dsc-more-on-missing-data-dc-ds-021720-源码
开发工具:
文件大小: 406kb
下载次数: 0
上传时间: 2021-03-29
详细说明:有关丢失数据的更多信息
介绍
既然您已经了解了如何处理丢失的数据的各种方法,那么该是时候进一步讨论如何在特定情况下选择合适的方法了。 通常,许多人会立即求助于缺失值的特征的均值或中位数。 这可能是一种有效的方法,因此为什么它是标准的,但确实有一些警告。 例如,这样做可以减少数据集的整体差异,在执行后续分析或对数据集进行机器学习算法训练时应将其考虑在内。
目标
你将能够:
评估并执行最佳策略,以处理给定数据集的缺失,重复和错误值
确定估算值如何影响数据的分布
检查数据是否有重复或多余的值并将其删除
import pandas as pd
import matplotlib . pyplot as plt
% matplotlib inline
df = pd . read_csv ( 'titanic.csv' )
df . head ()