在做数据分析或者统计的时候,经常需要进行数据正态性的检验,因为很多假设都是基于正态分布的基础之上的,例如:T检验。
在Python中,主要有以下检验正态性的方法:
1.scipy.stats.shapiro ——Shapiro-Wilk test,属于专门用来做正态性检验的模块,其原假设:样本数据符合正态分布。
注:适用于小样本。
其函数定位为:
def shapiro(x):
"""
Perform the Shapiro-Wilk test for normality.
The
引言
数据预处理时,异常值的存在可能对最终建立的模型的精度和泛化能力有较大的影响。检测异常值的方式有很多,最基本的两种方法为 z 分数法和上下截断点法。
对 z 分数法还存在些许疑虑的可查看如下博文
统计学: Z 分数 & 正态分布 (附 Python 实现代码) –Z 检验先修; Z 分数与正态分布两者关系; Z 分数与百分位数的异同;面试要点(以心理学实验为舟)
本文针对这两种方法,构造自写库,最终实现函数的快捷调用,在很大程度上提高了数据预处理的效率。
效果展示(Jupyter