偏态分布平均数、中位数、众数的关系
左偏分布(负偏态)中:mean(平均数) 右偏分布(正偏态)中:mode(众数) 众数,频率最高的那个数,图上就是最高峰对应的x值 中位数,中间位置的那个数,在图上就是面积对半分的那条线对应的x值 当右偏时,可直观得出 中位数 > 众数 这个关系是什么出来的呢,其实不太好理解,我也是想了很久才想出来的一个能让自己理解的方法,在这里分享一下。 首先我们看正态分布,正态分布的情况下, mode(众数)== median(中位数)== mean(平均数) 然后我们来看右偏,就是右边有尾巴的。相当于在正太分布的基础上右边增加了很大的异常值,我们知道异常值对均值影响大,对中位数影响小、对众数无影响。在正态分布的基础上在右边加上异常值,对众数没有影响,所以可以认为众数不变,还是正态分布的众数。由于异常值对均值和中位数都有影响,所以他们都会右移。但是平均值对异常值更敏感,右移更多,中位数对异常值不敏感(因为中位数是排序后在中间的数),右移更少。所以mode(众数) 注意这个解释只在大量的统计上有意义,如果就几个样本点,可能会出现反例。 偏态分布 频数分布有正态分布和偏态分布之分。 正态分布是指多数频数集中在中央位置,两端的频数分布大致对称。统计数据峰值与平均值相等的频率分布。 偏态分布是指频数分布不对称,集中位置偏向一侧。统计数据峰值与平均值不相等的频率分布。 若集中位置偏向数值小的一侧,称为正偏态分布; 集中位置偏向数值大的一侧,称为负偏态分布。 如果频数分布的高峰向左偏移,长尾向右侧延伸称为正偏态分布,也称右偏态分布; 如果频数分布的高峰向右偏移,长尾向左延伸则成为负偏态分布,也称左偏态分布。 总结为: 峰左移,右偏,正偏。峰右移,左偏,负偏。 偏度 偏度(skewness)是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数值特征。 偏度定义中包括: 正态分布(偏度=0) 右偏(尾巴右偏)分布(也叫正偏分布,偏度>0) 左偏(尾巴左偏)分布(也叫负偏分布,其偏度<0)。 峰度 峰度(peakedness、kurtosis) 又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数,直观看来,峰度反映了峰部的尖度。 峰度包括: 正态分布(峰度值=3), 厚尾(峰度值>3), 瘦尾(峰度值<3) 故,正态分布的偏度为0,峰度为3