我有一个关于重尾分布的基本问题。
假设西班牙有50,000个城市,每个城市的人口分别记为 p(1), p(2), …, p(n)。基于分布的平均值 𝜇 和标准差 𝜎,我们如何判断这个分布是否为重尾分布?我们应该考虑什么程序?
回答:
如果你拥有所有50,000个观测值,你可以计算关于平均值的中心矩。
特别是,第四个中心矩除以方差的平方就是峰度。这个数值将告诉你分布是否为扁平峰态。如果它大于三,则意味着你的分布比标准正态分布具有更重的尾部。
因此,如果你在使用Python,并且所有50,000个观测值都存储在 x
中:
from scipy import stats# 计算峰度k = stats.moment(x, 4) / x.var()**2# 评估if k > 3: print('分布具有重尾')else: print('分布不具有重尾')