我在阅读《统计学习的要素》ESLII,在第2章中,他们使用了一个高斯混合数据集来演示一些学习算法。为了生成这个数据集,他们首先从一个双变量高斯分布N((1,0)’, I)中生成10个均值。我不太明白他们是什么意思?
如何从均值为(1,0)的双变量分布中生成10个均值?
回答:
从双变量高斯分布中生成的每个均值只是简单地从该分布中采样得到的单个点,与从该分布中可能生成的其他随机点的方式完全相同。它们使用这些生成的点作为新分布的均值这一事实并不重要。
假设这10个均值中的每一个都用来构建一个新的双变量高斯分布。
means ~ N( (1,0), I)
其中~表示从分布中抽取的值。由于在这种情况下采样的分布是双变量高斯分布,因此每个采样的数据点将是一个二维点(x1, y1)。
从原始分布中采样的这些点随后可以用来创建新的分布。
示例:
means = [ (x1,y1), (x2,y2), ..., (x10,y10) ]
构建新的双变量高斯分布:
N1((x1,x2), I), N2((x2,y2), I), ..., N10((x10,y10), I)
他们只是使用初始的双变量高斯分布N((1,0), I)作为一种简单的方法来选择10个正常分布的随机均值。