生成模型和判别模型似乎在学习条件概率P(x|y)和联合概率P(x,y)分布。但在根本层面上,我无法说服自己理解“概率分布被学习”到底意味着什么。
回答:
这意味着你的模型要么作为从中抽取训练样本的分布的估计器,要么利用该估计器进行其他预测。
举一个简单的例子,考虑一组观测值{x[1], ..., x[N]}
。假设你想在这些数据上训练一个高斯估计器。从这些样本中,这个高斯估计器的最大似然参数将是数据的均值和方差
Mean = 1/N * (x[1] + ... + x[N])
Variance = 1/(N-1) * ((x[1] - Mean)^2 + ... + (x[N] - Mean)^2)
现在你有一个模型,能够从(对)你的训练样本所抽取的分布(的估计)中生成新的样本。
再进一步考虑一个稍微复杂的例子,如高斯混合模型。这同样会根据你的数据推断出最适合的模型参数。不同的是,这次的模型由多个高斯分布组成。因此,如果你得到一些测试数据,你可以根据每个高斯分量对观测点概率密度的相对贡献,概率性地为每个样本分配类别。当然,这基于机器学习的基本假设:你的训练数据和测试数据都来自同一个分布(这是你应该检查的)。