短语“机器学习算法学习概率分布”是什么意思?这里到底发生了什么

生成模型和判别模型似乎在学习条件概率P(x|y)和联合概率P(x,y)分布。但在根本层面上,我无法说服自己理解“概率分布被学习”到底意味着什么。


回答:

这意味着你的模型要么作为从中抽取训练样本的分布的估计器,要么利用该估计器进行其他预测。

举一个简单的例子,考虑一组观测值{x[1], ..., x[N]}。假设你想在这些数据上训练一个高斯估计器。从这些样本中,这个高斯估计器的最大似然参数将是数据的均值和方差

Mean = 1/N * (x[1] + ... + x[N])

Variance = 1/(N-1) * ((x[1] - Mean)^2 + ... + (x[N] - Mean)^2)

现在你有一个模型,能够从(对)你的训练样本所抽取的分布(的估计)中生成新的样本。

再进一步考虑一个稍微复杂的例子,如高斯混合模型。这同样会根据你的数据推断出最适合的模型参数。不同的是,这次的模型由多个高斯分布组成。因此,如果你得到一些测试数据,你可以根据每个高斯分量对观测点概率密度的相对贡献,概率性地为每个样本分配类别。当然,这基于机器学习的基本假设:你的训练数据和测试数据都来自同一个分布(这是你应该检查的)。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注