我在使用变分自编码器时,发现有人使用均方误差(MSE)损失函数,有人使用二元交叉熵(BCE)损失函数。请问哪一种更正确?为什么?
据我所知,如果假设变分自编码器的潜在空间向量遵循高斯分布,应该使用均方误差损失函数。如果假设它遵循多项分布,则应该使用二元交叉熵损失函数。此外,二元交叉熵对0.5有偏见。
能否有人帮我澄清这个概念?我知道这与信息期望的下变分界限有关……
非常感谢!
回答:
简而言之:最大化预测为正态分布(多项分布)的模型的似然性等同于最小化均方误差(二元交叉熵)
数学细节:
DeepMind有一场关于现代潜在变量模型(主要是变分自编码器)的精彩讲座,你可以在那里了解你需要的所有知识