我最近在阅读这篇论文:Word2Vec 解释(https://arxiv.org/pdf/1402.3722.pdf)
有一些我无法理解的地方..
在第3页,他们说 p 是用 softmax 定义的
$p(D=1|w, c, \theta) = \frac{1}{1+e^{-v_c\dotv_w}}$
但我感到困惑,因为我看到这个公式是在 sigmoid 函数中,而不是 softmax 函数中。
你是如何从 softmax 中推导出这个定义的?
回答:
这可以被称为作者在符号使用上的一种小小的不严谨,但这是完全可以接受的。有时候人们会交替使用 softmax 和 sigmoid。然而,在这种情况下,由于这是二分类问题,确实是 sigmoid 函数。