理解嵌入向量的维度

在深度学习中，特别是在自然语言处理（NLP）领域，单词被转换为向量表示，以便输入到神经网络中，如RNN。通过参考以下链接：

在“词嵌入”部分中提到：

词嵌入 W:words→Rn 是一个参数化的函数，将某些语言中的单词映射到高维向量（可能是200到500维）

我不理解向量维度的目的。与20维的向量相比，200维的向量意味着什么？

它是否提高了模型的整体准确性？谁能给我一个关于选择向量维度的简单例子？

回答：

这些词嵌入也称为分布式词嵌入，基于

你可以通过一个词的上下文来了解这个词

因此，我们通过其上下文来了解一个词的含义。你可以认为向量（一个词的）中的每个标量代表其对某个概念的强度。这张来自Pawan Goyal教授的幻灯片解释了一切。

因此，你希望有合适的向量大小来捕捉足够的概念，但你不希望向量太大，因为这将成为使用这些嵌入的模型训练的瓶颈。

此外，向量大小通常是固定的，因为大多数人不训练自己的嵌入，而是使用公开可用的嵌入，因为它们已经在大量数据上训练了许多小时。使用它们将迫使我们使用与你所使用的公开可用的嵌入（word2vec, glove等）相同维度的嵌入层。

分布式词嵌入是NLP深度学习领域的一个重要里程碑。它们比基于tfidf的嵌入提供了更好的准确性。

学技术