SVD在LSA中被用来获取潜在的语义信息。我对SVD矩阵的解释感到困惑。
我们首先构建一个文档-词项矩阵。然后使用SVD将其分解成3个矩阵。
例如:
文档-词项矩阵M1是M x N,其中:
M = 文档的数量N = 词项的数量
而M1被分解为:
M1 = M2 * M3 * M4,其中:M2: M x kM3: k x kM4: k x N
我看到的解释如下:
M2的k个列代表相似语义的类别。M4的k个行代表主题。
我的问题是:
-
为什么k被解释成上述那样?我们如何知道它是相似语义和主题?
-
为什么相似语义等于主题?
-
为什么k在M2和M4之间的解释不同?
-
如何解释M3?
我真的很困惑。解释似乎完全是随意的。这就是潜在的意思吗?
回答:
我强烈推荐阅读Manning和Schutze的SNLP圣经中的信息检索章节。在5页中,它解释了你想知道的关于LSI和SVD的一切。
你会发现这样的段落: