我想在开发一个小型应用时使用潜在语义分析,但我不希望自己构建矩阵。部分原因是我手头的文档无法构成一个很好的训练集,因为这些文档比较短且内容不统一;另一部分原因是我刚买了一台新电脑,安装所需的线性代数及相关库非常麻烦。
有没有可以直接使用的”默认”/预构建的LSA实现?例如,我正在寻找的东西包括:
- 默认的U、S、V矩阵(即,如果D是一个来自某个训练集的术语-文档矩阵,那么D = U S V^T就是奇异值分解),这样给定任何查询向量q,我可以使用这些矩阵自己计算q的LSA投影。
- 某种”黑盒”的LSA算法,给定查询向量q,可以返回q的LSA投影。
回答:
你可能会对Python的Gensim框架感兴趣;特别是,它有一个关于从英文维基百科构建适当矩阵的示例。