我想识别网站所属的业务类别/业务领域。

例如，superhuman网站。这家公司制作了由流行词汇功能和用户界面驱动的电子邮件客户端。

因此，简而言之，网站的类别可以是专业电子邮件服务。

为了实现这一目标，我的初步想法是将LDA算法（Python模块）应用于网站的“关于我们”文本和公司的Facebook信息页面，前提是我们拥有这两者。但这种方法在许多情况下仍然不起作用。有什么见解吗？

LDA详情：使用20000次传递和1个主题，我对http://aakritiartgallery.com/网站的结果是

[(0, u'0.050*art + 0.020*aakriti + 0.019*contemporary + 0.017*gallery + 0.015*new')]

如何利用LDA给出的这些术语概率来缩小到我的业务？

回答：

@Anony-Mousse说得好，最好制定一个路线图，而不是专注于单一算法。鉴于你的情况，这是我会做的。

预处理/特征提取

NMF、LSA、LDA是主要用于预处理的无监督技术，用于提取有意义的特征。在NLP中，这通常对应于从大量文本中提取有意义的词。通过使用这些技术，你将能够处理原始数据以获得有意义的特征。这些算法本身并不提供预测，通常不足以创建一个好的模型。

训练

在你的情况下，你需要结构化数据来训练你的模型并进行预测。例如，你可以使用你的LDA结果（实际上你会使用这些关键词的索引）映射到业务领域（或你的标签）。

即）(标签)IT : (特征) java, python, server(标签)Zoo: (特征) monkey, zebra, giraffe(标签)IT : (特征) nlp, 机器学习

在你收集了一些数据（至少是（#特征 * #标签））之后，你可以训练你选择的监督模型。（逻辑回归、SVM、神经网络等）

评估你的预测得分并实施算法。

话虽如此，这将不是一件容易的事。你将不得不处理识别类别/子类别、提取有意义特征的其他方法等，所以我会为这个项目设定一个较长的期限。祝你好运！