我想识别网站所属的业务类别/业务领域。
例如,superhuman网站。这家公司制作了由流行词汇功能和用户界面驱动的电子邮件客户端。
因此,简而言之,网站的类别可以是专业电子邮件服务。
为了实现这一目标,我的初步想法是将LDA算法(Python模块)应用于网站的“关于我们”文本和公司的Facebook信息页面,前提是我们拥有这两者。但这种方法在许多情况下仍然不起作用。有什么见解吗?
LDA详情:使用20000次传递和1个主题,我对http://aakritiartgallery.com/网站的结果是
[(0, u'0.050*art + 0.020*aakriti + 0.019*contemporary + 0.017*gallery + 0.015*new')]
如何利用LDA给出的这些术语概率来缩小到我的业务?
回答:
@Anony-Mousse说得好,最好制定一个路线图,而不是专注于单一算法。鉴于你的情况,这是我会做的。
预处理/特征提取
NMF、LSA、LDA是主要用于预处理的无监督技术,用于提取有意义的特征。在NLP中,这通常对应于从大量文本中提取有意义的词。通过使用这些技术,你将能够处理原始数据以获得有意义的特征。这些算法本身并不提供预测,通常不足以创建一个好的模型。
训练
在你的情况下,你需要结构化数据来训练你的模型并进行预测。例如,你可以使用你的LDA结果(实际上你会使用这些关键词的索引)映射到业务领域(或你的标签)。
即)(标签)IT : (特征) java, python, server(标签)Zoo: (特征) monkey, zebra, giraffe(标签)IT : (特征) nlp, 机器学习
在你收集了一些数据(至少是(#特征 * #标签))之后,你可以训练你选择的监督模型。(逻辑回归、SVM、神经网络等)
测试
评估你的预测得分并实施算法。
话虽如此,这将不是一件容易的事。你将不得不处理识别类别/子类别、提取有意义特征的其他方法等,所以我会为这个项目设定一个较长的期限。祝你好运!