分类网站业务领域

我想识别网站所属的业务类别/业务领域。

例如,superhuman网站。这家公司制作了由流行词汇功能和用户界面驱动的电子邮件客户端。

因此,简而言之,网站的类别可以是专业电子邮件服务

为了实现这一目标,我的初步想法是将LDA算法(Python模块)应用于网站的“关于我们”文本和公司的Facebook信息页面,前提是我们拥有这两者。但这种方法在许多情况下仍然不起作用。有什么见解吗?

LDA详情:使用20000次传递和1个主题,我对http://aakritiartgallery.com/网站的结果是

[(0, u'0.050*art + 0.020*aakriti + 0.019*contemporary + 0.017*gallery + 0.015*new')]

如何利用LDA给出的这些术语概率来缩小到我的业务?


回答:

@Anony-Mousse说得好,最好制定一个路线图,而不是专注于单一算法。鉴于你的情况,这是我会做的。

预处理/特征提取

NMF、LSA、LDA是主要用于预处理的无监督技术,用于提取有意义的特征。在NLP中,这通常对应于从大量文本中提取有意义的词。通过使用这些技术,你将能够处理原始数据以获得有意义的特征。这些算法本身并不提供预测,通常不足以创建一个好的模型。

训练

在你的情况下,你需要结构化数据来训练你的模型并进行预测。例如,你可以使用你的LDA结果(实际上你会使用这些关键词的索引)映射到业务领域(或你的标签)。

即)(标签)IT : (特征) java, python, server(标签)Zoo: (特征) monkey, zebra, giraffe(标签)IT : (特征) nlp, 机器学习

在你收集了一些数据(至少是(#特征 * #标签))之后,你可以训练你选择的监督模型。(逻辑回归、SVM、神经网络等)

测试

评估你的预测得分并实施算法。

话虽如此,这将不是一件容易的事。你将不得不处理识别类别/子类别、提取有意义特征的其他方法等,所以我会为这个项目设定一个较长的期限。祝你好运!

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注