分类网站业务领域

我想识别网站所属的业务类别/业务领域。

例如,superhuman网站。这家公司制作了由流行词汇功能和用户界面驱动的电子邮件客户端。

因此,简而言之,网站的类别可以是专业电子邮件服务

为了实现这一目标,我的初步想法是将LDA算法(Python模块)应用于网站的“关于我们”文本和公司的Facebook信息页面,前提是我们拥有这两者。但这种方法在许多情况下仍然不起作用。有什么见解吗?

LDA详情:使用20000次传递和1个主题,我对http://aakritiartgallery.com/网站的结果是

[(0, u'0.050*art + 0.020*aakriti + 0.019*contemporary + 0.017*gallery + 0.015*new')]

如何利用LDA给出的这些术语概率来缩小到我的业务?


回答:

@Anony-Mousse说得好,最好制定一个路线图,而不是专注于单一算法。鉴于你的情况,这是我会做的。

预处理/特征提取

NMF、LSA、LDA是主要用于预处理的无监督技术,用于提取有意义的特征。在NLP中,这通常对应于从大量文本中提取有意义的词。通过使用这些技术,你将能够处理原始数据以获得有意义的特征。这些算法本身并不提供预测,通常不足以创建一个好的模型。

训练

在你的情况下,你需要结构化数据来训练你的模型并进行预测。例如,你可以使用你的LDA结果(实际上你会使用这些关键词的索引)映射到业务领域(或你的标签)。

即)(标签)IT : (特征) java, python, server(标签)Zoo: (特征) monkey, zebra, giraffe(标签)IT : (特征) nlp, 机器学习

在你收集了一些数据(至少是(#特征 * #标签))之后,你可以训练你选择的监督模型。(逻辑回归、SVM、神经网络等)

测试

评估你的预测得分并实施算法。

话虽如此,这将不是一件容易的事。你将不得不处理识别类别/子类别、提取有意义特征的其他方法等,所以我会为这个项目设定一个较长的期限。祝你好运!

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注