多标签分类中使用数值范围作为标签

我有一个分类问题,我的标签是评分,从0到100,增量为1(例如1, 2, 3, 4)。

我的数据集中,每一行包含一个名称、文本语料和一个评分(0到100)。

我试图从文本语料中提取特征,这些特征可以输入到我的分类器中,每行会输出一个对应的评分(0到100)。

在特征选择方面,我考虑从基本的词袋模型开始。然而,我的疑问在于分类算法。scikit-learn中有支持这种问题的分类算法吗?

我阅读了http://scikit-learn.org/stable/modules/multiclass.html,但描述的算法似乎支持完全离散的标签,而我有一组连续的标签。

编辑:如果我将评分分箱呢?例如,我可以有10个标签,每个标签从1到10。


回答:

你可以使用多变量回归来代替分类。你可以对文本语料中的n-gram特征进行聚类,形成一个字典,并用它来构建特征集。使用这个特征集,训练一个回归模型,其输出可以是连续值。你可以将输出的实数四舍五入,以获得1到100之间的离散标签。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注