我想检测文本文章的情感倾向。这个问题似乎与分类问题有关,但我不希望检测每个类别(负面、正面、中性)的概率,而是希望得到一个总体的评分,例如0.76
,然后根据预定义的范围将文章分类到相应的类别中。(例如,[0.75…1) 为正面)。
哪些机器学习算法适合这种问题?
回答:
据我所见,你可以采用以下两种方法之一来解决这个问题:
- 使用分类算法,对于二元分类器,它会给你
(p,1-p)
,其中p
是二元分类器认为“真”的“概率”。 - 使用线性回归(或其他数值型机器学习算法),并使用其返回的分数进行评分。在训练算法时,你将“正面”标记为1,“负面”标记为0。
就我个人而言,我会选择第一种方法,使用支持向量机(SVM),因为我知道它在处理大型特征空间方面表现很好——这在文本问题中很可能适用。