再次提一个简单的问题:在进行情感分析或文本分类/分类的NLP任务时,是使用Ngram(单字/双字等)作为简单的二元特征更好,还是使用它们的Tfidf分数在机器学习模型如支持向量机中更好?
回答:
正如@Steve在评论中提到的,最好的答案(也是机器学习风格的方法)是尝试!
尽管如此,我会从二元特征开始。像SVM这样的机器学习模型的目标是确定这些特征的“权重”,所以如果它是高效的,你不需要提前尝试设置这个权重(使用TFIDF或其他方法)。
再次提一个简单的问题:在进行情感分析或文本分类/分类的NLP任务时,是使用Ngram(单字/双字等)作为简单的二元特征更好,还是使用它们的Tfidf分数在机器学习模型如支持向量机中更好?
回答:
正如@Steve在评论中提到的,最好的答案(也是机器学习风格的方法)是尝试!
尽管如此,我会从二元特征开始。像SVM这样的机器学习模型的目标是确定这些特征的“权重”,所以如果它是高效的,你不需要提前尝试设置这个权重(使用TFIDF或其他方法)。