如何在Python中提高不平衡数据集的精确度和召回率

我构建了一个监督模型来分类医学文本数据（我的输出预测疾病的正面或负面发生情况）。数据非常不平衡（130个正面案例与1600个负面案例相比，这是可以理解的，因为这种疾病很少见）。我首先清理了数据（删除不必要的词，词形还原等），然后应用了词性标注。我接着对这些清理后的数据应用了TfidfVectorizer和TfidfTransformer。对于分类，我尝试了SVM和随机森林，但即使在使用GridSearchCV调整了它们的参数后，正面数据的精确度和召回率也只有56%和58%（我还设置了class_weight = ‘balanced’）。有谁有建议如何提高这些低精确度和召回率吗？非常感谢。

这是我当前的Pipeline（显然我运行时只使用一个分类器，但我展示了两个以显示它们的参数）。

pipeline = Pipeline([ ('vectors', TfidfVectorizer(ngram_range = (2,3),norm = 'l1', token_pattern = r"\w+\b\|\w+" ,min_df = 2, max_features = 1000).fit(data['final'])),('classifier', RandomForestClassifier(n_estimators = 51, min_samples_split = 8, min_samples_leaf = 2, max_depth = 14, class_weight= 'balanced')),('classifier', SVC(C = 1000, gamma = 1, class_weight = 'balanced', kernel='linear')),])

回答：

首先，查看一下你的分类器看到的数据。测量特征与类别之间的相关性（皮尔森相关性就可以），并检查是否有不相关的特征。例如，单词patient通常不被视为停用词，但在医学数据库中，它很可能是一个停用词。

还可以考虑使用更复杂的特征，如二元组或三元组，或者甚至添加词嵌入（例如，使用预训练的模型如word2vec或GloVe，然后取文本向量的平均值）。

注意：如今，文本分类主要使用神经网络和词嵌入。不过，你的数据集不是很大，所以可能不值得改变方法（或者出于某些原因，你可能不想改变）。

学技术

如何在Python中提高不平衡数据集的精确度和召回率

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复