Home IT技术数据处理 – 随机投影和子采样 .. 所有步骤的正确顺序是什么？

数据处理 – 随机投影和子采样 .. 所有步骤的正确顺序是什么？

IT技术 xiaolong · 2025年4月9日 · 0 Comment

我正在进行一个文本二元分类任务，处理负样本和正样本，我想包括以下所有步骤：

处理数据 .. （例如分词）
特征选择，如Chi2
应用随机投影，因为我有一个大型稀疏矩阵（样本数：974，特征数：19329）
应用降采样技术

然后对数据进行分类

我的问题是所有这些步骤的正确顺序是什么？目前我先进行降采样，然后对每个子样本执行以下操作：

pipeline = Pipeline([('vectorizer',  CountVectorizer(tokenizer=tokens)),('chi2', SelectKBest(chi2, k=1000)),('classifier',SVC()) ])clf.fit(X_train, y_train)y_pred = clf.predict(X_test)

预测后，我会重复这个过程以处理下一个子样本

我想问的是，如果以不同的顺序执行这些步骤，是否会得到不同的结果，还是会得到相同的结果？例如，在整个训练数据上进行特征提取和选择，然后再进行子采样，与先进行子采样有什么不同？

回答：

典型的顺序应该是：

处理数据 .. （例如分词） – 这是第一步，因为所有后续技术都需要数据以向量化格式存在
特征选择如Chi2和应用随机投影，因为我有一个大型稀疏矩阵（样本数：974，特征数：19329） – 这两个技术都是一般降维过程的一部分，因此它们实际上是同一步骤的一部分，没有典型的顺序（我实际上建议完全不使用特征选择，因为这种技术会从数据中移除信息，这很少是一个好主意。最好保留所有信息，并在其上构建更强的分类器，而不是通过启发式移除特征来增强弱分类器）。
应用降采样技术 – 这一步减少了信息量，因此如果要应用（而且这很少是一个好主意 – 有很多处理不平衡的方法不会减少信息量），它应该在最后可能的时刻应用

machine-learning scikit-learn

发表回复取消回复