SKLearn 交叉验证:

我在进行文本分类,可能会遇到训练数据中未包含的词汇,这些词汇应该被视为未知词汇。

有谁知道 scikit 的交叉验证是否会在训练数据中不存在的情况下将某个词视为未见过的词汇?

还是 scikit 会将所有词汇都视为特征,即使它不在训练集中?


回答:

如果你对包含特征提取器(例如 CountVectorizer 或 TfidfVectorizer)和分类器的管道进行交叉验证,那么一切都会自动正常工作:仅在测试集中出现的特征将被忽略(不会映射到向量表示中的维度)。

关于如何使用 vocabulary_ 属性将特征名称映射到维度,有更多详细信息可以在文本特征提取文档中找到。

还有一个示例展示了如何对包含特征提取组件和分类器的管道进行交叉验证

编辑:修正了 train / test 的拼写错误

编辑 2:修复了示例链接的错误。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注