从更大的应用数据集中选择训练集

我正在尝试对一个数据集进行情感分析。但是，没有现成的语料库可供我的分类器训练，而这个语料库与我要分析的数据集相似。我的问题如下：我可以使用这个数据的随机抽样子集进行训练/验证阶段，然后使用训练好的分类器对更大的数据集进行分析吗？我计划通过向训练集中添加与应用数据集相似但不属于该数据集的数据点来引入一些变异性。这是一种有效的方法吗？

回答：

您所寻找的是交叉验证的标准程序。在交叉验证过程中，您将数据按（假设）80%-20%的比例划分为训练和测试数据，并进行5-10次（取决于您数据的大小）不同的划分。因此，我建议您保留数据的一个子集，然后在这个子集上进行交叉验证。这是训练模型的最佳方式。

学技术

从更大的应用数据集中选择训练集

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复