什么是分层自助法?

我已经学习了自助法和分层方法。但是什么是分层自助法?它是如何工作的?

假设我们有一个包含n个实例(观察值)的数据集,m是类别的数量。我应该如何划分数据集,训练和测试的比例是多少?


回答:

你需要按类别划分你的数据集。随后,你从每个子群体中独立抽样。从一个子群体中抽样的实例数量应与其在总体中的比例相关。

 data d(i) <- { x in data | class(x) =i } for each class    for j = 0..samplesize*(size(d(i))/size(data))       sample(i) <- draw element from d(i) sample <- U sample(i)

如果你从一个包含类别{'a', 'a', 'a', 'a', 'a', 'a', 'b', 'b'}的数据集中抽取四个元素,这个过程确保分层样本中至少包含一个类别b的元素。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注