Python 包含式子采样

我正在尝试以一种包含的方式对数据集进行子采样,也就是说,在装袋时不获取全部样本。

示例:

数据集

dataset = array([[ 1.1,  1.2,  1.3,  1.4,  1.5,  1.6,  1.7,  1.8,  1.9],   [ 2.1,  2.2,  2.3,  2.4,  2.5,  2.6,  2.7,  2.8,  2.9],   [ 3.1,  3.2,  3.3,  3.4,  3.5,  3.6,  3.7,  3.8,  3.9],   [ 4.1,  4.2,  4.3,  4.4,  4.5,  4.6,  4.7,  4.8,  4.9],   [ 5.1,  5.2,  5.3,  5.4,  5.5,  5.6,  5.7,  5.8,  5.9],   [ 6.1,  6.2,  6.3,  6.4,  6.5,  6.6,  6.7,  6.8,  6.9],   [ 7.1,  7.2,  7.3,  7.4,  7.5,  7.6,  7.7,  7.8,  7.9],   [ 8.1,  8.2,  8.3,  8.4,  8.5,  8.6,  8.7,  8.8,  8.9],   [ 9.1,  9.2,  9.3,  9.4,  9.5,  9.6,  9.7,  9.8,  9.9],   [10.1, 10.2, 10.3, 10.4, 10.5, 10.6, 10.7, 10.8, 10.9],   [11.1, 11.2, 11.3, 11.4, 11.5, 11.6, 11.7, 11.8, 11.9],   [12.1, 12.2, 12.3, 12.4, 12.5, 12.6, 12.7, 12.8, 12.9],   [13.1, 13.2, 13.3, 13.4, 13.5, 13.6, 13.7, 13.8, 13.9],   [14.1, 14.2, 14.3, 14.4, 14.5, 14.6, 14.7, 14.8, 14.9],   [15.1, 15.2, 15.3, 15.4, 15.5, 15.6, 15.7, 15.8, 15.9],   [16.1, 16.2, 16.3, 16.4, 16.5, 16.6, 16.7, 16.8, 16.9],   [17.1, 17.2, 17.3, 17.4, 17.5, 17.6, 17.7, 17.8, 17.9]])

期望的子样本:

array([[5.5, 5.6, 5.7],     [6.5, 6.6, 6.7]])

这可以通过双重切片来完成:

dataset[4:, 4:][:2, :3]

现在,这种子采样的方式看起来并不理想(相当慢)。我想知道是否有更好的方法来做这件事,可能使用列表解析与 np.samplenp.take

编辑:我正在尝试从数据集中获取多个子样本,每个子样本都是随机的。

编辑 2:关于每个子样本的特征数量,大于 2 且小于等于特征总数。关于样本数量,它应该包含给定数据集的约 60%。

编辑 3:所有子样本的形状应该相同。 shape = (X, 0.6*len(dataset)) 其中 X 在范围 [2, 列数] 内


回答:

如果你总是从你的数据中采样连续的矩形,那么使用

dataset[4:6, 4:7]

应该比

dataset[4:, 4:][:2, :3]

更“优”(更快),因为前者避免了创建中间视图,直接对二维数组进行迭代。

这可以通过 ipython 的 %timeit 魔法命令来确认:

In [11]: %timeit dataset[4:6, 4:7]                                              216 ns ± 0.896 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)In [12]: %timeit dataset[4:, 4:][:2, :3]                                        419 ns ± 11.9 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注