为什么H2O自编码器在处理一个数据集时速度慢，而在另一个数据集上却不是这样？

当我对两个大小相近的数据集（见下文）运行H2O自编码器时，我能够在5分钟内完成一个数据集（A），但另一个数据集（B）却非常慢。处理数据集B时，仅完成1%就需要超过30分钟。我尝试了几次重启R会话和H2O，但这并没有帮助。两个数据集的模型参数（或系数）数量大致相同。

数据集A：大小为4 * 1,000,000（不到5分钟）

数据集B：大小为8 * 477,613（非常慢）

以下模型用于两个数据集：

model.dl = h2o.deeplearning(x = x, training_frame = data.hex, autoencoder = TRUE, activation = "Tanh", hidden = c(25,25,25), variable_importances = TRUE)

H2O集群的内存对于两个数据集都是15GB。使用的是同一台电脑（OS X 10.14.6，16 GB内存）。以下是关于H2O和R的版本信息。

H2O cluster version:        3.30.0.1H2O cluster total nodes:    1H2O cluster total memory:   15.00 GBH2O cluster total cores:    16H2O cluster allowed cores:  16H2O cluster healthy:        TRUER Version:                  R version 3.6.3 (2020-02-29)

如果有其他信息可以提供来解决这个问题，请告诉我。

回答：

这个问题已经解决了。

问题在于，在模型运行期间，数据集B在进行独热编码后，列数大幅增加。请看下文。

数据集A：

有4个分类特征。这些分类特征的唯一值数量分别为12、14、25和10。

数据集B：

有7个分类特征和1个数值特征。分类特征的唯一值数量分别为17、49、52、85、5032（！）、18445（！！）和392124（！！！）。这解释了为什么它如此慢。

学技术

为什么H2O自编码器在处理一个数据集时速度慢，而在另一个数据集上却不是这样？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复