Keras 去噪自编码器(表格数据)

我有一个项目,使用表格数据进行梯度提升树回归。我想看看在我的数据上使用去噪自编码器是否能找到更好的原始数据表示,并提高我的原始GBT得分。灵感来自于知名Kaggle获胜者这里

据我所知,我有两种主要选择来提取去噪自编码器的激活值 – 创建一个瓶颈结构并获取中间单层激活,或者将每一层的激活值连接起来作为表示。

假设我想从下面的3个512节点层中获取所有层的激活值:

inputs = Input(shape=(31,))encoded = Dense(512, activation='relu')(inputs)encoded = Dense(512, activation='relu')(encoded)decoded = Dense(512, activation='relu')(encoded)decoded = Dense(31, activation='linear')(decoded)autoencoder = Model(inputs, decoded)autoencoder.compile(optimizer='Adam', loss='mse')history = autoencoder.fit(x_train_noisy, x_train_clean,                epochs=100,                batch_size=128,                shuffle=True,                validation_data=(x_test_noisy, x_test_clean),                callbacks=[reduce_lr])

我的问题是:

  • 获取上述层的激活值会给我一个新的x_train表示,对吗?我应该对x_test重复这个过程吗?我需要两者来训练我的GBT模型。

  • 如何进行推理?每个新数据点都需要被“转换”成这种新的表示格式。我如何在Keras中实现这一点?

  • 在这种情况下,我是否真的需要为.fit提供validation_data=


回答:

获取上述层的激活值会给我一个新的x_train表示,对吗?我应该对x_test重复这个过程吗?我需要两者来训练我的GBT模型。

当然,你需要对训练和测试数据都进行去噪处理,因为你后面训练的GBT模型只接受去噪后的特征。

如何进行推理?每个新数据点都需要被“转换”成这种新的表示格式。我如何在Keras中实现这一点?

如果你想使用去噪/重构后的特征,你可以直接使用autoencoder.predict( X_feat )来提取特征。如果你想使用中间层,你需要先构建一个新的模型encoder_only=Model(inputs, encoded),然后用它来提取特征。

在这种情况下,我是否真的需要为.fit提供validation_data=

你最好从训练数据中分出一部分用于验证,以防止过拟合。不过,你也可以通过留一法等方式训练多个模型,以集成的方式充分利用所有数据。

其他评论:

  • 512个隐藏神经元对于你的任务来说似乎太多了
  • 考虑使用DropOut
  • 对于表格数据要小心,特别是当不同列的数据具有不同的动态范围时(即,MSE并不能公平地量化不同列的重构误差)。

Related Posts

Keras Dense层输入未被展平

这是我的测试代码: from keras import…

无法将分类变量输入随机森林

我有10个分类变量和3个数值变量。我在分割后直接将它们…

如何在Keras中对每个输出应用Sigmoid函数?

这是我代码的一部分。 model = Sequenti…

如何选择类概率的最佳阈值?

我的神经网络输出是一个用于多标签分类的预测类概率表: …

在Keras中使用深度学习得到不同的结果

我按照一个教程使用Keras中的深度神经网络进行文本分…

‘MatMul’操作的输入’b’类型为float32,与参数’a’的类型float64不匹配

我写了一个简单的TensorFlow代码,但不断遇到T…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注