mxnet训练未能进展

提前感谢任何帮助。

我在尝试让一个mxnet模型收敛时遇到了一些问题:它似乎一直停留在初始权重附近。

下面是一个工作示例(尽管今天我尝试了很多这样的模型都没有成功)。我尝试了以下方法,使用了不同数量的epoch(最多100),以及不同的学习率(从0.001到10),但无法得到任何合理的结果。

这会产生以下结果:

INFO:root:Epoch[0] Train-mse=0.221155INFO:root:Epoch[0] Time cost=0.173INFO:root:Epoch[1] Train-mse=0.225179INFO:root:Epoch[1] Time cost=0.176INFO:root:Epoch[2] Train-mse=0.225179INFO:root:Epoch[2] Time cost=0.179INFO:root:Epoch[3] Train-mse=0.225179INFO:root:Epoch[3] Time cost=0.176INFO:root:Epoch[4] Train-mse=0.225179INFO:root:Epoch[4] Time cost=0.183

很明显,训练并没有真正进展。


回答:

我拿到了你的代码,并做了一些修改,成功使其收敛,修改后的代码如下所示。

我所做的更新包括:将层更新为仅有两个全连接层,每层128个单元,更新损失函数为内置的线性回归,添加了动量,更新了学习率,最后增加了epoch的数量。

希望这对你有帮助!

结果如下:

INFO:root:Epoch[0] Train-mse=0.076923INFO:root:Epoch[0] Time cost=0.148INFO:root:Epoch[1] Train-mse=0.061155INFO:root:Epoch[1] Time cost=0.178INFO:root:Epoch[2] Train-mse=0.061154INFO:root:Epoch[2] Time cost=0.168INFO:root:Epoch[3] Train-mse=0.061153INFO:root:Epoch[3] Time cost=0.151INFO:root:Epoch[4] Train-mse=0.061151INFO:root:Epoch[4] Time cost=0.182INFO:root:Epoch[5] Train-mse=0.061150INFO:root:Epoch[5] Time cost=0.186INFO:root:Epoch[6] Train-mse=0.061149INFO:root:Epoch[6] Time cost=0.197INFO:root:Epoch[7] Train-mse=0.061147INFO:root:Epoch[7] Time cost=0.174INFO:root:Epoch[8] Train-mse=0.061145INFO:root:Epoch[8] Time cost=0.148INFO:root:Epoch[9] Train-mse=0.061142INFO:root:Epoch[9] Time cost=0.150INFO:root:Epoch[10] Train-mse=0.061140INFO:root:Epoch[10] Time cost=0.145INFO:root:Epoch[11] Train-mse=0.061136INFO:root:Epoch[11] Time cost=0.135INFO:root:Epoch[12] Train-mse=0.061133INFO:root:Epoch[12] Time cost=0.136INFO:root:Epoch[13] Train-mse=0.061128INFO:root:Epoch[13] Time cost=0.137INFO:root:Epoch[14] Train-mse=0.061122INFO:root:Epoch[14] Time cost=0.146INFO:root:Epoch[15] Train-mse=0.061116INFO:root:Epoch[15] Time cost=0.135INFO:root:Epoch[16] Train-mse=0.061108INFO:root:Epoch[16] Time cost=0.152INFO:root:Epoch[17] Train-mse=0.061098INFO:root:Epoch[17] Time cost=0.179INFO:root:Epoch[18] Train-mse=0.061086INFO:root:Epoch[18] Time cost=0.160INFO:root:Epoch[19] Train-mse=0.061069INFO:root:Epoch[19] Time cost=0.151INFO:root:Epoch[20] Train-mse=0.061050INFO:root:Epoch[20] Time cost=0.145INFO:root:Epoch[21] Train-mse=0.061024INFO:root:Epoch[21] Time cost=0.164INFO:root:Epoch[22] Train-mse=0.060990INFO:root:Epoch[22] Time cost=0.151INFO:root:Epoch[23] Train-mse=0.060944INFO:root:Epoch[23] Time cost=0.141INFO:root:Epoch[24] Train-mse=0.060881INFO:root:Epoch[24] Time cost=0.136INFO:root:Epoch[25] Train-mse=0.060790INFO:root:Epoch[25] Time cost=0.124INFO:root:Epoch[26] Train-mse=0.060658INFO:root:Epoch[26] Time cost=0.151INFO:root:Epoch[27] Train-mse=0.060455INFO:root:Epoch[27] Time cost=0.166INFO:root:Epoch[28] Train-mse=0.060131INFO:root:Epoch[28] Time cost=0.148INFO:root:Epoch[29] Train-mse=0.059582INFO:root:Epoch[29] Time cost=0.219INFO:root:Epoch[30] Train-mse=0.058581INFO:root:Epoch[30] Time cost=0.160INFO:root:Epoch[31] Train-mse=0.056593INFO:root:Epoch[31] Time cost=0.178INFO:root:Epoch[32] Train-mse=0.052252INFO:root:Epoch[32] Time cost=0.184INFO:root:Epoch[33] Train-mse=0.042274INFO:root:Epoch[33] Time cost=0.168INFO:root:Epoch[34] Train-mse=0.023321INFO:root:Epoch[34] Time cost=0.162INFO:root:Epoch[35] Train-mse=0.005860INFO:root:Epoch[35] Time cost=0.161INFO:root:Epoch[36] Train-mse=0.000848INFO:root:Epoch[36] Time cost=0.164INFO:root:Epoch[37] Train-mse=0.000319INFO:root:Epoch[37] Time cost=0.176INFO:root:Epoch[38] Train-mse=0.000221INFO:root:Epoch[38] Time cost=0.148INFO:root:Epoch[39] Train-mse=0.000163INFO:root:Epoch[39] Time cost=0.199INFO:root:Epoch[40] Train-mse=0.000123INFO:root:Epoch[40] Time cost=0.141INFO:root:Epoch[41] Train-mse=0.000096INFO:root:Epoch[41] Time cost=0.133INFO:root:Epoch[42] Train-mse=0.000078INFO:root:Epoch[42] Time cost=0.144INFO:root:Epoch[43] Train-mse=0.000065INFO:root:Epoch[43] Time cost=0.174INFO:root:Epoch[44] Train-mse=0.000056INFO:root:Epoch[44] Time cost=0.208INFO:root:Epoch[45] Train-mse=0.000050INFO:root:Epoch[45] Time cost=0.152INFO:root:Epoch[46] Train-mse=0.000045INFO:root:Epoch[46] Time cost=0.154INFO:root:Epoch[47] Train-mse=0.000041INFO:root:Epoch[47] Time cost=0.151INFO:root:Epoch[48] Train-mse=0.000039INFO:root:Epoch[48] Time cost=0.177INFO:root:Epoch[49] Train-mse=0.000036INFO:root:Epoch[49] Time cost=0.135

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注