前馈神经网络 – Keras

对于我在Keras中实现的前馈神经网络的输入，我想确认一下我的理解是否正确。

[[ 25.26000023  26.37000084  24.67000008  23.30999947][ 26.37000084  24.67000008  23.30999947  21.36000061][ 24.67000008  23.30999947  21.36000061  19.77000046]...]

在上面的数据中，它是一个包含4个输入的时间窗口。我的输入层是

model.add(Dense(4, input_dim=4, activation='sigmoid')) model.fit(trainX, trainY, nb_epoch=10000,verbose=2,batch_size=4)

批量大小是4，理论上当我调用fit函数时，每个nb_epoch函数会遍历所有这些输入吗？并且为了使这个时间窗口工作，批量大小必须是4吗？

谢谢@***

回答：

批量大小是4，理论上当我调用fit函数时，每个nb_epoch函数会遍历所有这些输入吗？

是的，每个epoch是对所有训练样本的迭代

为了使这个时间窗口工作，批量大小必须是4吗？

不，这些是完全不相关的事情。批量只是你训练数据的一个子集，用来计算成本函数真实梯度的近似。批量越大，你就越接近真实梯度（和原始的梯度下降），但训练速度会变慢。批量大小越接近1，它就变得越来越随机，噪声近似（和接近随机梯度下降）。你将批量大小和数据维度匹配只是一个奇怪的巧合，没有任何意义。

让我用更一般的设置来说明，在使用加性损失函数的梯度下降中（神经网络通常使用这种方法），你所做的是逆着梯度前进，这个梯度是

grad_theta 1/N SUM_i=1^N loss(x_i, pred(x_i), y_i|theta) =   = 1/N SUM_i=1^N grad_theta loss(x_i, pred(x_i), y_i|theta)

其中loss是基于你的pred（预测）与y_i（真实值）比较的某个损失函数。

在基于批量的场景中（粗略的想法），你不需要遍历所有示例，而是使用某个严格的子集，比如batch = {(x_1, y_1), (x_5, y_5), (x_89, y_89) ... }，并使用形式的梯度近似

1/|batch| SUM_(x_i, y_i) in batch: grad_theta loss(x_i, pred(x_i), y_i|theta)

如你所见，这与x_i所在的空间没有任何关系，因此与你的数据维度没有联系。

学技术

前馈神经网络 – Keras

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复