我在阅读一个同时处理图像和文本序列输入的项目时,想知道为什么在使用Keras的add()函数结合不同神经网络的输出时,我们要在Dense层中采用相同的维度。
Q1:这样做的好处是什么?
Q2:如果我们在add()或merge()中使用非相同维度,会影响模型性能吗?
Q3:我们是否可以将其视为另一个超参数,并调整它以获得模型的最佳拟合?
回答:
Add()
需要相同维度的张量。因此,你不能在不同维度的情况下使用add()操作。
将矩阵(N, A)与矩阵(N, B)相加只有在A == B时才有意义,这里A和B的值大于1。当A或B等于1时,可以应用广播规则。