你好,我在尝试运行我的模型时遇到了一个错误
- 我使用的是tf2.1,并且由于一些原因,我为我的模型创建了一个类
- 我的模型有两个输出层,分别称为advantage和value,因为我在制作一个对决深度Q网络。
这是我的__init__
方法 –
class model(Model): def __init__(self): super(model, self).__init__() self.lr = 0.01 self.conv1 = Conv2D(filters=32, input_shape=(210, 160, 1), kernel_size=(3, 3), strides=1, padding='same', activation='elu')#(self.inp) self.conv2 = Conv2D(filters=32, kernel_size=(3, 3), strides=1, padding='same', activation='elu')#(self.conv1) self.mp2 = MaxPool2D(pool_size=(3, 3), strides=1, padding='same')#(self.conv2) self.conv3 = Conv2D(filters=64, kernel_size=(3, 3), strides=1, padding='same', activation='elu')#(self.mp2) self.mp3 = MaxPool2D(pool_size=(3, 3), strides=1, padding='same')#(self.conv3) self.conv4 = Conv2D(filters=64, kernel_size=(3, 3), strides=1, padding='same', activation='elu')#(self.mp3) self.mp4 = MaxPool2D(pool_size=(3, 3), strides=1, padding='same')#(self.conv4) self.flat = Flatten() #(self.mp6) self.value = Dense(1, activation=None)#(self.flat) # 特定状态的价值如何 self.advantage = Dense(env.action_space.n, activation=None)#(self.flat) # 最佳动作是什么 self.compile(optimizer=Adam(lr=self.lr), loss='mse', metrics=['accuracy'])
然后我有一个名为predict_advantage
的函数,在这里我遇到了错误 –
def predict_advantage(self, state): state = tf.cast(cv2.cvtColor(state, cv2.COLOR_RGB2GRAY), tf.float32) #x = self.inp(state) x = self.conv1(x) x=self.conv2(x) x=self.mp2(x) x=self.conv3(x) x=self.mp3(x) x=self.conv4(x) x=self.mp4(x) x = self.flat(x) # value = self.value(x) x = self.advantage(x) return x
- 如你所见,我使用
tf.cast
来转换数据类型为float32,因为大多数帖子都说这是解决错误的唯一方法 – 然而,我在使用这个方法之前得到了同样的错误 –
tensorflow.python.framework.errors_impl.NotFoundError: 无法为节点找到有效设备。节点:{{node MatMul}}
顺便说一下,它还打印了一些特定层或所有层的设备和数据类型。我不知道它做了什么,但这里是它的输出 –
所有已注册的MatMul操作的内核 : device='GPU'; T in [DT_FLOAT] device='GPU'; T in [DT_DOUBLE] device='GPU'; T in [DT_COMPLEX64] device='GPU'; T in [DT_COMPLEX128] device='GPU'; T in [DT_HALF] device='CPU'; label='eigen'; T in [DT_FLOAT] device='CPU'; label='eigen'; T in [DT_DOUBLE] .......... .......... .......... device='CPU'; T in [DT_COMPLEX64] device='CPU'; T in [DT_COMPLEX128] device='GPU'; label='cublas'; T in [DT_FLOAT] device='GPU'; label='cublas'; T in [DT_DOUBLE] device='GPU'; label='cublas'; T in [DT_COMPLEX64] device='GPU'; label='cublas'; T in [DT_COMPLEX128] device='GPU'; label='cublas'; T in [DT_HALF] [Op:MatMul] name: dense_1/Tensordot/MatMul/
- 我们可以看到这里有一些参数在GPU上,一些参数在CPU上。 为什么会这样呢?
- 此外,参数的数据类型不同。我不确定它们是否可以不同,或者它们不应该不同。
据我所知,我认为错误是因为GPU上的东西无法与CPU上的东西交互。那么为什么它要把我的参数放在不同的设备上呢?
编辑:
这是完整代码的链接 – https://pastebin.com/sd8L2xAM这是我得到的完整错误,如果你想知道它发生在哪一行 – https://pastebin.com/C9Dy5NxL
回答:
看起来这个错误是一个类型不匹配的通用错误。
在下面的函数中,问题是你传递的状态类型是一个NumPy数组,这导致了类型不匹配。因为self.model.advantage是一个密集层,因此,将状态从NumPy数组转换为Tensor将解决类型问题。
def choose_action(self, state): if np.random.random() < self.epsilon: action = np.random.choice(env.action_space.n) else: # 我们利用 print(type(state)) ##nd 数组类型不匹配 state = tf.cast(state, dtype=tf.float32) ## 将状态转换为张量 actions = self.model.advantage(state) action = np.argmax(actions, axis=1) return action