我正在尝试使用包含三个特征X = [x1, x2, x3]的Swiss Roll数据集训练一个网络,用于分类任务。数据集有四个类别,标签分别为1, 2, 3, 4,y向量包含所有数据的标签。
X矩阵中的一行看起来像这样:
-5.2146470e+00 7.0879738e+00 6.7292474e+00
X的形状是(100, 3),y的形状是(100,)。
我想使用径向基函数来训练这个模型。我使用了来自这个StackOverflow回答的自定义RBFLayer(另见这个解释)来构建RBFLayer。我想使用几个Keras的Dense层来构建用于分类的网络。
我尝试过的方法
我首先使用了一个Dense层,然后是自定义的RBFLayer,再加上另外两个Dense层。以下是代码:
model = Sequential()model.add((Dense(100, input_dim=3)))# 单元数量 = 10, gamma = 0.05model.add(RBFLayer(10,0.05))model.add(Dense(15, activation='relu'))model.add(Dense(1, activation='softmax'))
这个模型的准确率为零。我认为模型架构有问题,但无法找出具体问题所在。
此外,我认为最后一层Dense层的单元数量应该与类别数量匹配,在这种情况下是4。但是当我将最后一层的单元数量设置为4时,我得到了以下错误:
ValueError: Shapes (None, 1) and (None, 4) are incompatible
你能帮我解决这个模型架构的问题吗?
回答:
我在练习多类分类时也遇到了同样的问题。我有7个特征,模型需要分类到7个类别。我尝试对标签进行编码,问题得到了解决。
首先从sklearn
导入LabelEncoder
类,并从tensorflow
导入to_categorical
。
from sklearn.preprocessing import LabelEncoderfrom tensorflow.keras.utils import to_categorical
然后,初始化一个LabelEncoder类的对象,并在拟合和训练模型之前转换你的标签。
encoder = LabelEncoder()encoder.fit(y)y = encoder.transform(y)y = to_categorical(y)
请注意,你需要使用np.argmax来获取实际的预测分类。在我的情况下,预测结果存储在名为res的变量中。
res = np.argmax(res, axis=None, out=None)
执行这行代码后,你可以得到实际预测的类别。期待能帮助到你,希望这能解决你的问题。