使用Keras进行对象定位 | 预测整张图像

我目前正在尝试使用一个简单的卷积神经网络来预测图像中对象的位置,但给出的预测总是整张图像。

  • 数据集是斯坦福汽车数据集,包含大约8144张汽车图片。

  • 我不是要预测这是哪种类型的汽车,只预测它的位置

  • 特征是200×200的灰度图像,缩放到[0,1]之间

  • 标签是LeftX,TopY,Width,Height。同样缩放到[0,1]之间

这是模型:

model = Sequential()model.add(Conv2D(64,(3,3),input_shape = (200,200,1)))model.add(Activation("relu"))model.add(MaxPooling2D(pool_size=2))model.add(Conv2D(64,(3,3)))model.add(Activation("relu"))model.add(MaxPooling2D(pool_size=2))model.add(Flatten())model.add(Dense(4))model.add(Activation("sigmoid"))model.compile(loss="mean_squared_error",optimizer="Adam",metrics=[])model.fit(X,y,batch_size=32, validation_split=0,epochs=30,verbose=2)

模型的预测基本上总是: [0,0,1,1]。


回答:

你可以尝试这个,我使用了预训练的Xception网络作为特征提取器。你可以尝试使用其他ImageNet模型,如Inception, ResNet50等。tf.keras.applications提供了很多预训练的卷积网络。使用预训练网络可以帮助你在数据较少的情况下获得良好的结果。更多关于迁移学习的信息

from tensorflow.python.keras.layers import GlobalAveragePooling2D, Dense, Inputfrom tensorflow.python.keras.applications.xception import Xception  inp = Input(shape=(299, 299, 3))base_model = Xception(include_top=False, input_tensor=inp, weights='imagenet')y = base_model.layers[-1].outputy = GlobalAveragePooling2D()(y)y = Dense(4, activation='sigmoid')(y)model = Model(inputs=inp, outputs=y)

输出形状为[None, 4],意味着每个标签包含4个数字

  • x – 边界框中心的x坐标
  • y – 边界框中心的y坐标
  • w – 边界框的宽度
  • h – 边界框的高度

标签被重新缩放到0到1之间。(相对于图像尺寸进行重新缩放)

图像的样本边界框标签cat

[0.48, 0.4 , 0.58, 0.37]

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注