在Keras中对二分类问题使用单输出进行K折交叉验证

我正在使用一个卷积神经网络来对猫和狗进行分类,该网络对两个类别只有一个输出。我需要使用K折交叉验证来找出哪组宠物品种能提供最佳的验证准确率。最接近我问题的答案在这个问题中:在Keras中使用K折交叉验证,但显然它没有使用原始的网络模型,并且不适用于不同品种的宠物组。

在第1、2和3组内,我有两个名为Pets的文件夹,每个Pets文件夹内有两个文件夹作为我的类别:Cats和Dogs。例如:

Group 1/       Pets 1/          cats/            breeds_1_cats001.jpeg            breeds_1_cats002.jpeg                dogs/            breeds_1_dogs001.jpeg            breeds_1_dogs002.jpeg      Pets 2/          cats/            breeds_2_cats001.jpeg            breeds_2_cats002.jpeg               dogs/            breeds_2_dogs001.jpeg            breeds_2_dogs002.jpegGroup 2/      Pets 1/          cats/            breeds_3_cats001.jpeg            breeds_3_cats002.jpeg                     dogs/            breeds_3_dogs001.jpeg            breeds_3_dogs002.jpeg      Pets 2/          cats/            breeds_4_cats001.jpeg            breeds_4_cats002.jpeg                      dogs/            breeds_4_dogs001.jpeg            breeds_4_dogs002.jpegGroup 3/       Pets 1/          cats/            breeds_5_cats001.jpeg            breeds_5_cats002.jpeg                     dogs/            breeds_5_dogs001.jpeg            breeds_5_dogs002.jpeg      Pets 2/          cats/            breeds_6_cats001.jpeg            breeds_6_cats002.jpeg                     dogs/            breeds_6_dogs001.jpeg            breeds_6_dogs002.jpeg                  

我想做的是使用K折交叉验证,并将我的组作为索引。

例如:使用第1组和第2组作为训练集,第3组作为验证集。然后,使用第1组和第3组作为训练集,第2组作为验证集,最后使用第2组和第3组作为训练集,第1组作为验证集。

我已经分离了一个虚拟的数据集来帮助解释我的目标。

我的问题是我不知道如何对嵌套文件夹内的多个组使用K折交叉验证,这些文件夹包含二分类,我使用数据生成器进行训练和测试,并输出二分类结果。我需要在不修改数据增强或破坏我的层的条件下,对我的卷积神经网络使用K折交叉验证,以找到最佳的验证准确率并保存它们的权重,以下是我的神经网络:

        from keras.preprocessing.image import ImageDataGenerator        from keras.models import Sequential        from keras.layers import Conv2D, MaxPooling2D        from keras.layers import Activation, Dropout, Flatten, Dense        from keras import backend as K        import numpy as np        from keras.preprocessing import image        img_width, img_height = 128, 160            train_data_dir = '../input/pets/pets train'    validation_data_dir = '../input/pets/pets testing'    nb_train_samples = 4850     nb_validation_Samples = 3000     epochs = 100    batch_size = 16            if K.image_data_format() == 'channels_first':       input_shape = (3, img_width, img_height)    else:       input_shape = (img_width, img_height, 3)        train_datagen = ImageDataGenerator(        zoom_range=0.2,        rotation_range=40,       horizontal_flip=True,    )        test_datagen = ImageDataGenerator(rescale=1./255)            train_generator = train_datagen.flow_from_directory(           train_data_dir,           target_size=(img_width, img_height),           batch_size=batch_size,           class_mode='binary')            validation_generator = test_datagen.flow_from_directory(            validation_data_dir,            target_size=(img_width, img_height),            batch_size=batch_size,            class_mode="binary")model = Sequential()model.add(Conv2D(32, (3, 3), input_shape=input_shape))model.add(Activation('relu'))model.add(MaxPooling2D(pool_size=(2, 2)))model.add(Conv2D(64, (3, 3)))model.add(Activation('relu'))model.add(MaxPooling2D(pool_size=(2, 2)))model.add(Flatten())model.add(Dropout(0.25))model.add(Dense(64))model.add(Dropout(0.5))model.add(Dense(1))model.add(Activation('sigmoid'))model.summary()model.compile(loss='binary_crossentropy',              optimizer='rmsprop',              metrics=['mse','accuracy'])model.fit_generator(    train_generator,    steps_per_epoch=nb_train_samples // batch_size,    epochs=epochs,    validation_data = validation_generator,    validation_steps = nb_validation_Samples // batch_size)model.save_weights('pets-weights.npy')

回答:

您将无法使用ImageDataGenerator,因为根据文档,cross_val_score期望一个形状为(n_samples, features)的数组。

您可以做的就是将图片加载到内存中,并创建一个自定义的CV分割器。我的文件夹结构如下:

group1/    cats/        breeds_5_cats001.jpeg        breeds_5_cats002.jpeg    dogs/        breeds_4_dogs001.jpeg        breeds_4_dogs002.jpeggroup2/    cats/        breeds_5_cats001.jpeg        breeds_5_cats002.jpeg    dogs/        breeds_4_dogs001.jpeg        breeds_4_dogs002.jpeggroup3/    cats/        breeds_5_cats001.jpeg        breeds_5_cats002.jpeg    dogs/        breeds_4_dogs001.jpeg        breeds_4_dogs002.jpeg

我从获取文件名并对它们进行分组开始。由于我的目录结构略有不同,您需要稍微更改glob模式。所有需要做的就是获取所有图片,无论顺序如何。

from tensorflow.keras.wrappers.scikit_learn import KerasClassifierfrom sklearn.model_selection import cross_val_scoreimport numpy as npfrom tensorflow.keras.layers import *from tensorflow.keras import Sequentialimport osfrom glob2 import globfrom itertools import groupbyfrom itertools import accumulateimport cv2os.environ['CUDA_VISIBLE_DEVICES'] = '-1'import tensorflow as tftf.config.experimental.list_physical_devices('GPU')os.chdir('c:/users/nicol/documents/datasets/catsanddogs')filenames = glob('*/*/*.jpg')groups = [list(v) for k, v in groupby(sorted(filenames), key=lambda x: x.split(os.sep)[0])]lengths = [0] + list(accumulate(map(len, groups)))groups = [i for s in groups for i in s]
['group1\\cats\\cat.4001.jpg', 'group1\\cats\\cat.4002.jpg', 'group1\\cats\\cat.4003.jpg', 'group1\\cats\\cat.4004.jpg', 'group1\\cats\\cat.4005.jpg', 'group1\\cats\\cat.4006.jpg', 'group1\\cats\\cat.4007.jpg', 'group1\\cats\\cat.4008.jpg', 'group1\\cats\\cat.4009.jpg', 'group1\\cats\\cat.4010.jpg']

然后我将所有图片加载到一个数组中,并为类别创建一个0和1的数组。您需要根据您的目录结构进行自定义。

images = list()for image in filenames:    array = cv2.imread(image)/255    resized = cv2.resize(array, (32, 32))    images.append(resized)X = np.array(images).astype(np.float32)y = np.array(list(map(lambda x: x.split(os.sep)[1] == 'cats', groups))).astype(int)

然后我构建了一个KerasClassifier

def build_model():    model = Sequential()    model.add(Conv2D(32, (3, 3), input_shape=(32, 32, 3)))    model.add(Activation('relu'))    model.add(MaxPooling2D(pool_size=(2, 2)))    model.add(Flatten())    model.add(Dropout(0.25))    model.add(Dense(64))    model.add(Dropout(0.5))    model.add(Dense(1))    model.add(Activation('sigmoid'))    model.summary()    model.compile(loss='binary_crossentropy',                  optimizer='rmsprop',                  metrics=['mse', 'accuracy'])    return modelkeras_clf = KerasClassifier(build_fn=build_model, epochs=1, batch_size=16, verbose=0)

然后我创建了一个自定义的CV分割器,如这里所解释的:

def three_fold_cv():    i = 1    while i <= 3:        min_length = lengths[i - 1]        max_length = lengths[i]        idx = np.arange(min_length, max_length, dtype=int)        yield idx, idx        i += 1

然后我实例化了自定义的CV分割器并运行训练:

tfc = three_fold_cv()accuracies = cross_val_score(estimator=keras_clf, scoring="accuracy", X=X, y=y, cv=tfc)print(accuracies)

输出:

[0.648 0.666 0.73 ]

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注