我正在使用一个卷积神经网络来对猫和狗进行分类,该网络对两个类别只有一个输出。我需要使用K折交叉验证来找出哪组宠物品种能提供最佳的验证准确率。最接近我问题的答案在这个问题中:在Keras中使用K折交叉验证,但显然它没有使用原始的网络模型,并且不适用于不同品种的宠物组。
在第1、2和3组内,我有两个名为Pets的文件夹,每个Pets文件夹内有两个文件夹作为我的类别:Cats和Dogs。例如:
Group 1/ Pets 1/ cats/ breeds_1_cats001.jpeg breeds_1_cats002.jpeg dogs/ breeds_1_dogs001.jpeg breeds_1_dogs002.jpeg Pets 2/ cats/ breeds_2_cats001.jpeg breeds_2_cats002.jpeg dogs/ breeds_2_dogs001.jpeg breeds_2_dogs002.jpegGroup 2/ Pets 1/ cats/ breeds_3_cats001.jpeg breeds_3_cats002.jpeg dogs/ breeds_3_dogs001.jpeg breeds_3_dogs002.jpeg Pets 2/ cats/ breeds_4_cats001.jpeg breeds_4_cats002.jpeg dogs/ breeds_4_dogs001.jpeg breeds_4_dogs002.jpegGroup 3/ Pets 1/ cats/ breeds_5_cats001.jpeg breeds_5_cats002.jpeg dogs/ breeds_5_dogs001.jpeg breeds_5_dogs002.jpeg Pets 2/ cats/ breeds_6_cats001.jpeg breeds_6_cats002.jpeg dogs/ breeds_6_dogs001.jpeg breeds_6_dogs002.jpeg
我想做的是使用K折交叉验证,并将我的组作为索引。
例如:使用第1组和第2组作为训练集,第3组作为验证集。然后,使用第1组和第3组作为训练集,第2组作为验证集,最后使用第2组和第3组作为训练集,第1组作为验证集。
我已经分离了一个虚拟的数据集来帮助解释我的目标。
我的问题是我不知道如何对嵌套文件夹内的多个组使用K折交叉验证,这些文件夹包含二分类,我使用数据生成器进行训练和测试,并输出二分类结果。我需要在不修改数据增强或破坏我的层的条件下,对我的卷积神经网络使用K折交叉验证,以找到最佳的验证准确率并保存它们的权重,以下是我的神经网络:
from keras.preprocessing.image import ImageDataGenerator from keras.models import Sequential from keras.layers import Conv2D, MaxPooling2D from keras.layers import Activation, Dropout, Flatten, Dense from keras import backend as K import numpy as np from keras.preprocessing import image img_width, img_height = 128, 160 train_data_dir = '../input/pets/pets train' validation_data_dir = '../input/pets/pets testing' nb_train_samples = 4850 nb_validation_Samples = 3000 epochs = 100 batch_size = 16 if K.image_data_format() == 'channels_first': input_shape = (3, img_width, img_height) else: input_shape = (img_width, img_height, 3) train_datagen = ImageDataGenerator( zoom_range=0.2, rotation_range=40, horizontal_flip=True, ) test_datagen = ImageDataGenerator(rescale=1./255) train_generator = train_datagen.flow_from_directory( train_data_dir, target_size=(img_width, img_height), batch_size=batch_size, class_mode='binary') validation_generator = test_datagen.flow_from_directory( validation_data_dir, target_size=(img_width, img_height), batch_size=batch_size, class_mode="binary")model = Sequential()model.add(Conv2D(32, (3, 3), input_shape=input_shape))model.add(Activation('relu'))model.add(MaxPooling2D(pool_size=(2, 2)))model.add(Conv2D(64, (3, 3)))model.add(Activation('relu'))model.add(MaxPooling2D(pool_size=(2, 2)))model.add(Flatten())model.add(Dropout(0.25))model.add(Dense(64))model.add(Dropout(0.5))model.add(Dense(1))model.add(Activation('sigmoid'))model.summary()model.compile(loss='binary_crossentropy', optimizer='rmsprop', metrics=['mse','accuracy'])model.fit_generator( train_generator, steps_per_epoch=nb_train_samples // batch_size, epochs=epochs, validation_data = validation_generator, validation_steps = nb_validation_Samples // batch_size)model.save_weights('pets-weights.npy')
回答:
您将无法使用ImageDataGenerator
,因为根据文档,cross_val_score期望一个形状为(n_samples, features)
的数组。
您可以做的就是将图片加载到内存中,并创建一个自定义的CV分割器。我的文件夹结构如下:
group1/ cats/ breeds_5_cats001.jpeg breeds_5_cats002.jpeg dogs/ breeds_4_dogs001.jpeg breeds_4_dogs002.jpeggroup2/ cats/ breeds_5_cats001.jpeg breeds_5_cats002.jpeg dogs/ breeds_4_dogs001.jpeg breeds_4_dogs002.jpeggroup3/ cats/ breeds_5_cats001.jpeg breeds_5_cats002.jpeg dogs/ breeds_4_dogs001.jpeg breeds_4_dogs002.jpeg
我从获取文件名并对它们进行分组开始。由于我的目录结构略有不同,您需要稍微更改glob模式。所有需要做的就是获取所有图片,无论顺序如何。
from tensorflow.keras.wrappers.scikit_learn import KerasClassifierfrom sklearn.model_selection import cross_val_scoreimport numpy as npfrom tensorflow.keras.layers import *from tensorflow.keras import Sequentialimport osfrom glob2 import globfrom itertools import groupbyfrom itertools import accumulateimport cv2os.environ['CUDA_VISIBLE_DEVICES'] = '-1'import tensorflow as tftf.config.experimental.list_physical_devices('GPU')os.chdir('c:/users/nicol/documents/datasets/catsanddogs')filenames = glob('*/*/*.jpg')groups = [list(v) for k, v in groupby(sorted(filenames), key=lambda x: x.split(os.sep)[0])]lengths = [0] + list(accumulate(map(len, groups)))groups = [i for s in groups for i in s]
['group1\\cats\\cat.4001.jpg', 'group1\\cats\\cat.4002.jpg', 'group1\\cats\\cat.4003.jpg', 'group1\\cats\\cat.4004.jpg', 'group1\\cats\\cat.4005.jpg', 'group1\\cats\\cat.4006.jpg', 'group1\\cats\\cat.4007.jpg', 'group1\\cats\\cat.4008.jpg', 'group1\\cats\\cat.4009.jpg', 'group1\\cats\\cat.4010.jpg']
然后我将所有图片加载到一个数组中,并为类别创建一个0和1的数组。您需要根据您的目录结构进行自定义。
images = list()for image in filenames: array = cv2.imread(image)/255 resized = cv2.resize(array, (32, 32)) images.append(resized)X = np.array(images).astype(np.float32)y = np.array(list(map(lambda x: x.split(os.sep)[1] == 'cats', groups))).astype(int)
然后我构建了一个KerasClassifier
:
def build_model(): model = Sequential() model.add(Conv2D(32, (3, 3), input_shape=(32, 32, 3))) model.add(Activation('relu')) model.add(MaxPooling2D(pool_size=(2, 2))) model.add(Flatten()) model.add(Dropout(0.25)) model.add(Dense(64)) model.add(Dropout(0.5)) model.add(Dense(1)) model.add(Activation('sigmoid')) model.summary() model.compile(loss='binary_crossentropy', optimizer='rmsprop', metrics=['mse', 'accuracy']) return modelkeras_clf = KerasClassifier(build_fn=build_model, epochs=1, batch_size=16, verbose=0)
然后我创建了一个自定义的CV分割器,如这里所解释的:
def three_fold_cv(): i = 1 while i <= 3: min_length = lengths[i - 1] max_length = lengths[i] idx = np.arange(min_length, max_length, dtype=int) yield idx, idx i += 1
然后我实例化了自定义的CV分割器并运行训练:
tfc = three_fold_cv()accuracies = cross_val_score(estimator=keras_clf, scoring="accuracy", X=X, y=y, cv=tfc)print(accuracies)
输出:
[0.648 0.666 0.73 ]