TensorFlow 2.x：无法以h5格式保存训练模型（OSError: Unable to create link (name already exists)）

我的模型使用预处理数据来预测客户是私人客户还是非私人客户。预处理步骤包括使用如feature_column.bucketized_column(…), feature_column.embedding_column(…)等操作。训练完成后，我尝试保存模型，但遇到了以下错误：

File “h5py_objects.pyx”, line 54, in h5py._objects.with_phil.wrapper
File “h5py_objects.pyx”, line 55, in h5py._objects.with_phil.wrapper
File “h5py\h5o.pyx”, line 202, in h5py.h5o.link
OSError: Unable to create link (name already exists)

我尝试了以下方法来解决这个问题：

我尝试了排除优化器，如这里提到的：https://github.com/tensorflow/tensorflow/issues/27688。
我尝试了不同版本的TensorFlow，如2.2和2.3。
我尝试了重新安装h5py，如这里提到的：RuntimeError: Unable to create link (name already exists) when I append hdf5 file?。

但这些方法都没有成功！

以下是模型的相关代码：

(feature_columns, train_ds, val_ds, test_ds) = preprocessing.getPreProcessedDatasets(args.data, args.zip, args.batchSize)feature_layer = tf.keras.layers.DenseFeatures(feature_columns, trainable=False)model = tf.keras.models.Sequential([        feature_layer,        tf.keras.layers.Dense(1, activation=tf.nn.sigmoid)    ])model.compile(optimizer='sgd',        loss='binary_crossentropy',        metrics=['accuracy'])paramString = "Arg-e{}-b{}-z{}".format(args.epoch, args.batchSize, bucketSizeGEO)...model.fit(train_ds,              validation_data=val_ds,              epochs=args.epoch,              callbacks=[tensorboard_callback])model.summary()loss, accuracy = model.evaluate(test_ds)print("Accuracy", accuracy)paramString = paramString + "-a{:.4f}".format(accuracy)outputName = "logReg" + datetime.datetime.now().strftime("%Y%m%d-%H%M%S") + paramStrinif args.saveModel:       filepath = "./saved_models/" + outputName + ".h5"       model.save(filepath, save_format='h5')

在预处理模块中调用的函数：

def getPreProcessedDatasets(filepath, zippath, batch_size, bucketSizeGEO):    print("start preprocessing...")    path = filepath    data = pd.read_csv(path, dtype={    "NAME1": np.str_,     "NAME2": np.str_,     "EMAIL1": np.str_,     "ZIP": np.str_,     "STREET": np.str_,     "LONGITUDE":np.floating,     "LATITUDE": np.floating,     "RECEIVERTYPE": np.int64})     feature_columns = []    data = data.fillna("NaN")    data = __preProcessName(data)    data = __preProcessStreet(data)        train, test = train_test_split(data, test_size=0.2, random_state=0)    train, val = train_test_split(train, test_size=0.2, random_state=0)    train_ds = __df_to_dataset(train, batch_size=batch_size)    val_ds = __df_to_dataset(val, shuffle=False, batch_size=batch_size)    test_ds = __df_to_dataset(test, shuffle=False, batch_size=batch_size)    __buildFeatureColums(feature_columns, data, zippath, bucketSizeGEO, True)    print("preprocessing completed")    return (feature_columns, train_ds, val_ds, test_ds)

调用不同特征的预处理函数：

def __buildFeatureColums(feature_columns, data, zippath, bucketSizeGEO, addCrossedFeatures):        feature_columns.append(__getFutureColumnLon(bucketSizeGEO))    feature_columns.append(__getFutureColumnLat(bucketSizeGEO))        (namew1_one_hot, namew2_one_hot) = __getFutureColumnsName(__getNumberOfWords(data, 'NAME1PRO'))    feature_columns.append(namew1_one_hot)    feature_columns.append(namew2_one_hot)        feature_columns.append(__getFutureColumnStreet(__getNumberOfWords(data, 'STREETPRO')))        feature_columns.append(__getFutureColumnZIP(2223, zippath))        if addCrossedFeatures:        feature_columns.append(__getFutureColumnCrossedNames(100))        feature_columns.append(__getFutureColumnCrossedZIPStreet(100, 2223, zippath))

与嵌入相关的函数：

def __getFutureColumnsName(name_num_words):    vocabulary_list = np.arange(0, name_num_words + 1, 1).tolist()    namew1_voc = tf.feature_column.categorical_column_with_vocabulary_list(        key='NAME1W1', vocabulary_list=vocabulary_list, dtype=tf.dtypes.int64)    namew2_voc = tf.feature_column.categorical_column_with_vocabulary_list(        key='NAME1W2', vocabulary_list=vocabulary_list, dtype=tf.dtypes.int64)    dim = __getNumberOfDimensions(name_num_words)    namew1_embedding = feature_column.embedding_column(namew1_voc, dimension=dim)    namew2_embedding = feature_column.embedding_column(namew2_voc, dimension=dim)    return (namew1_embedding, namew2_embedding)

def __getFutureColumnStreet(street_num_words):    vocabulary_list = np.arange(0, street_num_words + 1, 1).tolist()    street_voc = tf.feature_column.categorical_column_with_vocabulary_list(        key='STREETW', vocabulary_list=vocabulary_list, dtype=tf.dtypes.int64)    dim = __getNumberOfDimensions(street_num_words)    street_embedding = feature_column.embedding_column(street_voc, dimension=dim)    return street_embedding

def __getFutureColumnZIP(zip_num_words, zippath):    zip_voc = feature_column.categorical_column_with_vocabulary_file(    key='ZIP', vocabulary_file=zippath, vocabulary_size=zip_num_words,    default_value=0)    dim = __getNumberOfDimensions(zip_num_words)    zip_embedding = feature_column.embedding_column(zip_voc, dimension=dim)    return zip_embedding

回答：

在以h5格式保存模型时出现的错误OSError: Unable to create link (name already exists)是由一些重复的变量名称引起的。通过for i, w in enumerate(model.weights): print(i, w.name)检查发现，它们是嵌入权重的名称。

通常，在构建feature_column时，传递给每个特征列的不同key将用于构建不同的变量name。这在TF 2.1中正常工作，但在TF 2.2和2.3中出现问题，据说在TF 2.4夜间版本中已修复。

学技术

TensorFlow 2.x：无法以h5格式保存训练模型（OSError: Unable to create link (name already exists)）

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复