使用包含N x M矩阵的hdf5文件作为Keras机器学习的输入

我需要关于进行机器学习的输入方面的帮助/意见。

我有一个hdf5文件

combined.h5

该文件包含多个数据集,每个数据集包含一个4 x 125的矩阵(4行和125列)

我一直在寻找如何将包含矩阵的hdf5文件作为机器学习的输入,但没有找到任何足够好的答案/示例供我参考。下面是我的修改后的脚本

import numpy as np
import h5py
from keras.models import Sequential
from keras.layers import Dense
seed = 7
np.random.seed(seed)
dataset = h5py.File('combined.h5', 'r') #包含5个数据集
X = dataset #输入
Y = ["A","CFL","SS","G","FF"] #输出
model = Sequential()
model.add(Dense(125, input_dim=125, init='normal', activation='relu'))
model.add(Dense(5, init='uniform', activation='sigmoid'))
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
model.fit(X, Y, nb_epoch=150, batch_size=10)
scores = model.evaluate(X, Y)
print("%s: %.2f%%" % (model.metrics_names[1], scores[1]*100))

我运行了这个脚本,得到如下错误

TypeError: Error when checking model input: data should be a Numpy array, or list/dict of Numpy arrays. Found: <HDF5 file "combined.h5" (mode r)>...

我的问题是如何加载包含矩阵形式数据集的hdf5文件作为机器学习的输入数据?

*附加问题,我想为每个数据集链接输出。例如,数据集1的输出数据为”A”,数据集2的输出数据为”CFL”,依此类推…是否有适当的方法来做这件事,还是我写的脚本已经足够了?

感谢您的帮助。


回答:

这应该适用于每个命名的数据集:

X = dataset['dataset_name'][:] #输入

要找出数据集的名称,您可以使用以下脚本:

for key in dataset.keys():
    print key

这里您将完整的数据集从文件中取出。如果您不切片数据集,您只会得到指向h5py数据集对象的指针。使用切片操作符,您可以提取numpy数组。(http://docs.h5py.org/en/latest/high/dataset.html#reading-writing-data)

您只需想象您的hdf5文件就像一个文件夹结构,您需要遍历文件夹结构以获取数据。然后,您可以使用切片来加载数据。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注