我想弄清楚tf.data.Dataset.batch如何与我的数据集一起工作。我的数据集如下所示:
dataset = tf.convert_to_tensor([[5.1, 3.3, 1.7, 0.5,],[5.9, 3.0, 4.2, 1.5],[6.9, 3.1, 5.4, 2.1],[2.3, 1.3, 6.4, 9.3]])
然后我使用batch方法:
dataset = dataset.batch(2)
并迭代数据集一次。
x = tfe.Iterator(dataset).next()
正如我所料,结果应该是一个2*4的数组,但它返回了整个4*4的数据集。
谁能详细解释一下如何应用batch
方法?
回答:
你需要将你的dataset
Tensor
转换为TensorSliceDataset
,也就是告诉Tensorflow切片这个张量并创建一个数据集。
import tensorflow as tfdata = tf.convert_to_tensor([[5.1, 3.3, 1.7, 0.5], [5.9, 3.0, 4.2, 1.5], [6.9, 3.1, 5.4, 2.1], [2.3, 1.3, 6.4, 9.3]])dataset = tf.data.Dataset.from_tensor_slices(data).batch(2)batch_iterator = dataset.make_one_shot_iterator().get_next()sess = tf.InteractiveSession()batch = sess.run(batch_iterator)print(batch)# [[ 5.1 3.3 1.7 0.5 ]# [ 5.9 3. 4.2 1.5 ]]