我是机器学习的新手。我运行了两个相似的机器学习作业,唯一的区别在于 GCP 的 config.yaml 文件中的 scaleTier:
。第一个作业使用了 scaleTier: STANDARD_1
,准确率约为 93%。使用相同的 Tensorflow 记录,将 scaleTier 调整为 scaleTier: PREMIUM_1
后,准确率下降到约 50%。增加机器学习训练单元的数量会降低模型的准确性吗?
关于这个问题有两个疑问:为什么准确率显著下降,以及有哪些解决方法?
回答:
通常,在进行分布式训练时,您应该使用较小的批量大小。您可以尝试将批量大小减少到标准批量大小的 1/8 吗?您需要将步骤数增加 8 倍,以确保您遍历数据集的次数相同。