咖啡需要数据被打乱吗？

我使用C++将图像数据转换为caffe的数据库格式（leveldb, lmdb），例如我使用这个代码来处理imagenet数据。

数据是否需要被打乱？我可以先将所有正样本写入数据库，然后再写入所有负样本，像00000000111111111这样，还是数据需要被打乱，标签看起来像010101010110101011010这样？

caffe如何从数据库中抽取数据？它是否真的使用大小为batch_size的随机子集来抽取数据？

回答：

是否应该打乱样本？ 如果不打乱样本，考虑一下学习过程；caffe只会看到0样本 – 你期望算法推断出什么？只需一直预测0，一切都很好。如果在遇到第一个1之前有大量的0，caffe将非常自信地一直预测0。从这个点上移动模型将非常困难。
另一方面，如果它不断看到0和1的混合，它从一开始就学习到用于区分样本的有意义特征。
结论：打乱训练样本是非常有利的，特别是在使用基于SGD的方法时。

据我所知，caffe并不是随机抽取batch_size个样本，而是按顺序遍历输入数据库，每次batch_size个样本接batch_size个样本。

TL;DR
打乱样本。

学技术

咖啡需要数据被打乱吗？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复