train()方法允许选择CV_ROW_SAMPLE或CV_COL_SAMPLE来确定特征在训练数据中的存储方式。在训练模型时,使用其中一种方式是否有优势?
回答:
我使用CvBoost::train()进行了一些基准测试,结果显示,在特征/样本数量较少(每个少于1k)时,使用CV_COL_SAMPLE至少快25%,而在使用更多特征/样本时,最多可快60%。
因此,尽管我觉得这种方式不太直观,但使用CV_COL_SAMPLE可以在更短的时间内获得等效的模型。对于其他机器学习算法,情况可能会有所不同。