我在我的论文项目中使用随机森林算法作为分类器。训练集包含数千张图像,每张图像大约有2000个像素被采样。对于每个像素,我有数十万个特征。受限于当前的硬件条件(8G内存,可能扩展到16G),我只能将一个图像的样本(即每个像素的特征)装入内存。我的问题是:是否可以多次调用训练方法,每次使用不同图像的样本,并在每次调用时自动更新统计模型?我特别关注变量重要性,因为在用完整的特征集训练完整个训练集后,我的想法是将特征数量从数十万减少到大约2000个,只保留最重要的特征。
感谢您的任何建议,Daniele
回答:
我认为该算法不支持增量训练。你可以在训练前考虑使用其他特征减少方法来缩小描述符的尺寸。或者,你可以从所有训练图像中随机选择一部分像素来估计变量重要性,尽可能多地装入你的内存…