我有一个关于数据挖掘的问题。我有一个包含74个实例的数据集,这些实例属于4个类。由于每个类的数量不足以使用某些分类器(如svm、rna、knn)获得良好的准确率,我需要对每个类的实例进行“过采样”。
我听说有一种方法可以做到这一点。该方法通过以下方式生成新实例:
new_instance <---- original_instance + u(epsilon)
但我对此方法了解不多。
有没有人使用过这种方法来对数据进行“过采样”?
回答:
我从未使用过这种过采样方法,但我认为你可以在这个论文中找到有用的指导。
该论文描述了几种过采样和欠采样的方法。应该能帮助你找到适合你情况的更合适的方法。