我想知道在孤立森林、椭圆包络和局部异常因子(LOF)中可以设置污染值。对于支持向量边界,是否也可以这样做?
谢谢
回答:
在Scikit-learn文档中,污染值的定义如下:
数据集中污染的程度,即数据集中异常值的比例。用于拟合时定义样本得分的阈值。
考虑到这个定义,SVM中确实存在这样的机制,或者更准确地说,在软边界SVM中。在软边界SVM中,有一个参数C,它控制模型在寻找所需超平面时可以容忍的误分类量。
您可以在这里阅读更多信息:https://stats.stackexchange.com/a/159051/237773