我理解SVM中的大间隔效应如下:
例如,我们来看这张图片:
在SVM的优化目标中,通过正则化项,我们试图找到一组参数,使得参数向量的范数theta较小。因此,我们必须找到一个小的theta向量,同时正例的投影p在这个向量上较大(以补偿内积中的小theta向量)。与此同时,大的p为我们提供了大间隔。在这张图片中,我们找到了理想的theta,以及与之对应的大的p(和大间隔):
我的问题:
为什么逻辑回归不是大间隔分类器?在LR中,我们以相同的方式最小化正则化项中的theta向量。也许我有什么地方没理解,如果是这样,请纠正我。
我使用了Coursera机器学习课程中的图片和理论。
回答:
逻辑回归是一种大间隔损失。LeCun在他的关于基于能量的学习的论文中提到过这一点。
要看到LR确实引入了间隔,看softmax损失(它等同于LR)会更容易。
softmax损失中有两个项:L(z)=z_{true} - log(\sum_i \exp(z_i))
这意味着一个样本与其真实决策边界的距离需要超过所有决策边界距离的对数和。
因为softmax函数是一个概率分布,所以对数softmax的最大值可以是0,因此对数softmax返回一个负值(即惩罚),当softmax函数下真实类的概率接近1时,这个负值接近0。