在可分数据上的线性分类器可能有多个边界来分类数据。这就是我们选择SVM的原因,SVM选择具有最大间隔(在未见数据上最小化泛化误差)的边界。
SVM分类是否总是产生唯一解(在所有可能的数据中我们不会得到两个最大间隔边界吗)?
答案是否取决于硬间隔SVM和软间隔SVM?
回答:
是的,标准SVM的软和硬两种形式都是凸优化问题,因此具有唯一的全局最优解。我认为如果问题非常庞大,近似方法会足够节俭,以至于你会使用它们而不是精确求解器,然后你的数值解技术可能不会找到全局最优解,纯粹是因为它的权衡优势是减少搜索时间。
这些问题的典型方法是顺序最小优化——固定一些变量,并对变量的一个小子集进行优化,然后反复使用不同的变量,直到无法改进目标函数。鉴于此,我认为任何人解决这些问题的方式都不会导致无法获得全局最优解的可能性很小。
当然,你找到的全局最优解可能实际上并不适合你的数据;这取决于你的模型、噪声类标签等如何代表数据生成过程。因此,解决这个问题并不能保证你找到了绝对正确的分类器或其他任何东西。
我在粗略搜索中找到了一些关于此的讲义笔记:(链接)
这里有一个关于凸性声明的更直接的链接:(链接)