在阅读《统计学习的要素》时,我遇到了以下引文:
如今使用的大多数流行技术都是这两种简单方法的变体。事实上,最简单的1-最近邻方法在低维问题市场中占据了很大一部分份额。
这里提到的技术是线性回归和k-最近邻算法。我想知道这个引文的准确性。更具体地说,当今使用的哪些流行机器学习方法不依赖于这两种简单方法的假设和特性?
回答:
这是对你问题的补充——一些源自KNN和线性回归的方法。
回归技术
-
LASSO、岭回归和弹性网是带有正则化惩罚的线性回归。
-
局部线性回归使用局部线性模型构建非线性估计器(它可以看作是线性回归和K最近邻的结合)。
-
非线性回归技术推广到输入没有简单线性依赖的情况,但仍然存在参数模型。
-
泊松回归将线性回归推广到估计量为计数的情况(即不能为负数,且总是整数)。
-
层次线性模型,例如使用A来预测B,然后再用B来预测C。
-
最小绝对偏差试图最小化L1范数,而不是像线性回归那样最小化L2范数。
-
各种鲁棒回归技术试图在面对异常值时提供鲁棒性。
分类技术
-
逻辑回归和概率回归属于广义线性模型的范畴,因此与线性回归相关。
-
同样,当有两个以上的类别时,它们推广到多项式概率和多项式逻辑模型。
-
一些神经网络可以被视为层次化的多项式逻辑回归。
-
在某些情况下,支持向量机可以被视为在高维空间中对二元目标进行的最小二乘回归,该空间比原始数据所占据的空间更高维。
不受KNN或LR启发的技术
一些显然不受k最近邻或线性回归启发的技术包括
-
决策树(以及决策树的发展——随机森林)。
-
朴素贝叶斯(它使用概率分布)。
-
马尔可夫链、隐马尔可夫模型、卡尔曼滤波和粒子滤波模型,这些模型对问题施加了额外的结构,这些结构不容易通过最近邻或线性依赖来捕捉。