我需要实现Lasso和Ridge回归,并通过交叉验证计算超参数。我找到了实现这个功能的代码,但有些地方不太理解。
lassocv = LassoCV(alphas=None, cv=15, max_iter=100000, normalize=True)lassocv.fit(X_train, y_train)lasso = Lasso(alpha=lassocv.alpha_, normalize=True)lasso.fit(X_train, y_train)rmse = np.sqrt(mean_squared_error(y_val, lasso.predict(X_val)))ridgecv = RidgeCV(alphas=alphas, normalize=True)ridgecv.fit(X_train, y_train)ridge = Ridge(alpha=ridgecv.alpha_, normalize=True)ridge.fit(X_train, y_train)rmse = np.sqrt(mean_squared_error(y_val, ridge.predict(X_val)))
那么,为什么在RidgeCV中使用alphas=alphas?如果我写成alphas=None,会出现错误。为什么ridgecv不需要写cv参数呢?
回答:
我认为答案与不同模型上设置正则化强度的方式有关。
在RidgeCV中,你需要显式地声明alpha
,因为参数调整不是基于交叉验证计算的误差进行的。
然而,在LassoCV中,他们有从CV误差中自动计算alpha
的方法。不过,如果你想显式地设置它们,可以通过更改可选参数n_alpha
和alphas
来实现。
参考:https://web.stanford.edu/~hastie/Papers/ESLII.pdf第7章第4节以获取更多详情。