在机器学习中,为了防止过拟合,一种方法是添加L2正则化,但也有人认为L1正则化更好,这是为什么呢?此外,我知道L1正则化用于确保数据的稀疏性,这有什么理论支持吗?
回答:
L1正则化用于实现数据的稀疏性。这在处理大数据时尤其有益,因为L1正则化可以生成比L2正则化更压缩的模型。这主要是因为随着正则化参数的增加,优化结果更有可能为0。
L2正则化由于平方操作,对大数值的惩罚更重。当然,L2在平滑性方面更为“优雅”。
你可以查看这个网页
附注:
更详细的数学解释可能不适合这个网站,你可以尝试其他Stack Exchange网站看看。