我知道这个参数var_smoothing以及如何调整它,但我希望从数学/统计学角度得到一个解释,说明调整它实际上做了什么——我在网上没能找到任何好的解释。
回答:
高斯曲线可以作为一个“低通”滤波器,只允许靠近其均值的样本“通过”。在朴素贝叶斯的背景下,假设一个高斯分布本质上是给靠近分布均值的样本赋予更多的权重。这可能合适也可能不合适,这取决于你想要预测的内容是否遵循正态分布。
变量var_smoothing人为地向分布的方差中添加一个用户定义的值(其默认值是从训练数据集中得出的)。这本质上是扩展(或“平滑”)了曲线,并考虑了更多远离分布均值的样本。