Home IT技术估计二项分布参数作为机器学习特征

估计二项分布参数作为机器学习特征

IT技术 xiaolong · 2025年5月30日 · 0 Comment

我正在处理遗传数据，其中等位基因在t个测序的染色体中被观察到n次。换句话说，就是在t次试验中取得n次成功。

我想将每个等位基因频率的估计值作为机器学习算法的一个特征。当然，我可以用n/t得到一个点估计，但我希望能够表示该点估计的置信度——即关于该估计的可能性的一些信息。

我认为负二项分布（或仅仅是二项分布）应该是合适的，但

我如何在Python中估计分布的参数？
作为经典（非神经网络）机器学习的特征，哪种分布表示最理想？一个保守的估计可能是95%置信区间的上限，但我该如何计算它，还有比仅取该值更好的方式来特征化分布吗？

谢谢！

回答：

我想所有你需要的信息都可以通过标准统计方法计算出来，而不需要应用机器学习。

如你正确建议的，你的二项分布Bin(t,p)参数p的最大似然估计（MLE）就是n/t。如果你想要置信区间而不是点估计，有一种方法是通过瓦尔德方法来实现：

$Waldmethod$

其中z是标准正态分布的1 – 0.5α分位数。你可以根据你的建模假设通过以下链接找到更多可能性：二项比例置信区间。
如上所述，可以用z = 1.96计算p̂的95%置信区间。
关于机器学习算法的特征工程：由于你的参数分布基本上只依赖于一个估计参数p（除了给定的t），你可以直接将其用作唯一分布表示的特征。当然，也可以添加置信区间或方差作为额外的特征。一切都取决于你具体要学习什么以及你的最终目标/标准是什么。

bernoulli-probability feature-engineering machine-learning python statistics

发表回复取消回复