我正在处理遗传数据,其中等位基因在t个测序的染色体中被观察到n次。换句话说,就是在t次试验中取得n次成功。
我想将每个等位基因频率的估计值作为机器学习算法的一个特征。当然,我可以用n/t得到一个点估计,但我希望能够表示该点估计的置信度——即关于该估计的可能性的一些信息。
我认为负二项分布(或仅仅是二项分布)应该是合适的,但
- 我如何在Python中估计分布的参数?
- 作为经典(非神经网络)机器学习的特征,哪种分布表示最理想?一个保守的估计可能是95%置信区间的上限,但我该如何计算它,还有比仅取该值更好的方式来特征化分布吗?
谢谢!
回答:
我想所有你需要的信息都可以通过标准统计方法计算出来,而不需要应用机器学习。
-
如你正确建议的,你的二项分布Bin(t,p)参数p的最大似然估计(MLE)就是n/t。如果你想要置信区间而不是点估计,有一种方法是通过瓦尔德方法来实现:
其中z是标准正态分布的1 – 0.5α分位数。你可以根据你的建模假设通过以下链接找到更多可能性:二项比例置信区间。
-
如上所述,可以用z = 1.96计算p̂的95%置信区间。
-
关于机器学习算法的特征工程:由于你的参数分布基本上只依赖于一个估计参数p(除了给定的t),你可以直接将其用作唯一分布表示的特征。当然,也可以添加置信区间或方差作为额外的特征。一切都取决于你具体要学习什么以及你的最终目标/标准是什么。