估计二项分布参数作为机器学习特征

我正在处理遗传数据,其中等位基因在t个测序的染色体中被观察到n次。换句话说,就是在t次试验中取得n次成功。

我想将每个等位基因频率的估计值作为机器学习算法的一个特征。当然,我可以用n/t得到一个点估计,但我希望能够表示该点估计的置信度——即关于该估计的可能性的一些信息。

我认为负二项分布(或仅仅是二项分布)应该是合适的,但

  1. 我如何在Python中估计分布的参数?
  2. 作为经典(非神经网络)机器学习的特征,哪种分布表示最理想?一个保守的估计可能是95%置信区间的上限,但我该如何计算它,还有比仅取该值更好的方式来特征化分布吗?

谢谢!


回答:

我想所有你需要的信息都可以通过标准统计方法计算出来,而不需要应用机器学习。

  1. 如你正确建议的,你的二项分布Bin(t,p)参数p的最大似然估计(MLE)就是n/t。如果你想要置信区间而不是点估计,有一种方法是通过瓦尔德方法来实现:

    Waldmethod

    其中z是标准正态分布的1 – 0.5α分位数。你可以根据你的建模假设通过以下链接找到更多可能性:二项比例置信区间

  2. 如上所述,可以用z = 1.96计算的95%置信区间。

  3. 关于机器学习算法的特征工程:由于你的参数分布基本上只依赖于一个估计参数p(除了给定的t),你可以直接将其用作唯一分布表示的特征。当然,也可以添加置信区间或方差作为额外的特征。一切都取决于你具体要学习什么以及你的最终目标/标准是什么。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注