我的问题如下:
我得到了同一组数据集的多个卡方值,这些数据集使用不同的模型进行拟合。(例如,对于5组点集,使用单一二项分布或同时使用二项分布和正态分布进行拟合,我将得到10个卡方值)。
我想使用机器学习分类方法将数据集分类为“模型”:
例如,数据集(1,2,5和7)使用仅二项分布拟合效果最佳,而数据集(3,4,6,8,9,10)则需要使用正态分布进行拟合。
值得注意的是,卡方分布的自由度数量可能不同,且总是已知的,模型的数量也是如此。
我(可能)天真的解决方案猜想如下:
-
将点(在本例中为10个卡方值)随机分配到类别数量中(2个)。
-
使用特定的卡方分布(在本例中具有不同的自由度数量)对每个类别进行拟合。
-
将异常点从一个分布移动到另一个分布。
-
重复步骤2和3,直到对结果满意为止。
然而,我不知道如何选择异常点,或者是否已经存在可以执行此操作的算法。
我对机器学习非常新,对统计学也相当新,所以任何相关的关键词都会受到欢迎。
回答:
做这件事的原则性方法是为不同类型的模型以及模型类型内的不同参数分配概率。请查找“贝叶斯模型估计”。