我有类似于下面的东西:
然而,我在整合决策线另一侧的数据以获取误差时遇到了很大的麻烦。
回答:
一般来说,如果你知道决策边界的解析形式,你可以精确计算积分。然而,为什么不使用蒙特卡洛方法呢?它快速、简单且通用(适用于任何分布和决策边界)。你所需要做的就是反复从你的高斯分布中抽样,检查抽样点是否在正确的一侧(N_c)或错误的一侧(N_i),在极限情况下,你将从以下公式中得到你的积分:
INTEGRAL_of_distributions_being_on_correct_side ~ N_c / (N_c + N_i)INTEGRAL_of_distributions_being_on_incorrect_side ~ N_i / (N_c + N_i)
因此,在伪代码中:
N_c = 0N_i = 0for i=1 to N do y ~ P({-, +}) # 抽样分布 x ~ P(X|y) # 从给定类别中抽样点 if side_of_decision(x) == y then N_c += 1 else N_i += 1 endendreturn N_c, N_i
在你的情况下,P({-, +})
可能是50-50的概率,而P(X|-)
和P(X|+)
是你那两个高斯分布。