我在做一份过去的考试试卷。我得到的数据集如下:
头发颜色 {棕色,红色} = {B,R},身高 {高,矮} = {T,S} 和国家 {英国,意大利} = {U,I}
(B,T,U) (B,T,U) (B,T,I)
(R,T,U) (R,T,U) (B,T,I)
(R,T,U) (R,T,U) (B,T,I)
(R,S,U) (R,S,U) (R,S,I)
问题:估计概率 P(B,T|U), P(B|U), P(T|U), P(U) 和 P(I)
由于问题中提到“估计”,我猜测不需要计算任何具体数值。是否只需统计 P(B,T|U) 在整个数据集中出现的次数,例如 (2/12) = 16% 即可?
那么 P(U) 的概率会是 0 吗?
回答:
我认为不是。在你的12条记录中,有8条来自英国。所以 P(U) 应该是 8/12 = 2/3 ≈ 0.66
贝叶斯定理是 P(A|B) = P(B|A)P(A)/P(B),你需要用它来估计一些概率。