我正在进行一个纯属娱乐的个人项目。我已经收集了每个国家的 demographic 数据,比如:
德国 74% 男性 26% 女性 10% 已婚 16% 年龄在30-35岁之间 40% 等等
现在我想做的是,当我获得一个新用户时,我会查看这个用户的国家,并尝试预测这个用户的信息,比如这个用户是否是一个已婚的30-35岁的男性(仅为示例)。
我的问题是,我该如何进行这样的预测?我不能简单地设定一个规则,说如果一个国家的男性超过50%,那么来自这个国家的用户也是男性。基本上,我想知道如何确定一个值,以便我可以更确定地预测用户的人口统计信息。
回答:
这实际上不是一个预测问题,而是一个概率问题,因为如果你有描述的值,你可以计算出所有概率。
这是一个例子:
Male population = 74%People married = 16% People between 30-35 = 40%
要计算一个新的德国用户是男性、已婚且年龄在30-35岁之间的概率,你可以这样做:
P(Male|Married|30-35) = p(Male) * p(Married) * p(30-35)P(Male|Married|30-35) = 0,74 * 0,16 * 0,40 = 0,04736 ~ 4,7%
你不需要更多信息来计算这个。如果你想自动分类所有用户,我建议你查看一下朴素贝叶斯分类。