我有一个任务,需要分析用户的网络历史来估计他们的年龄和性别。作为输入,我有大量关于用户浏览历史的数据。但对我来说,最大的难点是选择合适的算法。据我所知,最简单的做法是按男性与女性的比例对所有网站进行排名,并使用一种分类算法来处理。我的理解正确吗?请您帮助我选择合适的算法好吗?
回答:
你可以从朴素贝叶斯分类器开始,这是早期垃圾邮件过滤器中使用过的同一种分类器。
这个方法的思路是为每个URL赋予一个分数,例如这个URL在男性浏览历史中出现的百分比,然后将一个人浏览器历史中所有URL的分数结合起来,尝试预测他们的性别。