我的数据库中有两种类型的档案,一种是候选人档案,另一种是由招聘人员发布的职位档案。
在这两种档案中,我有三个共同的字段,即地点、技能和经验。
我知道算法,但我在创建训练数据集时遇到了问题,我的输入特征将是从候选人档案中选择的地点、技能和薪资,但我不知道如何选择输出(相关职位档案)。
据我所知,输出只能是一个变量,那么如何在我的训练集中选择相关职位档案作为输出呢?
或者我应该选择其他方法?另一个想法是聚类。
回答:
据我理解,你想使用某种预测算法,根据候选人档案来预测职位档案。
嗯,如果你想使用回归,你需要知道一些历史数据——哪些候选人被分配了哪些职位,然后你可以基于这些历史数据创建一些模型。如果你没有这样的训练数据,你需要使用其他算法。比如,你可以将地点、技能和经验
设置为三维中的特征,并使用聚类/最近邻方法来找到与职位档案最接近的候选人档案。