我正在进行一个项目,需要根据一个人的技能预测他是否应该成为前端开发者、后端开发者、DevOps工程师或数据科学家等。
例如:
Sam 拥有 [‘python’, ‘sql’, ‘机器学习’, ‘flask’] 这些技能,因此他可以被称为数据科学家。
我已经从 LinkedIn 上抓取了人们的职位和他们的技能信息。我需要在几个方面得到指导:
- 如何使用 NLP 来标准化数据
- 如何预测一个新用户属于哪个特定的职位或领域。
请问使用 Python 实现这个过程的步骤是什么?任何相关的参考文章或教程都将非常受欢迎,提前感谢。
回答:
我已经通过使用 BERT 解决了这个问题,它自动处理了向量化和标记化。我有一个数据集,包含特定的技能及其所属领域(前端、后端等)。我使用多分类器来预测领域,然后通过特定领域对所有职位进行聚类。