如何将数据库中的员工职称匹配以简化名称

我正在准备来自网站的数据库分析:

 https://www.kaggle.com/c/predicting-loan-default/data 

我的变量emp_length大约有3000个不同的值。有些值是相同的或具有相同的关键词(例如account, accountant, accounting, account specialist, acct.)。有些词包含错误或缩写。我想减少这些值以简化名称并编码为数值。我尝试在R中使用文本挖掘来查找关键词,但我并不确信这是正确的方法。有人对此有任何想法吗?


回答:

尝试适应这种“数据科学”方法:

示例输入数据:

emp_length<-c("account","accountant","accounting","account specialist","Data Scientist","Data Science Expert")

字符串距离 + 聚类

cluster<-kmeans(stringdistmatrix(emp_length,emp_length,method="jw"),centers=2)cluster_n<-cluster$cluster

可能的标签分组

cbind(emp_length,cluster_n)     emp_length            cluster_n[1,] "account"             "2"      [2,] "accountant"          "2"      [3,] "accounting"          "2"      [4,] "account specialist"  "2"      [5,] "Data Scientist"      "1"      [6,] "Data Science Expert" "1" 

这有助于检测标签以进行分组并转换为数值格式。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注