如何通过编程方式(通过语法分析/解析等手段)检测简历中的敏感/个人信息

为了使问题更加具体:

  1. 如何检测人名(似乎是命名实体识别的简单案例?)
  2. 如何检测地址:我的最佳猜测是查找邮政编码(使用正则表达式);国家和城镇名称,并提取它们周围的一些文本。
  3. 至于电话和电子邮件,可能可以通过各种正则表达式加上预处理来捕获
  4. 目前不关心教育/工作经验

原因:为了在简历上建立全文索引,必须从中删除所有敏感信息。

P.S. 任何第三方API/服务都不能作为解决方案。


回答:

您感兴趣的问题是从半结构化来源中提取信息。 http://en.wikipedia.org/wiki/Information_extraction

我认为您应该下载一些该领域的研究论文,以了解什么是可行的,什么是不可行的。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注