为了使问题更加具体:
- 如何检测人名(似乎是命名实体识别的简单案例?)
- 如何检测地址:我的最佳猜测是查找邮政编码(使用正则表达式);国家和城镇名称,并提取它们周围的一些文本。
- 至于电话和电子邮件,可能可以通过各种正则表达式加上预处理来捕获
- 目前不关心教育/工作经验
原因:为了在简历上建立全文索引,必须从中删除所有敏感信息。
P.S. 任何第三方API/服务都不能作为解决方案。
回答:
您感兴趣的问题是从半结构化来源中提取信息。 http://en.wikipedia.org/wiki/Information_extraction
我认为您应该下载一些该领域的研究论文,以了解什么是可行的,什么是不可行的。