我有一组金融文件(定期存款文件、信用卡文件)。我想自动识别并标记这些文件中的金融实体/工具。
例如,如果文件中包含这样的短语“保留在不通知的情况下连本带息还款的权利”。我想识别与之相关的金融术语,并用其进行标记,对于这个句子来说是“可赎回”。对于短语“允许提前取款”,相关的金融术语是“可回售”,所以如果文件中包含这个短语,我想用术语“可回售”来标记它。
这些金融术语将来自于金融行业业务本体。是否有可能使用Stanford解析器来实现这个目的?我可以使用词性标注器来实现这个目的吗?我可能需要用金融工具来训练Stanford解析器,如果可能的话,我该如何训练Stanford解析器来识别金融工具?
回答:
直接使用的解析器或词性标注器不会识别这些特定领域的概念。然而,它们提供的自然语言分析可能是构建解决方案的有用基础模块。或者,如果你需要识别的短语足够接近固定短语,那么这些工具可能是不必要的,你应该专注于查找固定短语并对其进行分类。
虽然这些不是“命名实体”,但这个问题更接近于命名实体识别,因为你在识别语义短语类别。你可以标注你希望找到的短语的例子,并用命名实体识别器(例如,Stanford NER)训练模型,或者编写匹配实例的规则(使用GATE中的ANNIE或Stanford的TokensRegexPattern)。