Stanford parser- 使用金融工具进行标记

我有一组金融文件(定期存款文件、信用卡文件)。我想自动识别并标记这些文件中的金融实体/工具。

例如,如果文件中包含这样的短语“保留在不通知的情况下连本带息还款的权利”。我想识别与之相关的金融术语,并用其进行标记,对于这个句子来说是“可赎回”。对于短语“允许提前取款”,相关的金融术语是“可回售”,所以如果文件中包含这个短语,我想用术语“可回售”来标记它。

这些金融术语将来自于金融行业业务本体。是否有可能使用Stanford解析器来实现这个目的?我可以使用词性标注器来实现这个目的吗?我可能需要用金融工具来训练Stanford解析器,如果可能的话,我该如何训练Stanford解析器来识别金融工具?


回答:

直接使用的解析器或词性标注器不会识别这些特定领域的概念。然而,它们提供的自然语言分析可能是构建解决方案的有用基础模块。或者,如果你需要识别的短语足够接近固定短语,那么这些工具可能是不必要的,你应该专注于查找固定短语并对其进行分类。

虽然这些不是“命名实体”,但这个问题更接近于命名实体识别,因为你在识别语义短语类别。你可以标注你希望找到的短语的例子,并用命名实体识别器(例如,Stanford NER)训练模型,或者编写匹配实例的规则(使用GATE中的ANNIE或Stanford的TokensRegexPattern)。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注