计算NLP命名实体识别中实体的置信度得分

我正在从文档（pdf文件）中提取命名实体。每个pdf文件包含一组实体（近16种不同类型的实体）

以下是我构建NLP和ML模型的步骤：

到目前为止，一切进展顺利。但下一步出现了问题。:(

神经网络模型使用SOFTMAX来分类输入。从该模型中获得每个单词的得分。

但我的问题是，我的实体至少包含3个单词。我如何计算生成实体的置信度得分呢？

目前我使用的是P(entity) = P(w1)*P(w2)*(w3)，如果实体有三个单词的话。

请帮助我。这种方法并非总是合理。

假设，如果模型只预测了实体中的两个单词，那么实体的置信度将是P(entity) = P(w1)*P(w2)。

如果模型只预测了实体中的一个单词，那么P(entity) = P(w1)。:(

回答：

为什么不使用P(entity) = P(w1)+P(w2)+P(w3)？如果你需要一个归一化的数值（0-1），并且假设P(w)的范围是0-1，可以这样做：P(entity) = (P(w1)+P(w2)+P(w3)) / 3

为了获得更好的得分，你应该计算每个单词的信息含量。常见单词应该贡献较少：https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-6-S1-S21

学技术