我对机器翻译中BLEU分数的计算有一些疑问。我意识到他们可能对BLEU有不同的衡量标准。我发现代码报告了五个BLEU值,即BLEU-1、BLEU-2、BLEU-3、BLEU-4,最后是BLEU,看起来是前四个BLEU的指数平均值。但我仍然不清楚它们之间的区别。你有什么想法吗?谢谢
P.s. 起初我认为这个问题更像是理论内容,并发布在meta stackexange上。一位 moderator 将其关闭并评论说这是stackoverflow类型的问题。所以请不要再次惩罚我。=)
回答:
来源: http://www.statmt.org/book/slides/08-evaluation.pdf
我没有听说过BLEU-1和BLEU-2,但我猜这意味着在BLEU分数公式中使用了1-gram、2-gram、3-gram和4-gram,我是指你问题中的公式precision[i] = BLEU-i
: