我在进行硕士论文的研究,正在构建一个问题分类/回答语料库。我希望评估我的预期答案类型分类法在评分者一致性/可靠性方面的表现,我想问一下:有没有人知道任何不错的(最好是免费的)Java API可以完成这个任务?
我相当确定目前我只需要Fleiss’ Kappa和Krippendorff’s Alpha。
Weka在其评估包中提供了kappa统计,但我认为它只能评估分类器,而我还没有达到那个阶段(因为我还在构建数据集和类别)。
谢谢。
回答:
在我的研究中,我没能及时找到现有的Java API,所以我最终自己实现了Fleiss’ Kappa和Krippendorff’s Alpha。我们研究的初步结果可以在这篇论文中找到。