我打算开发一个机器学习模型。我有大量的数据集(文本)。我需要整体更高的准确率和F1分数等。我正在使用数据注释工具(Dataturks)。对于数据标记,采用单一标签还是多个标签的做法更好呢?(例如,如果GUI出现了5次,我们是应该标记1次还是5次才能获得更好的整体得分)。您的帮助将不胜感激。
回答:
如果你有任何特征完全相同的重复示例,你需要删除它们
我打算开发一个机器学习模型。我有大量的数据集(文本)。我需要整体更高的准确率和F1分数等。我正在使用数据注释工具(Dataturks)。对于数据标记,采用单一标签还是多个标签的做法更好呢?(例如,如果GUI出现了5次,我们是应该标记1次还是5次才能获得更好的整体得分)。您的帮助将不胜感激。
回答:
如果你有任何特征完全相同的重复示例,你需要删除它们