如何构建和标记非英语情感分析数据集

最近我开始了一个关于情感分析的新项目,我需要构建一个波斯语的数据集。虽然构建数据集对于整个过程的准确性至关重要,但我希望在最短的时间内尽可能做到最好。构建和标记情感分析数据集的最优化方法是什么?


回答:

你可以使用现有的数据集作为你的参考。有许多来源可以获取情感分析数据集:

google

sananalytics

kaggle

stanford

这里是一些提供单个词语情感的数据集列表。

positivewordsresearch

我建议你研究上述提到的数据集,以增加你对数据集及其标签的了解。

通常,情感数据集使用有限的标签,如“正面/负面”或“高兴”、“悲伤”、“愤怒”和“中立”,或者“愤怒”、“悲伤”、“惊讶”、“恐惧”、“厌恶”和“喜悦”。

希望对你有帮助。

Related Posts

在使用k近邻算法时,有没有办法获取被使用的“邻居”?

我想找到一种方法来确定在我的knn算法中实际使用了哪些…

Theano在Google Colab上无法启用GPU支持

我在尝试使用Theano库训练一个模型。由于我的电脑内…

准确性评分似乎有误

这里是代码: from sklearn.metrics…

Keras Functional API: “错误检查输入时:期望input_1具有4个维度,但得到形状为(X, Y)的数组”

我在尝试使用Keras的fit_generator来训…

如何使用sklearn.datasets.make_classification在指定范围内生成合成数据?

我想为分类问题创建合成数据。我使用了sklearn.d…

如何处理预测时不在训练集中的标签

已关闭。 此问题与编程或软件开发无关。目前不接受回答。…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注