如何构建和标记非英语情感分析数据集

最近我开始了一个关于情感分析的新项目,我需要构建一个波斯语的数据集。虽然构建数据集对于整个过程的准确性至关重要,但我希望在最短的时间内尽可能做到最好。构建和标记情感分析数据集的最优化方法是什么?


回答:

你可以使用现有的数据集作为你的参考。有许多来源可以获取情感分析数据集:

google

sananalytics

kaggle

stanford

这里是一些提供单个词语情感的数据集列表。

positivewordsresearch

我建议你研究上述提到的数据集,以增加你对数据集及其标签的了解。

通常,情感数据集使用有限的标签,如“正面/负面”或“高兴”、“悲伤”、“愤怒”和“中立”,或者“愤怒”、“悲伤”、“惊讶”、“恐惧”、“厌恶”和“喜悦”。

希望对你有帮助。

Related Posts

关于k折交叉验证的直观问题

我在使用交叉验证检查预测能力时遇到了一些直观问题,我认…

调整numpy数组大小以使用sklearn的train_test_split函数?

我正在尝试使用sklearn中的test_train_…

如何转换二维张量和索引张量以便用于torch.nn.utils.rnn.pack_sequence

我有一组序列,格式如下: sequences = to…

模型预测值的含义是什么?

我在网上找到一个数字识别器的CNN模型并进行了训练,当…

锯齿张量作为LSTM的输入

了解锯齿张量以及如何在TensorFlow中使用它们。…

如何告诉SciKit的LinearRegression模型预测值不能小于零?

我有以下代码,尝试根据非价格基础特征来估值股票。 pr…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注