Vader SentimentIntensityAnalyzer是否支持多语言?

我在进行情感分析时遇到了困难,发现Vader解决方案是我目前找到的最佳选择。我的问题是找不到任何关于如何使用非英语语言输入的文档。


回答:

简短的回答是“否”。

GitHub页面上的README文件中提到

如果你有互联网访问权限,演示中有一个例子展示了VADER如何分析其他语言(非英语文本句子)的情感。

但是如果你仔细查看这个演示的实际操作(在当前版本的vaderSentiment.py文件的第552行开始),你会发现这是完全基于使用机器翻译网络服务将文本自动翻译成英语来实现的。因此,结果不仅依赖于情感分析工具的准确性,还依赖于你用来创建英文版本输入的翻译工具的准确性。

Vader仅对英语文本进行情感分析,但这种变通方法(自动翻译)可能是一个可行的选项。情感分析对常见的机器翻译问题不太敏感,但如果你选择使用这种变通方法,仍然需要牢记其局限性。

*举个例子,演示中使用的服务将“Das Internet funktioniert heute nicht. Ist eine Störung bekannt?”翻译为“The Internet was not working today. Is a disorder known?”,更准确的翻译应该是“The internet isn’t working today. Is a disruption known?”。第一句话的时态翻译错误了,虽然在这个语境中有几个合法的“Störung”翻译,但“disorder”是最不恰当的选择。尽管如此,虽然这使得整体翻译质量很差,但这些错误不太可能显著影响情感分析的结果。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注