在进行大规模数据集的情感分析时，决定词典大小的规则是什么？

我将对小说进行情感分析。我将处理大约300本书，每本书350页。我可以忽略出现频率较低的词来限制词典大小吗？如果可以，定义大小的规则是什么？

回答：

我认为并没有这样的“规则”。如果你计划使用深度学习，我认为唯一的限制因素是你能够负担得起的训练词汇量，这取决于内存和时间的限制。但即使如此，你也可以通过限制到最常用词的一个子集来获得接近最佳的准确率。我认为如果你是处理一种语言，50000词左右是一个合理的起点。从那里你可以根据需要扩展词汇量以获得更好的性能。

学技术

在进行大规模数据集的情感分析时，决定词典大小的规则是什么？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复