Home IT技术在Spark的MLlib中生成TFIDF时出现内存溢出异常

在Spark的MLlib中生成TFIDF时出现内存溢出异常

IT技术 xiaolong · 2025年4月7日 · 0 Comment

我在使用MLlib的朴素贝叶斯分类实现进行文档分类时，创建TFIDF向量时遇到了内存溢出的问题。

http://chimpler.wordpress.com/2014/06/11/classifiying-documents-using-naive-bayes-on-apache-spark-mllib/

在收集所有术语的idfs时会发生内存溢出和GC问题。为了说明规模，我从HBase读取了大约615,000个小型文档（约4GB的文本数据），并使用8个核心和6GB的执行器内存运行Spark程序。我尝试增加并行级别和调整shuffle内存比例，但都没有效果。

如何解决这个OOM问题？

谢谢

回答：

您是如何将Spark RDD连接到HBase的？您的HBase区域有多大？如果您同时加载多个HBase区域，并且它们的总大小超过了可用的RAM，那么在加载阶段可能会导致内存溢出。

避免这种情况的一种方法是编写自己的HBase加载器，专门扫描您感兴趣的列，而不是整个区域文件，这可能会显著减少内存消耗。您还可以根据对HBase键空间的语义理解来调整加载的分区数量，进一步优化加载时的内存消耗。

apache-spark apache-spark-mllib classification machine-learning

发表回复取消回复