我有一个arff
文件,包含700个条目
,每个条目有42000+个特征
,用于一个与NLP相关的项目。目前文件格式是密集格式,但如果使用稀疏表示,条目可以大幅减少。我在配备2 GB RAM的酷睿2双核机器
上运行,仍然遇到了内存超出范围异常
,尽管我已经将内存限制增加到了1536 MB。
如果我将arff文件转换为稀疏表示,会有帮助吗?还是我需要在一台更强大的机器上运行我的代码?
回答:
根据算法的内部数据结构以及数据的处理方式(是增量处理还是全部加载到内存中),所需的内存会有所不同。因此,所需的内存取决于算法本身。
稀疏表示对你来说更容易,因为它更紧凑,但据我所知,算法从相同的数据集中创建模型时,所需的内存量是相同的。输入格式应该对算法是透明的。