系统滞后还是TensorFlow可能的bug？

我目前正在使用TensorFlow（CPU版本）进行研发，但无法决定在训练大型数据集时我的系统的基本要求，或者我可能遇到了TensorFlow库中的一个可能的bug。

TensorFlow官方文档中没有任何关于构建和运行TensorFlow程序的系统具体要求的建议。从我的理解来看，如果它可以在Windows、Linux、Mac以及Android、iOS和嵌入式系统如RaspberryPi上运行，我认为应该没有这样的硬件要求。

然而，在初步研究的过程中，我尝试运行TensorFlow的Seq2Seq模型（将英语翻译成法语 https://www.tensorflow.org/tutorials/seq2seq），训练和测试数据集最初占用了大约7-8GB的磁盘空间，整个过程中占用了20-22GB。一旦执行translate.py Python脚本，它就会耗尽内存，并将磁盘使用率分别推至98%和100%。

我的当前系统运行的是Windows 8.1 64位操作系统，配备Core i5 5200U，主频2.2 GHz，8GB RAM，以及大约70GB的硬盘自由空间（专门分配给TensorFlow使用）。但即使在让系统运行了7-8小时（没有其他应用程序运行）之后，它也多次卡住，通常是在数据集标记化后内存使用率达到100%左右时。

虽然我不确定，但我认为TensorFlow的学习图是在RAM中创建的，一旦它扩展到占用所有内存空间，程序就会陷入无休止的循环，等待内存被清理然后增加学习图。

所以这归结为三个问题：

TensorFlow是否使用RAM来构建和保存学习图？如果是的话，是否有可能以类似的方式卡住？
从商业角度来看，训练这样一个系统是否有最低的硬件要求？
如果不是系统要求的问题，这是否可能是TensorFlow库中的一个可能的bug，使其陷入等待内存清理的无休止循环？

更新

在连续运行Python脚本超过30小时后，进程似乎在过去14小时内一直卡在“读取开发和训练数据”这一步。请参考下图进行进一步调查：

回答：

就在我准备关闭程序时，它突然又开始响应了，我又等了15-20分钟，最终从操作系统那里得到了答案。确实是内存不足导致了问题。附上Windows系统内存不足警报的屏幕截图供参考，以防其他人遇到同样的情况。

更新

我在Google Cloud Platform上尝试了一个虚拟机实例。这台机器配备了2个Intel Xeon (R)处理器，每个运行在2.23 GHz，13GB RAM和50GB存储空间。但在这种情况下结果仍然相同，尽管应用程序使用了超过10.5 GB的RAM。看起来这个教程脚本需要一个非常强大的系统，可能是一台至少配备32 GB RAM的超级计算机才能完全运行和执行。我可能会考虑编写或整理自己的数据集。然而，这应该被视为未来的改进，使用持久存储（HDD/SSD）来创建图形，而不是使用RAM，以避免内存阻塞。

学技术

系统滞后还是TensorFlow可能的bug？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复