我正在使用GPU运行多个模型,所有任务结合起来可以使用4个GPU来运行,例如。由于GPU内存能够处理,因此可以在同一个GPU上运行多个任务。
是启动一个包含所有4个GPU的强大实例并在一个实例上运行所有任务更好呢?还是选择多个每个配备1个GPU的实例更好呢?
我在考虑几个因素:
- 读取文件的延迟。在一台机器上使用本地磁盘在延迟方面应该更快,但这将从一个来源进行大量读取。这会不会引起任何问题?
- 为了扩展IOPS,我需要相当多的vCPU和大量的内存,因为显然GPC是通过这种方式扩展IOPS的。解决这个问题的最佳方法是什么?如果有人有更多信息,非常感谢提供指导。
- 如果将来为了节省成本/降低性能,我需要降级,我可以简单地停止实例并更改我的规格。
- 将所有内容放在一台机器上会更容易操作。我知道在生产环境中我会希望采用更分散的方法,但这仅限于实验阶段。
这些是我的主要想法。我有遗漏的地方吗?感谢所有帮助。
回答:
最终选择了一台配有多GPU的机器。只需将任务分配给不同的GPU来利用内存即可。