Home IT技术如何快速调试SageMaker训练脚本？

如何快速调试SageMaker训练脚本？

IT技术 xiaolong · 2025年5月22日 · 0 Comment

在Amazon SageMaker中运行机器学习训练作业时，训练脚本会被“部署”并分配到一个ML训练实例上，这个过程大约需要10分钟来启动并获取所需数据。

我只能从训练作业中获得一个错误消息，然后它就会终止，并且实例也会随之被销毁。

当我修改训练脚本以修复错误后，我需要再次部署并运行它，这大约又需要10分钟的时间。

我怎样才能更快地完成这个过程，或者保持训练实例持续运行呢？

回答：

看起来您正在使用SageMaker的一个框架来运行训练作业。鉴于此，您可以使用SageMaker的“本地模式”功能，这将在您的笔记本实例上本地运行您的训练作业（具体来说是容器）。这样，您可以反复修改脚本直到它正常工作。然后，如果需要，您可以转移到远程训练集群上，使用整个数据集来训练模型。要使用本地模式，只需将实例类型设置为“local”。关于本地模式的更多详情，请访问 https://github.com/aws/sagemaker-python-sdk#sagemaker-python-sdk-overview 以及博客文章：https://aws.amazon.com/blogs/machine-learning/use-the-amazon-sagemaker-local-mode-to-train-on-your-notebook-instance/

amazon-sagemaker amazon-web-services machine-learning tensorflow

发表回复取消回复