Home IT技术如何使用GitLab缓存存储机器学习管道的模型权重？

如何使用GitLab缓存存储机器学习管道的模型权重？

IT技术 xiaolong · 2025年5月31日 · 0 Comment

我使用GitLab来托管一个Python机器学习管道。这个管道包含了一些模型的训练权重，我不希望将这些权重存储在Git中。这些权重存储在一个远程数据存储中，管道在运行作业时会自动拉取这些权重。

这种方法是可行的，但是当我尝试在这个设置上运行端到端的自动CI测试时遇到了问题。我不希望每次触发CI时都从远程下载模型权重（因为这可能会很昂贵）。实际上，出于安全原因，我希望在所有CI测试中完全阻止我的互联网连接（例如，通过在conftest.py中配置socket）。

如果我这样做，显然我将无法访问存储模型权重的位置。我知道我可以模拟模型的结果用于测试，但实际上我想测试模型的权重是否合理。因此，模拟是不可能的选择。

我之前发布了一个类似的问题，我得到的一个解决方案是利用GitLab的缓存机制来存储模型权重。

然而，我无法弄清楚具体如何操作。从我对缓存的理解，如果我启用它，GitLab会从互联网上下载必要的文件一次，并在后续的管道中重用它们。然而，我寻找的解决方案看起来应该是这样的 –

手动上传文件到GitLab。
这个文件对我的所有CI作业都是可访问的，但这不被Git跟踪。
当文件过期（因为我创建了一个新模型）时，我手动上传更新后的文件。
根据我对缓存工作流程的理解，如果我想更新文件，我将不得不启用测试套件中的互联网，让管道自动下载新的权重集，然后在新缓存设置好后再次禁用互联网。这感觉既不安全也不稳妥（不安全，因为我永远不想在测试期间启用互联网）。

对于这个问题，有没有好的解决方案？

回答：

一种可能的解决方案，但可能不够灵活，是将模型文件保存在GitLab CI变量中，并在步骤中放入正确的路径。GitLab CI也支持将二进制文件作为变量。

continuous-integration gitlab machine-learning python unit-testing

发表回复取消回复