保存不同的模型及其对应的配置文件,跟踪结果和参数,使用自定义过滤器在其中搜索,并且始终指向当前的最先进(SOTA)模型,这可以节省大量时间。
我甚至在本地服务器上找不到类似于TensorFlow Hub的东西。目前我能找到的最接近的工具是Git LFS。
有没有更好的解决方案?
回答:
我找到了答案。一些开源项目正在尝试完成这项工作。第一个项目名为数据科学版本控制或DVC。根据文档,它的特点是:
提供类似Git的简单命令行体验。不需要安装和维护任何数据库。不依赖于任何专有在线服务;
它管理和版本控制数据集和机器学习模型。数据可以存储在S3、Google云、Azure、阿里云、SSH服务器、HDFS甚至本地HDD RAID中;
它使项目可重现和可共享,帮助回答“模型是如何构建的”这个问题;
它帮助使用Git标签或分支和指标跟踪管理实验;
另一个可能的解决方案是MinIO,这是一个对象存储服务器
适用于存储照片、视频、日志文件、备份以及容器/虚拟机镜像等非结构化数据。