我正在进行一个材料科学领域的机器学习模型项目。目标是构建一个基于实验数据的预测模型。然而,由于实验成本和时间有限,我们预计无法从实验中获得足够的数据。因此,我们考虑使用有限元或离散元模拟等生成的模拟数据来训练模型,并用实验数据来评估模型的表现。但我对这种混合方法持怀疑态度。尽管模拟是基于实验参数进行的,但并不能保证目标输出的分布会与实验结果相符。
你怎么看?
回答:
我认为我无法给你一个准确的答案。然而,在高能物理领域,基于模拟数据进行训练并在类似真实环境中部署是常见做法。他们使用蒙特卡洛高统计模拟来训练模型,并使用实验收集的真实数据来评估其预测性能:
你可以做的一件事是,在你的网络中加入一个领域适应层,以减少实验与模拟之间的差异:
所有这些考虑可能取决于你将要开发的架构类型,具体任务(二元分类或其他?),以及你的模拟的可靠性如何。