我想使用MATLAB神经网络工具箱对KTH数据集进行语音识别。现在我的训练数据量非常大,无法一次性加载到一个大矩阵中进行批量训练。我找到的一个解决方案是使用增量训练,使用adapt函数一次处理一部分数据。但据我所知,这可能会降低准确性。
之前我使用过NICO工具包。在NICO中,我们可以将训练数据文件的名称作为输入。它会读取这些文件并进行批量训练。但我在MATLAB中找不到这样的选项。
在MATLAB中,有没有办法对如此大的数据集进行批量训练?
回答:
我不建议对非常大的数据集使用自适应方法。自适应学习最适合处理随时间变化的关系(数据集)。
如果你有并行计算工具箱和MATLAB分布式计算服务器的访问权限,你可以使用神经网络工具箱将计算和数据分布到多台机器上进行处理。
为了在特定RAM容量内增加可训练的数据集大小,可以使用TRAINSCG(缩放共轭梯度法,它比雅可比方法使用更少的内存),或者使用带有内存减少功能的TRAINBR(贝叶斯正则化雅可比法,权衡时间和内存空间)。
假设你的RAM仍然不够,一个可能的解决方案是使用带有内存减少功能的TRAINBR在数据的不同随机子集上训练多个网络。TRAINBR试图找到最简单的可能解决方案,但每次训练可能会找到相当不同的解决方案。在不同的数据集上训练几十个(或更多)神经网络后,可以对每个网络的输出进行平均。本质上是将许多简单的解决方案结合起来以发现复杂的关系。
请确保保留一些未用于训练任何TRAINBR神经网络的数据,以便独立测量它们组合(平均)输出的普遍性。