使用MATLAB神经网络工具箱对超大数据集进行批量训练

我想使用MATLAB神经网络工具箱对KTH数据集进行语音识别。现在我的训练数据量非常大,无法一次性加载到一个大矩阵中进行批量训练。我找到的一个解决方案是使用增量训练,使用adapt函数一次处理一部分数据。但据我所知,这可能会降低准确性。

之前我使用过NICO工具包。在NICO中,我们可以将训练数据文件的名称作为输入。它会读取这些文件并进行批量训练。但我在MATLAB中找不到这样的选项。

在MATLAB中,有没有办法对如此大的数据集进行批量训练?


回答:

我不建议对非常大的数据集使用自适应方法。自适应学习最适合处理随时间变化的关系(数据集)。

如果你有并行计算工具箱和MATLAB分布式计算服务器的访问权限,你可以使用神经网络工具箱将计算和数据分布到多台机器上进行处理。

为了在特定RAM容量内增加可训练的数据集大小,可以使用TRAINSCG(缩放共轭梯度法,它比雅可比方法使用更少的内存),或者使用带有内存减少功能的TRAINBR(贝叶斯正则化雅可比法,权衡时间和内存空间)。

假设你的RAM仍然不够,一个可能的解决方案是使用带有内存减少功能的TRAINBR在数据的不同随机子集上训练多个网络。TRAINBR试图找到最简单的可能解决方案,但每次训练可能会找到相当不同的解决方案。在不同的数据集上训练几十个(或更多)神经网络后,可以对每个网络的输出进行平均。本质上是将许多简单的解决方案结合起来以发现复杂的关系。

请确保保留一些未用于训练任何TRAINBR神经网络的数据,以便独立测量它们组合(平均)输出的普遍性。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注