识别”叮咚”声音

我正在构建一个声音识别模型来检测”叮咚”声音。

这个过程包括两个步骤:训练和测试。

训练数据是设备生成的”叮咚”声音。

模型可以检测到同一设备生成的”叮咚”声音,效果很好。

但是,当有第二个设备生成新的”叮咚”声音时,性能会变差。

我知道解决这个问题的可能方法:记录第二个设备生成的”叮咚”声音并将其添加到训练数据中。

但总是会有新的设备,新的”叮咚”声音。

我该怎么办?


回答:

你面临的是过拟合问题。过拟合意味着你的模型已经训练得在特定的案例(即训练数据集)上表现最佳。为了克服这个问题,你应该在多种设备上训练你的模型,然后在它们之间进行插值。插值可以由你使用的模型保证。

然而,以上信息过于笼统。在你的情况下,可能有更简单的方法来解决。这完全取决于你如何定义”叮咚”。如果你能找到”叮咚”的特征签名,那就太好了。这个签名应该对所有不希望的特征保持不变。

例如,”Diiiiing-doooooong”应该被接受吗?如果是,你应该找到一个对音频片段长度不变的签名。更高频率的”ding-dong”可以接受吗?如果可以,你应该找到一个将频率视为彼此的分数而不是绝对值的签名,依此类推…

顺便说一句,我相信你可以通过谷歌搜索找到许多关于你问题的论文,但可能是关于”dang-dong”而不是”ding-dong”,但你仍然可以从中受益 😉

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注