关于环境声音分类的方法和机器学习模型的建议

我目前在环境声音分类方面遇到了一个问题。我想使用音频分类来检测一种特定的碰撞声（这种声音确实与众不同，且人类耳朵很容易区分）。但还有其他类型的碰撞声可能发生，这些对我来说并不重要，即我只需要不将它们分类为我的“特定类型的碰撞声”。

我现在尝试使用GMM和LFCC来进行分类。一个GMM模型由那种碰撞声的所有LFCC训练而成，另一个GMM模型则由所有其他LFCC训练（这些LFCC可能来自一些非碰撞环境声音或来自我不想分类的其他类型碰撞）。目前的表现非常差，召回率非常高，但精确度极低。我发现，尽管我的“特定类型声音”的GMM模型在这种声音未发生时会给出很低的概率，但另一个用于所有其他声音的GMM模型在所有其他类型碰撞发生时也会给出低概率。

在这种情况下，我应该切换到其他模型如ANN或SVM，还是需要添加更多的GMM模型？我在考虑，例如，GMM_1用于我想检测的碰撞类型，GMM_2用于其他类型的碰撞，GMM_3用于其他任何声音。但对我来说很难获得“所有其他类型的碰撞”，而且我不确定这种方法是否真的能提高准确性。

回答：

好吧，我不得不自己回答这个问题。最近我进行了测试，使用我在问题中提到的三种GMM模型的方式，效果还不错。如果我有更多的训练数据，我有信心能达到90%以上的准确率。

学技术

关于环境声音分类的方法和机器学习模型的建议

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复