谷歌的Audioset中用于音频特征提取的算法是什么?

我刚刚开始使用谷歌的Audioset。尽管数据集非常庞大,但我发现关于音频特征提取的信息非常模糊。网站上提到

以1Hz的频率提取的128维音频特征。这些音频特征是使用受到VGG启发的声学模型提取的,该模型由Hershey等人描述,并在YouTube-8M的初步版本上训练。特征经过了主成分分析(PCA)并量化,以与YouTube-8M提供的音频特征兼容。它们以TensorFlow Record文件的形式存储。

论文中,作者讨论了使用mel频谱图对960毫秒的音频片段进行处理,得到96×64的表示。然而,如何转换为Audioset中使用的1×128格式的表示对我来说并不清楚。有人知道更多关于这方面的内容吗?


回答:

他们使用96*64的数据作为修改后的VGG网络的输入。VGG的最后一层是FC-128,因此其输出将是1*128,这就是原因所在。

VGG的架构可以在这里找到:https://github.com/tensorflow/models/blob/master/research/audioset/vggish_slim.py

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注