Research on Environmental Sound Classification Based on Convolutional Neural Network and Attention Mechanism under Multiple Features
In order to solve the problem of poor generalization effect and high robustness of the model due to too little data in the traditional urban noise classification, the accuracy of the model decreases due to the fact that the traditional noise features cannot solve the problem of key data loss. In this paper, a two-way convolution model based on MFCC + GFCC hybrid features and noise spectral features is proposed. Firstly, the noise data is changed by MFCC, GFCC and spectrogram, the feature data is extracted, the MFCC and GFCC data are convoluted and compressed respectively, and the classification is carried out after mixing. After convoluting the spectral features of noise, the attention mechanism module is used to classify each channel by weighting labeling, and the classification results of the two channels are fused with Bayesian numerical values, so as to achieve the correct classification of urban noise. Experimental results show that the accuracy of recognition is improved by more than 8% compared with the traditional model network under the dataset of big data samples.
Noise Classification
近些年来城市现代化发展越来越迅速,对于城市声音识别(Environment Sound Recognition, ESR)领域不断突破,声音识别已经在多个领域,如工业,医疗,民生,语音助手等相关子领域已经研究得相当成熟,而在城市噪音分类的城市管理领域内的研究则相对较少
对于复杂多变的城市噪音环境,环境声音特征的提取往往直接决定了一个分类模型的好坏,对于声音特征提取,往往分为去除噪音,平滑化,标准化以确保分析的稳定性和准确性,声音被处理成短时窗口,通常使用STFT或MFCC方法将长时间的声音数据分解为短时频谱片段,对于特征数据处理阶段,有很多人提出了关于特征提取的各种方法。LUZ等人使用频域特征和时域特征组合的聚合特征,使用时域频域混合特征能更加全面地表达声音在数据上的表示,蔡等
上述方法均在不同的数据库中,有着不错的效果,但由于上述方法中有些公共数据库的数据量较少如ESC-50数据库,往往不同标签的声音数据只有50多中数据,导致数据的泛化能力不理想,在更实际复杂的城市环境中不能完成应有的效果,经研究在自主采集的数据集(该数据集包含五种常见的城市社会噪音,每类噪音2000多条数据样本,总共包含11,322条数据),发现使用混合特征和多注意力模糊后分类模型中,实验效果非常卓越。模型贡献主要分为三个方面。① 探索了在噪音处理中特征提取中使用了语谱图,MFCC (梅尔频率倒谱系数)和GFCC (梅尔频率组合倒谱系数)组合的混合特征应用在声音识别模型中的有效性和可行性。② 引入了注意力机制,探讨了多种注意力机制的组合对模型分类效果的提升和模型可解释性的研究。③ 基于卷积神经网络提出了一种新的网络结构。
提出的一种ESC识别模型,该模型由从噪音信号中的多个特征通道和一个新的卷积神经网络组成。特征提取语谱图,梅尔频率倒谱系数(MFCC)和伽马音频频率倒谱系数(GFCC)。对于分类阶段,提出了一种基于卷积神经网络(CNN)的双流结构,它更适用于音频数据的分类,其中一个流来对语谱图进行处理,另一个对MFCC和GFCC的混合特征进行处理,最后再将处理结果聚合起来进行决策融合。在双流卷积神经网络结构中添加注意力模块,使分类模型更集中特征模型中的关键部位,对于不同通道的空间位置的特征都有不同程度的强调。
人类能够正确地分辨出说话人声音的不同,是因为人耳的听觉系统具有很高的复杂度。要使机器正确区分说话人,必须对说话人的声纹进行特征提取,使之成为机器可以区分的特征参数
Mel频率与人耳所听到的声音的频率的关系可以表示为:
MFCC特征提取的第一步是将语谱信号通过一系列Mel滤波器进行滤波处理。这些滤波器的频率划分按照Mel频率刻度进行,目的是模拟人类听觉系统对声音频率的感知。然后进行离散余弦变换,最后进行倒谱变换通常是取前几个(本文提取前13个通道) DCT系数,这些倒谱系数即为最终的MFCC特征参数。MFCC的提取流程如
对于输入的语言信号的预处理主要分为三个部分,预加重:信号通过一个高通滤波器,增强高频部分,减少信号中的噪声和失真。分帧:将预加重后的信号分成短时窗口(通常20~40毫秒),每个窗口称为一帧。加窗:对每一帧应用窗函数(如汉明窗),以减少帧末端的截断效应。
GFCC特征的提取流程如
Gammatone 滤波器是一种基于标准耳蜗结构的滤波器,其时域表达式如下:
每个Gammatone滤波器的输出是信号在特定频带上的能量或幅度。之后计算每个滤波器输出的功率谱。再对每个滤波器的功率谱取对数,最后对取对数后的功率谱进行离散余弦变换(DCT),将其转换为倒谱系数。DCT可以有效地将频谱特征编码为压缩的系数表示。从DCT得到的倒谱系数中选取前几个系数,这些系数即为GFCC特征。这些特征包含了信号的频谱和时域信息,更接近于人耳听觉系统的响应特性。GFCC的整个流程强调了对声音频率的更精确模拟,适合于需要捕捉细微听觉特性的任务。
语谱图将信号直接转换成频率和时间的二维图像,本文将信号按2048个采样点的窗口进行分割帧移的长度设置为窗口长度的一半,对每个窗口进行傅里叶变化,取变化后的幅度谱的平方作为该窗口的功率谱,将各个窗口的功率谱合并在一起形成最后的语谱图,语谱图中的每个代表了特定时间的频率范围内信号的能量,其特供了对声音的直观表示,更加全面的提供噪音的全局特征,除此之外MFCC和GFCC收声音信号质量的影响,例如低信噪比、失真或重叠等问题可能会降低分类的稳健性和准确性,相比MFCC,语谱图在一定程度上受到信号质量影响的程度可能较小。即使在低信噪比、失真或重叠等情况下,语谱图仍然可以提供较为清晰的频谱信息,有助于从噪音中提取特征。
本文提出了一种对于噪音分类的新型神经网络结构,该结构为两路卷积神经网络,其中一路网络对MFCC特征和GFCC特征进行分别处理如
将两路卷积神经网络处理后的两个全连接层得到的结果,进行平均贝叶斯融合,最后将融合后的结果输出如
注意力机制是一种用于增强特征图中重要通道的表现力的技术,主要用于卷积神经网络(CNN)中。它通过计算每个通道的重要性系数,以自适应地调整特征图中的通道权重,从而提高模型对特征的学习能力
我们所提出的模型在数据集上获得的先进实验结果。数据集中包含5个社会声音类别,分别为自然噪音,施工噪音,交通噪音,社会噪音,工业噪音。数据集中包含11,322条实验数据,每条实验数据长度为4秒钟,总时长为704分钟,采样频率为16 khz。数据集详细信息如
数据类别 |
样本数量 |
总时长/min |
包含声音类别 |
数据类别 |
自然噪音 |
2199 |
146.6 |
鸟叫、蝉鸣等动物叫声和雷声雨声等噪音 |
自然噪音 |
施工噪音 |
2097 |
139.8 |
挖掘、打洞、搅拌等 |
施工噪音 |
交通噪音 |
2220 |
148 |
街道汽车、铁路、城市轨道地铁、机场噪声等 |
交通噪音 |
社会噪音 |
2263 |
150.8 |
商场叫卖声,公园广场人流声等噪音 |
社会噪音 |
工业噪音 |
1793 |
119.3 |
冲床、打夯、风机等工业机器噪音 |
工业噪音 |
我们的实验基于
a) 准确率(Accuracy):模型预测正确的样本比例。
b) 精确率(Precision):预测为正样本中实际为正样本的比例。
c) 召回率(Recall):实际为正样本中被预测为正样本的比例。
d) F1-score:精确率与召回率的调和平均数,用于综合评估模型性能。
硬件方面实验在NVIDIA GTX 4060GPU上进行,软件方面,所有的实验都在编程环境为python3.10,模型基于pytorch框架进行分类模型的搭建,音频特征提取基于librosa和torchaudio库。在训练阶段,采用交叉熵函数作为损失函数,使用其衡量模型预测的概率分布与真实标签之间的差异,使用的优化器为Adam优化器学习率为0.001,Adam优化器结合了动量(Momentum)和自适应学习率(Adaptive Learning Rate),训练过程中,优化器根据计算出的梯度调整每个参数的值。
在本节中,我们将分析提出的模型在数据集上的性能表现。特别地,我们关注于模型在文本分类任务中的准确率、召回率和F1-score等指标。通过与当前主流模型进行比较,我们希望展示我们的方法在处理特定类型数据时的优势。如
模型 |
Accurary |
Percision |
召回率Recall |
F1-score |
CNN |
83.42 |
83.73 |
83.42 |
83.48 |
RNN |
81.10 |
81.68 |
81.09 |
81.21 |
LSTM |
83.48 |
83.73 |
83.48 |
83.55 |
our |
92.69 |
92.71 |
92.69 |
92.70 |
由
特征 |
模型设置 |
Accurary |
Percision |
召回率Recall |
MFCC |
AlexNet |
83.32 |
83.54 |
83.31 |
GFCC |
AlexNet |
86.10 |
86.68 |
86.10 |
MFCC + GFCC |
AlexNet |
90.28 |
90.30 |
90.28 |
spectrogram |
SENet |
84.79 |
85.10 |
84.79 |
our |
SENet |
93.21 |
93.24 |
93.21 |
our |
our |
96.32 |
96.45 |
96.32 |
不同特征的模型数据表示当模型的输入为MFCC特征和GFCC特征混合时,相比起单一的MFCC或者GFCC作为模型的输入,模型的准确率有了大约4%到6%的提升。由
同时因为语谱图数据的数据量偏大,保留了声音频谱图的全部数据,因此使用注意力机制对不同的特征通道分配不同的权重,能够自动突出重要的特征,同时抑制不重要的特征。这种选择性增强有助于模型更好地捕捉关键信息。通过强调重要特征并抑制噪声,通道注意力可能帮助模型在训练过程中降低过拟合的风险,提升其在测试集上的泛化能力。对此通过
模型 |
Accurary |
Percision |
召回率Recall |
F1-score |
CNN |
83.42 |
83.73 |
83.42 |
83.48 |
RNN |
81.10 |
81.68 |
81.09 |
81.21 |
LSTM |
83.48 |
83.73 |
83.48 |
83.55 |
our |
92.69 |
92.71 |
92.69 |
92.70 |
城市噪音数据通常是多样且复杂的,包括交通噪音、建筑施工噪音、自然环境声等。获取高质量的噪音数据样本并进行准确标注。以前研究的数据集多为小数据少分类的小型样本,本文采集的数据集包含多种分类,包含一万多条数据,为模型分类研究提供了一个大型样本的研究样本。噪音信号的特征往往比较复杂,模型分类效果往往不理想,本文提出的基于MFCC和GFCC的混合特征和语谱图组成双路卷积神经网络的输入,同时使用注意力机制模块对语谱图特征全部信息更好的关注。提高了特征表示能力,更好地解决了城市环境噪音中存在大量的干扰声音,这些背景噪音可能会遮蔽目标噪音信号,使得分类任务变得更加困难,同时兼顾人耳对噪音的直观感受和时域频频对噪音的处理。实验结果表明,提出的网络模型对数据集的分类精度达到了93.69%。有效地提高了环境声音的准确性。
本研究得到以下两个项目支持:
Yunfei Du,School of Basic Education,Beijing Institute of Graphic Communication,Beijing 102600,China,项目:the Project of Beijing Municipal Commission of Education (KM 202110015001);
北京印刷学院重点教学改革项目——工程认证背景下的工科数学教学改革对大学生创新思维与创业能力培养的研究与实践。
*通讯作者。