1. 引言
近些年来城市现代化发展越来越迅速,对于城市声音识别(Environment Sound Recognition, ESR)领域不断突破,声音识别已经在多个领域,如工业,医疗,民生,语音助手等相关子领域已经研究得相当成熟,而在城市噪音分类的城市管理领域内的研究则相对较少[1]。对于如何利用人工智能来实现城市的智能化管理,已经有很多城市开始进行逐步地研究与探索。城市中的不同来源的噪音使用神经网络来进行智能识别与分类可以帮助更好地管理与控制噪声产生,同时智能城市中各种传感器技术的成熟使实时动态的传播大量的噪音数据,使实时分析成为可能[2]。
对于复杂多变的城市噪音环境,环境声音特征的提取往往直接决定了一个分类模型的好坏,对于声音特征提取,往往分为去除噪音,平滑化,标准化以确保分析的稳定性和准确性,声音被处理成短时窗口,通常使用STFT或MFCC方法将长时间的声音数据分解为短时频谱片段,对于特征数据处理阶段,有很多人提出了关于特征提取的各种方法。LUZ等人使用频域特征和时域特征组合的聚合特征,使用时域频域混合特征能更加全面地表达声音在数据上的表示,蔡等[3]提出了一种子带能量规整感知线性预测系数特征,通过减去子带能量偏差来规整时频能量,能有效补偿语音特征信息,噪音环境下模型的平均识别精度提升68%。除了特征提取之外,一个优秀的模型结构也是对于分类模型结果好坏的关键,卷积神经网络(CNN)模型对于处理分类问题一直都有良好的效果文献[4]中研究了使用CNN网络来进行城市噪音分类,文献[5]中还对长短时间记忆网络(LSTM)和门控循环单元(GRU)这两种循环神经网络(RNN)的改进的网络与噪音分类问题做了探讨与研究,除此之外还有一些传统的机器学习算法如感知器随机森林算法也有不错的效果,如Pilos A等人[6]提出了一个基于MFCC单一特征和多感知器进行分类的声音识别模型,环境声音的不同图像表示(频谱图、MFCC和CRP)的分类准确性[7]。同时支持向量机(SVM) [8] [9]、K-最近邻(K-NN) [10]、高斯混合模型(GMM) [11] [12]、隐登马尔可夫模型(HMM) [13]和人工神经网络(ANN)等机器学习分类器被用于ESC。深度神经网络(DNN)也用于ESC。使用的各种DNN包括卷积神经网络(CNN) [14]、卷积递归神经网络(CRNN) [15]、深度置信神经网络(DBNN) [16]、张量深度堆叠神经网络(TDSNN) [17]和图像识别网络[18]。CNN在ESC中的首次使用是由Piczak [19]完成的。
上述方法均在不同的数据库中,有着不错的效果,但由于上述方法中有些公共数据库的数据量较少如ESC-50数据库,往往不同标签的声音数据只有50多中数据,导致数据的泛化能力不理想,在更实际复杂的城市环境中不能完成应有的效果,经研究在自主采集的数据集(该数据集包含五种常见的城市社会噪音,每类噪音2000多条数据样本,总共包含11,322条数据),发现使用混合特征和多注意力模糊后分类模型中,实验效果非常卓越。模型贡献主要分为三个方面。① 探索了在噪音处理中特征提取中使用了语谱图,MFCC (梅尔频率倒谱系数)和GFCC (梅尔频率组合倒谱系数)组合的混合特征应用在声音识别模型中的有效性和可行性。② 引入了注意力机制,探讨了多种注意力机制的组合对模型分类效果的提升和模型可解释性的研究。③ 基于卷积神经网络提出了一种新的网络结构。
2. 方法
提出的一种ESC识别模型,该模型由从噪音信号中的多个特征通道和一个新的卷积神经网络组成。特征提取语谱图,梅尔频率倒谱系数(MFCC)和伽马音频频率倒谱系数(GFCC)。对于分类阶段,提出了一种基于卷积神经网络(CNN)的双流结构,它更适用于音频数据的分类,其中一个流来对语谱图进行处理,另一个对MFCC和GFCC的混合特征进行处理,最后再将处理结果聚合起来进行决策融合。在双流卷积神经网络结构中添加注意力模块,使分类模型更集中特征模型中的关键部位,对于不同通道的空间位置的特征都有不同程度的强调。
2.1. 特征提取
人类能够正确地分辨出说话人声音的不同,是因为人耳的听觉系统具有很高的复杂度。要使机器正确区分说话人,必须对说话人的声纹进行特征提取,使之成为机器可以区分的特征参数[20]。本文采用MFCC,GFCC和语谱图组成三通道特征,不仅提高了模型在各种情景下的泛化能力,提取各种特征使模型对不同的频段的声音都有优秀的分类效果。
2.1.1. MFCC特征
Mel频率与人耳所听到的声音的频率的关系可以表示为:
MFCC特征提取的第一步是将语谱信号通过一系列Mel滤波器进行滤波处理。这些滤波器的频率划分按照Mel频率刻度进行,目的是模拟人类听觉系统对声音频率的感知。然后进行离散余弦变换,最后进行倒谱变换通常是取前几个(本文提取前13个通道) DCT系数,这些倒谱系数即为最终的MFCC特征参数。MFCC的提取流程如图1所示。
Figure 1. Diagram of the practical teaching system of automation major
图1. MFCC提取过程
对于输入的语言信号的预处理主要分为三个部分,预加重:信号通过一个高通滤波器,增强高频部分,减少信号中的噪声和失真。分帧:将预加重后的信号分成短时窗口(通常20~40毫秒),每个窗口称为一帧。加窗:对每一帧应用窗函数(如汉明窗),以减少帧末端的截断效应。
2.1.2. GFCC特征
GFCC特征的提取流程如图2,输入信号首先通过一组Gammatone滤波器。这些滤波器模拟人耳内的基底膜响应,按照非均匀的频率刻度(即伽马音频刻度)对信号进行滤波。每个Gammatone滤波器对应于不同的中心频率,能够更准确地反映人类听觉系统对不同频率的敏感性。
Figure 2. MFCC and GFCC characteristics
图2. MFCC和GFCC特征
Gammatone 滤波器是一种基于标准耳蜗结构的滤波器,其时域表达式如下:
每个Gammatone滤波器的输出是信号在特定频带上的能量或幅度。之后计算每个滤波器输出的功率谱。再对每个滤波器的功率谱取对数,最后对取对数后的功率谱进行离散余弦变换(DCT),将其转换为倒谱系数。DCT可以有效地将频谱特征编码为压缩的系数表示。从DCT得到的倒谱系数中选取前几个系数,这些系数即为GFCC特征。这些特征包含了信号的频谱和时域信息,更接近于人耳听觉系统的响应特性。GFCC的整个流程强调了对声音频率的更精确模拟,适合于需要捕捉细微听觉特性的任务。
2.1.3. 语谱图
语谱图将信号直接转换成频率和时间的二维图像,本文将信号按2048个采样点的窗口进行分割帧移的长度设置为窗口长度的一半,对每个窗口进行傅里叶变化,取变化后的幅度谱的平方作为该窗口的功率谱,将各个窗口的功率谱合并在一起形成最后的语谱图,语谱图中的每个代表了特定时间的频率范围内信号的能量,其特供了对声音的直观表示,更加全面的提供噪音的全局特征,除此之外MFCC和GFCC收声音信号质量的影响,例如低信噪比、失真或重叠等问题可能会降低分类的稳健性和准确性,相比MFCC,语谱图在一定程度上受到信号质量影响的程度可能较小。即使在低信噪比、失真或重叠等情况下,语谱图仍然可以提供较为清晰的频谱信息,有助于从噪音中提取特征。
2.2. 网络结构
本文提出了一种对于噪音分类的新型神经网络结构,该结构为两路卷积神经网络,其中一路网络对MFCC特征和GFCC特征进行分别处理如图2所示,分别包含卷积层,激活层,池化层,归一化层和全连接层。分别将特征数据先后进行三层卷积归一化,之后将两路特征混合之后输入全连接层,另一路卷积网络处理处理语谱图特征如图3所示,语谱图特征包含了噪音信号的更多的全局特征,所以这一路神经网络对比另一类网络除了包含卷积层,激活层,池化层,归一化层和全连接层之后,还多了一个注意力模块,使网络可以更从全局的数据中更多的注意到更多的关键数据,语谱图特征先进行一层5*5的卷积快,激活层和5*5的最大池化层,在进行两层3*3的卷积层和CAM注意力通道,进行归一化层处理后输入全连接层。
Figure 3. Spectral map features
图3. 语谱图特征
将两路卷积神经网络处理后的两个全连接层得到的结果,进行平均贝叶斯融合,最后将融合后的结果输出如图4所示,最后得到双路卷积神经的分类。
Figure 4. Mean Bayesian fusion
图4. 平均贝叶斯融合
2.3. 注意力机制模块
注意力机制是一种用于增强特征图中重要通道的表现力的技术,主要用于卷积神经网络(CNN)中。它通过计算每个通道的重要性系数,以自适应地调整特征图中的通道权重,从而提高模型对特征的学习能力[21]。本文中在第二路卷积中使用注意力机制是因为对比MFCC和GFCC特征,语谱图特征包含了声音信号的全部信息,经过三层卷积之后,语谱图数据为16*64*9*13的数据,通过本模型中的注意力模块,模块结构如图5,该模块使用两个池化操作,分别为平均池化(avg_pool)和最大池化(max_pool),这两种池化分别从输入特征图中提取通道的全局平均信息和全局最大信息。通过一系列全连接层将池化得到的通道描述向量进行压缩与扩展。经过ReLU层激活后数据再恢复到64的维度。这一过程能够挖掘出通道之间的关系,并强调重要通道。最终,平均池化和最大池化生成的两个输出向量相加,形成一个通道权重向量。然后,它通过Sigmoid函数得到一个范围在[0, 1]的系数,使得每个通道可以根据其重要性进行加权。
Figure 5. Attention module
图5. 注意力模块
3. 实验验证
3.1. 数据集
我们所提出的模型在数据集上获得的先进实验结果。数据集中包含5个社会声音类别,分别为自然噪音,施工噪音,交通噪音,社会噪音,工业噪音。数据集中包含11,322条实验数据,每条实验数据长度为4秒钟,总时长为704分钟,采样频率为16 khz。数据集详细信息如表1所示,数据集的训练采用五折交叉验证训练和测试模型的性能。
Table 1. Noise data details
表1. 噪音数据详细信息
数据类别 |
样本数量 |
总时长/min |
包含声音类别 |
数据类别 |
自然噪音 |
2199 |
146.6 |
鸟叫、蝉鸣等动物叫声和雷声雨声等噪音 |
自然噪音 |
施工噪音 |
2097 |
139.8 |
挖掘、打洞、搅拌等 |
施工噪音 |
交通噪音 |
2220 |
148 |
街道汽车、铁路、城市轨道地铁、机场噪声等 |
交通噪音 |
社会噪音 |
2263 |
150.8 |
商场叫卖声,公园广场人流声等噪音 |
社会噪音 |
工业噪音 |
1793 |
119.3 |
冲床、打夯、风机等工业机器噪音 |
工业噪音 |
3.2. 实验设置
我们的实验基于表1数据集。我们采用五折交叉验证训练和测试模型的性能,评估指标包括:
a) 准确率(Accuracy):模型预测正确的样本比例。
b) 精确率(Precision):预测为正样本中实际为正样本的比例。
c) 召回率(Recall):实际为正样本中被预测为正样本的比例。
d) F1-score:精确率与召回率的调和平均数,用于综合评估模型性能。
硬件方面实验在NVIDIA GTX 4060GPU上进行,软件方面,所有的实验都在编程环境为python3.10,模型基于pytorch框架进行分类模型的搭建,音频特征提取基于librosa和torchaudio库。在训练阶段,采用交叉熵函数作为损失函数,使用其衡量模型预测的概率分布与真实标签之间的差异,使用的优化器为Adam优化器学习率为0.001,Adam优化器结合了动量(Momentum)和自适应学习率(Adaptive Learning Rate),训练过程中,优化器根据计算出的梯度调整每个参数的值。
3.3. 实验结果分析
在本节中,我们将分析提出的模型在数据集上的性能表现。特别地,我们关注于模型在文本分类任务中的准确率、召回率和F1-score等指标。通过与当前主流模型进行比较,我们希望展示我们的方法在处理特定类型数据时的优势。如表2所示,本文模型相对比传统的CNN模型,RNN模型,LSTM模型在本文数据集下各种指标值有明显提升。
Table 2. System resulting data of standard experiment
表2. 不同模型的性能指标
模型 |
Accurary |
Percision |
召回率Recall |
F1-score |
CNN |
83.42 |
83.73 |
83.42 |
83.48 |
RNN |
81.10 |
81.68 |
81.09 |
81.21 |
LSTM |
83.48 |
83.73 |
83.48 |
83.55 |
our |
92.69 |
92.71 |
92.69 |
92.70 |
由表2可以看出,在语音识别中表现效果很好的循环神经网络(RNN)和长短时间记忆网络(LSTM)对于处理噪音分类问题效果不是很好,处理二维数据更占优势卷积神经网络(CNN)有不错的效果,可以得到对于噪音分类问题卷积神经网络是更好选择,故此本文使用的基本模型框架选用卷积层对噪音特征进行处理,本文使用模型的比其基本的网络模型在本数据集中无论准确率,准确率,召回率F1-score都有了大幅度提升大约提升了10%。同时为了证明混合特征的双路卷积网络是否优于单一特征的通道网络,通过实验对比不同的单路通道网络和本模型对于分类精度的影响。表3列出了不同的组合得出对比结果,对于MFCC,GFCC,MFCC和GFCC混合特征,spectrogram特征分别都使用本文网络模型中的相对应部分进行训练,来进行对比实验。
Table 3. Model data for different features
表3. 不同特征的模型数据
特征 |
模型设置 |
Accurary |
Percision |
召回率Recall |
MFCC |
AlexNet |
83.32 |
83.54 |
83.31 |
GFCC |
AlexNet |
86.10 |
86.68 |
86.10 |
MFCC + GFCC |
AlexNet |
90.28 |
90.30 |
90.28 |
spectrogram |
SENet |
84.79 |
85.10 |
84.79 |
our |
SENet |
93.21 |
93.24 |
93.21 |
our |
our |
96.32 |
96.45 |
96.32 |
不同特征的模型数据表示当模型的输入为MFCC特征和GFCC特征混合时,相比起单一的MFCC或者GFCC作为模型的输入,模型的准确率有了大约4%到6%的提升。由表3可以看出,虽然语谱图特征的模型数据不如MFCC + GFCC混合特征,但语谱图特征中包含更多的声音信息,故此本文的模型采用的MFCC + GFCC混合特征和语谱图特征的双路卷积结合,准确率,准确率,召回率F1-score都有了提升,对于声音信息的处理更加全面分类更加精准,语谱图特征的使用能够提供许多对比模拟人耳的MFCC和GFCC特征中被隐藏的信息。可以从原始的声音数据的层面来使模型的泛化性和鲁棒性提升。
同时因为语谱图数据的数据量偏大,保留了声音频谱图的全部数据,因此使用注意力机制对不同的特征通道分配不同的权重,能够自动突出重要的特征,同时抑制不重要的特征。这种选择性增强有助于模型更好地捕捉关键信息。通过强调重要特征并抑制噪声,通道注意力可能帮助模型在训练过程中降低过拟合的风险,提升其在测试集上的泛化能力。对此通过表4可以看出对于语谱图特征,和混合特征,分别进行无注意力模块网络训练,和有注意力机制模块训练。
Table 4. Performance metrics for different models
表4. 不同模型的性能指标
模型 |
Accurary |
Percision |
召回率Recall |
F1-score |
CNN |
83.42 |
83.73 |
83.42 |
83.48 |
RNN |
81.10 |
81.68 |
81.09 |
81.21 |
LSTM |
83.48 |
83.73 |
83.48 |
83.55 |
our |
92.69 |
92.71 |
92.69 |
92.70 |
4. 未来展望
城市噪音数据通常是多样且复杂的,包括交通噪音、建筑施工噪音、自然环境声等。获取高质量的噪音数据样本并进行准确标注。以前研究的数据集多为小数据少分类的小型样本,本文采集的数据集包含多种分类,包含一万多条数据,为模型分类研究提供了一个大型样本的研究样本。噪音信号的特征往往比较复杂,模型分类效果往往不理想,本文提出的基于MFCC和GFCC的混合特征和语谱图组成双路卷积神经网络的输入,同时使用注意力机制模块对语谱图特征全部信息更好的关注。提高了特征表示能力,更好地解决了城市环境噪音中存在大量的干扰声音,这些背景噪音可能会遮蔽目标噪音信号,使得分类任务变得更加困难,同时兼顾人耳对噪音的直观感受和时域频频对噪音的处理。实验结果表明,提出的网络模型对数据集的分类精度达到了93.69%。有效地提高了环境声音的准确性。
基金项目
本研究得到以下两个项目支持:
Yunfei Du,School of Basic Education,Beijing Institute of Graphic Communication,Beijing 102600,China,项目:the Project of Beijing Municipal Commission of Education (KM 202110015001);
北京印刷学院重点教学改革项目——工程认证背景下的工科数学教学改革对大学生创新思维与创业能力培养的研究与实践。
NOTES
*通讯作者。