基于深度学习的无参考CT图像质量评估模型

期刊菜单

基于深度学习的无参考CT图像质量评估模型
A No-Reference CT Image Quality Assessment Model Based on Deep Learning

DOI: 10.12677/mos.2025.143214, PDF, HTML, XML, 科研立项经费支持
作者: 沈菁莹, 章浩伟, 刘颖^*：上海理工大学健康科学与工程学院，上海
关键词: 无参考图像质量评估；临床胸部CT图像；视觉Transformer；知识蒸馏；NR-IQA； Clinical Chest CT Images； Vision Transformer； Knowledge Distillation

摘要: 无参考CT图像质量评估(NR-IQA)旨在建立与放射科医生主观评估高度一致的客观图像质量评估体系。目前诸多临床CT图像数据集没有实际IQA评分，基于此，本研究提出一种基于深度学习的NR-IQA模型，并对其进行验证。NR-IQA模型将卷积模块(CNN)与视觉Transformer模块(ViT)结合，同时训练4个CNN-ViT网络集成作为教师模型，以模拟放射科医生多次主观IQA过程；接着结合知识蒸馏框架，将教师模型的信息蒸馏到1个学生模型(单一CNN-ViT网络)中。本研究结合峰值信噪比(PSNR)和结构相似性(SSIM)两个客观指标来评估CT图像质量，并使用其标注临床胸部CT图像数据集以验证NR-IQA模型。提出的NR-IQA模型综合性能达到2.8070，PLCC为0.9916，SROCC为0.9683，KRCC为0.8471，MAE低至0.0259，MSE仅为0.0010，验证了其预测CT图像IQA精度的优越性。

Abstract: No-reference CT image quality assessment (NR-IQA) aims to establish an objective image quality evaluation system that achieves high consistency with radiologists’ subjective assessments. Given the current lack of actual IQA scores in numerous clinical CT image datasets, this paper proposed and validated a NR-IQA model based on deep learning. The proposed model integrated convolutional neural network (CNN) modules with visual Transformer (ViT) modules, and trained an ensemble of four CNN-ViT networks as teacher models to simulate radiologists’ repeated subjective IQA processes. Subsequently, a knowledge distillation framework was employed to transfer the information from teacher models to a student model (a single CNN-ViT network). This paper combined two objective metrics, peak signal-to-noise ratio (PSNR) and structural similarity (SSIM), to evaluate the quality of CT images, and used them to annotate the CT image dataset to validate the proposed NR-IQA model. The comprehensive performance of the proposed NR-IQA model reached 2.8070, achieving a Pearson linear correlation coefficient (PLCC) of 0.9916, Spearman rank-order correlation coefficient (SROCC) of 0.9683, Kendall rank correlation coefficient (KRCC) of 0.8471, with mean absolute error (MAE) reduced to 0.0259 and mean squared error (MSE) as low as 0.0010, validating its superior accuracy in predicting CT image IQA scores.

文章引用：沈菁莹, 章浩伟, 刘颖. 基于深度学习的无参考CT图像质量评估模型[J]. 建模与仿真, 2025, 14(3): 186-198. https://doi.org/10.12677/mos.2025.143214

1. 引言

计算机断层扫描(Computed Tomography, CT)是一种广泛应用于临床疾病诊断的成像技术[1] [2]。CT图像质量通常受到成像设备、辐射剂量和患者因素等不同因素的影响，对患者使用高辐射剂量可能会诱发恶性肿瘤，但低辐射剂量却又会导致CT图像质量下降，从而导致诊断偏差[3] [4]。因此，使用CT最重要的原则是将辐射剂量保持在“合理可行范围内尽可能低(As Low As Reasonably Achievable, ALARA)”[5]。为了实现这一原则，我们需要在保证CT图像质量的同时，在CT图像质量和辐射剂量之间找到最佳平衡。CT图像质量评估(Image Quality Assessment, IQA)是优化辐射剂量与权衡图像质量的重要环节。

CT-IQA分为主观评估和客观评估两大类。主观评估依赖于放射科医生的经验和视觉判断，然而，在面对大量CT图像时，评估过程难以实时进行。此外，不同放射科医生的评估结果也会存在不一致性[4] [6]。因此，需要一种高效稳定的客观IQA方法。在客观评估方法中，依据是否需要参考高质量图像，IQA方法可分为全参考(Full-Reference, FR) [7]-[9]、半参考(Reduced-Reference, RR) [10]-[12]和无参考(No-Reference, NR) [4] [5]，[13]-[16]三种。在患者进行CT扫描的过程中，出于患者安全考虑，不会使用高辐射剂量，而较高的辐射剂量才可能获得更好的图像质量，因此，在临床环境中获取高质量CT图像较为困难。相较于FR-IQA和RR-IQA方法，NR-IQA方法无需参考高质量图像作为评估图像质量的标准，适用于临床应用，因此，NR-IQA成为当前研究热点。

目前深度学习技术在诸多图像处理任务中取得了优异性能，研究者将深度学习技术引入NR-IQA问题中。Gao等人[4]提出了一个新的结合全局和局部信息的CT图像NR-IQA框架NR-GL-IQA。NR-GL-IQA方法采用了自动标记策略来获取大量训练数据，以预训练模型，然后使用少量主观评估数据对预训练模型进行了微调，以预测全局图像质量。接着使用基于感知的图像质量评估器来预测局部区域的质量。最后，通过结合全局和局部信息来估计整体图像质量。NR-GL-IQA方法可以准确预测CT图像质量，并且全局和局部IQA的组合比单一评估更接近放射科医生的评估。Lee等人[5]提出了一种基于自监督的NR-IQA方法。在该研究中，一个CascadeR-CNN目标检测模型尝试定位插入CT图像中的虚拟低对比度目标，检测模型的平均精度(mAP)被用作CT图像的质量分数。Lu等人[13]提出了一种用于冠状动脉CT血管级IQA的强化Transformer网络。研究者利用中心线跟踪算法检测和裁剪冠状动脉的立方区域，通过逐步强化学习剔除模块将与图像质量无关的立方区域剔除，而质量相关的立方区域被聚合并传送到Transformer中以预测质量分数。除此之外，很少有研究工作关注基于深度学习的CT图像的NR-IQA，一个主要原因是需要大量手动标记的CT图像数据来训练模型，对放射科医生来说，为大量CT图像注释质量分数既费力又耗时。

因此，本研究提出一种基于深度学习的NR-IQA模型，该模型将卷积(Convolutional Neural Network, CNN)模块与视觉Transformer (Vision Transformer, ViT)模块结合，实验结果表明，通过添加CNN模块，能够提升模型性能。同时训练4个CNN-ViT网络集成作为教师模型，以模拟放射科医生多次主观IQA过程，接着结合知识蒸馏框架，将教师模型的信息蒸馏到1个学生模型(单一CNN-ViT网络)中。本研究针对深度学习模型训练缺乏大量手动标记的CT图像数据，结合PSNR和SSIM两个客观指标来评估CT图像质量，并使用其标注临床胸部CT图像数据集(Clinical Chest CT Image Dataset, CCCIDB)来训练提出的模型。本研究提出的NR-IQA模型在将网络尺寸缩小4倍的同时，实现了更高的IQA准确性，为CT图像的质量评估任务提供了新的思路和方法。

2. 数据集与模型构建

2.1. 数据集

本研究使用的CCCIDB数据集由上海某医院提供，使用扫描设备SIEMENS SOMATOM Definition Edge (西门子，德国)采集，采集对象为志愿者。CCCID数据集包括以常规剂量采集的10名志愿者的CT图像数据，共计471张，所有CT图像数据均以dicom格式储存。

由于每位患者的数据只包含以常规剂量扫描获得的CT图像，为了增加数据集的多样性，本研究通过向常规剂量CT图像中插入泊松噪声以模拟生成低剂量CT图像，同时通过向常规剂量CT图像添加零均值独立噪声，以分别在常规剂量与低剂量之间50%和75%的剂量水平上合成CT图像[17]。原数据集包含471张CT图像，在合成三个新剂量的CT图像后，CCCID数据集中CT图像数量达到1884张。

由于CCCID数据集未提供IQA评分。因此，本研究通过计算常规剂量和其余三个新剂量CT图像之间的SSIM和PSNR指标，并结合两个指标值作为CT图像的实际IQA评分[16]。SSIM和PSNR分别从解剖结构保真度和噪声抑制水平两个维度提供了对CT图像的量化评价依据，二者的协同分析可为IQA提供关键技术支撑[16] [18] [19]。具体来说，本研究分别计算每张CT图像的SSIM和PSNR，并通过公式(1)，来获取每张CT图像的IQA评分Q，其中，PSNR指标经过归一化处理，a₁和a₂是调整每个指标贡献的权重，本研究中，a₁和a₂均为0.5。

$Q = a_{1} Q_{P S N R} + a_{2} Q_{S S I M}$ (1)

最后，数据集被划分为训练集、验证集和测试集，其中8位患者的CT图像用于训练和验证，剩余2位患者的CT图像用于测试，用于训练和验证的8位患者的CT图像样本80%随机分配到训练集，剩余的20%分配到验证集。

2.2. 模型构建

本研究所提出的NR-IQA模型结合了集成CNN-ViT网络和知识蒸馏策略，用于CT图像的质量评估。请参阅图1，模型由CNN模块、ViT模块以及能够将信息从4个CNN-ViT网络集成得到的教师模型中蒸馏到1个学生模型(单一CNN-ViT网络)中的知识蒸馏框架组成。

Figure 1. NR-IQA model framework diagram

图1. NR-IQA模型框架图

2.2.1. CNN模块

请参阅图2，CNN模块用于对输入的尺寸大小为(512, 512)的CT图像进行特征提取。该模块由4个卷积块、1个下采样层及1个裁剪层组成。每个卷积块包括1个卷积层，其卷积核大小为3 × 3，步幅为1，随后的是批量归一化层及ReLU激活函数，CNN模块中4个卷积块的卷积层的滤波器依次分别为8、16、32、64。接着通过1个卷积核大小为2 × 2，步幅为2的下采样层将卷积块产生的特征图的大小缩小一半，并生成3个输出通道。最后，通过裁剪层将特征图的大小调整为(3, 224, 224)，使其尺寸与构建的ViT架构的输入相匹配。

Figure 2. CNN model diagram

图2. CNN模块示意图

2.2.2. ViT模块

在临床评估过程中，放射科医生主要考虑与特定病理状况相关的图像区域质量，特别是对准确诊断至关重要的器官或结构的可见性[20]。ViT是一种基于Transformer架构的视觉模型，它将CT图像分成多个小块(Patch)，通过自注意力机制来捕捉CT图像中的全局和局部关系[21]。这种机制使得ViT能够模拟放射科医生评估CT图像的过程，使其能够观察整个图像并专注于对图像质量影响更大的区域。

请参阅图3，本研究中，ViT模块接受CNN模块输出的尺寸大小为(3, 224, 224)的特征图，并将其划分为N = 196个小块，每个小块的大小为16 × 16像素。这些小块被展平，并通过可学习的线性投影层映射到D = 768维度的向量。为了保留定位信息，向每个小块中嵌入1个可学习的位置编码。此外，在小块的开头添加了1个“类别标记”，以聚合所有其他标记的信息，并生成IQA评分。本研究使用的ViT模块包含12个Transformer编码器块，每个Transformer编码器块由1个层归一化、1个具有12个头的多头自注意力机制层、1个层归一化和1个多层感知机组成。在多头自注意力机制层中，每个头将输入转换为三个矩阵：键K、查询Q和值V。自注意力机制的计算过程如公式(2)，其中d_k表示K和Q的维度，多头自注意力机制层的输出是每个注意力头输出的拼接。

$Attention (Q, K, V) = Softmax (\frac{Q K^{T}}{\sqrt{d_{k}}}) V$ (2)

多层感知机由两个全连接层组成，并在两个全连接层之间使用GeLU激活函数。第一个全连接层有3072个神经元，第二个全连接层有768个神经元。最后，类别标记被送入一个全连接层以预测IQA评分。

Figure 3. ViT model diagram

图3. ViT模块示意图

2.2.3. 知识蒸馏框架

知识蒸馏旨在将来自大型复杂模型(即教师模型)的信息迁移到更简单、更小的模型架构中，即学生模型[22]-[24]。请参阅图1，本研究第一阶段在CCCID数据集上训练了4个CNN-ViT网络，并将其集成为教师模型。在第二阶段设计了一个蒸馏损失，教师模型通过蒸馏损失将4个CNN-ViT网络的信息蒸馏到1个学生模型(单一CNN-ViT网络)中，最终通过学生模型预测得到IQA评分。

教师模型的预测通过对4个CNN-ViT网络的预测进行平均得到。每个CNN-ViT网络在训练过程中使用AdamW优化器，同时添加权重衰减以防止过拟合。此外，本研究在训练过程中引入p-Huber损失函数，其定义如公式(3)：

${Loss}_{teacher} = {\begin{array}{l} \frac{1}{N} \sum_{i = 1}^{N} [\frac{{| {\hat{y}}_{i} - y_{i} |}^{p}}{p}], if | {\hat{y}}_{i} - y_{i} | \leq λ \\ \frac{1}{N} \sum_{i = 1}^{N} [λ | {\hat{y}}_{i} - y_{i} | - \frac{λ^{p}}{p}], otherwise \end{array}$ (3)

其中， $y_{i}$ 表示图像i的实际IQA评分， ${\hat{y}}_{i}$ 表示图像i的CNN-ViT网络预测IQA评分，N为CT图像数量，本研究中 $p = 1.6$ ， $λ = 1.0$ 。P-Huber损失函数在 $y_{i}$ 与 ${\hat{y}}_{i}$ 之间的误差小于 $λ$ 时使用Lp范数损失，而在误差大于 $λ$ 时使用修改的L1损失，在保留Huber损失鲁棒性的同时，通过可调的p参数增强了对CT图像中不同误差模式的适应能力，是IQA任务的理想选择。

使用集成CNN-ViT网络的目的是模仿不同放射科医师进行IQA评分。通常，CT图像的质量分数是通过对所有放射科医师提供的IQA评分进行平均得出的。本研究的教师模型中，每个CNN-ViT网络类似于一位放射科医师，学习来自输入CT图像的不同特征，以确保多样性，而后通过蒸馏，教师模型学习到的信息可以有效地转移到学生模型中。本研究中教师模型使用的4个CNN-ViT网络与学生模型中的单一CNN-ViT网络架构相似，唯一的不同是在最后一层，学生模型预测的是一个包含4个值的向量，而不是单一值。

在学生模型中使用两个目标损失函数进行训练，分别为预测损失和蒸馏损失。在预测损失中，学生模型的预测IQA评分与给定CT图像的实际IQA评分进行比较，使用P-huber损失函数，如公式(4)，其中 ${\bar{y}}_{i}$ 表示图像i的学生模型预测损失阶段得到的IQA评分。由于学生模型预测的是一个包含4个分量的向量，学生模型的最终预测是通过对该向量中的值进行平均得出的。

${Loss}_{student} ({\bar{y}}_{i}, y_{i}) = {\begin{array}{l} \frac{{| {\bar{y}}_{i} - y_{i} |}^{p}}{p}, if | {\bar{y}}_{i} - y_{i} | \leq λ \\ λ | {\bar{y}}_{i} - y_{i} | - \frac{λ^{p}}{p}, otherwise \end{array}$ (4)

第二个目标函数是蒸馏损失。在该损失中，标签由一个四维向量组成，该向量通过聚合教师模型的四个集成成员的预测生成。本研究引入了一个最大误差阈值，记作 $ε$ 。该误差阈值 $ε$ 代表教师模型预测的最大可接受误差，用来指导学生模型。具体来说，如果教师模型的平均预测超过了 $ε$ ，它将不被视为适合的标签用于学生训练。然而，当教师模型的平均预测误差低于 $ε$ 时，将其作为新的实际IQA标签向量使用，而不会使学生的预测与真实分布发生显著偏差[25] [26]。本研究中， $ε$ 值经过实验，取0.05。蒸馏损失定义如公式(5)，其中， ${\tilde{y}}_{i}$ 是教师模型集成成员的平均预测IQA评分。

${Loss}_{distillation} ({\bar{y}}_{i}, {\tilde{y}}_{i}, y_{i}) {\begin{array}{l} {Loss}_{student} ({\bar{y}}_{i}, {\tilde{y}}_{i}), if | {\tilde{y}}_{i} - y_{i} | \leq ε \\ 0, otherwise \end{array}$ (5)

最后，学生模型的总损失公式如下：

${Loss}_{total} = \frac{1}{N} \sum_{i = 1}^{N} [{Loss}_{student} ({\bar{y}}_{i}, y_{i}) + β {Loss}_{distillation} ({\bar{y}}_{i}, {\tilde{y}}_{i}, y_{i})]$ (6)

其中，β是蒸馏损失的权重。学生模型的训练方式与教师模型集成成员的训练方式相似，使用AdamW优化器，同时添加权重衰减以防止过拟合。

2.2.4. 评估指标

本研究使用皮尔逊线性相关系数(Pearson Linear Correlation Coefficient, PLCC)、斯皮尔曼秩相关系数(Spearman Rank-Order Correlation Coefficient, SROCC)和肯德尔秩相关系数(Kendall Rank-Order Correlation Coefficient, KROCC)来量化实际IQA评分 $y_{i}$ 与NR-IQA模型预测IQA评分 ${\overset{⌢}{y}}_{i}$ 之间的相关性。这些指标在IQA领域已被广泛验证并用于衡量模型的预测性能[27] [28]。

PLCC用于评估 $y_{i}$ 与 ${\overset{⌢}{y}}_{i}$ 之间线性相关性的强度及其方向性，其值越接近1表明预测值与实际值之间的线性一致性越高。PLCC的定义如公式(7)，其中 $μ_{y_{i}}$ 和 $μ_{{\overset{⌢}{y}}_{i}}$ 分别表示 $y_{i}$ 与 ${\overset{⌢}{y}}_{i}$ 的均值。

$P L C C = \frac{\sum_{i = 1}^{N} (y_{i} - μ_{y_{i}}) ({\overset{⌢}{y}}_{i} - μ_{{\overset{⌢}{y}}_{i}})}{\sqrt{\sum_{i = 1}^{N} {(y_{i} - μ_{y_{i}})}^{2} \sum_{i = 1}^{N} {({\overset{⌢}{y}}_{i} - μ_{{\overset{⌢}{y}}_{i}})}^{2}}}$ (7)

SROCC的定义如公式(8)，其中 $d_{i}$ 表示 $y_{i}$ 与 ${\overset{⌢}{y}}_{i}$ 之间的秩差。

$SROCC = 1 - \frac{6 \sum_{i = 1}^{N} d_{i}^{2}}{N (N^{2} - 1)}$ (8)

KROCC的定义如公式(9)，用于衡量 $y_{i}$ 与 ${\overset{⌢}{y}}_{i}$ 之间的秩序相关性，其中 $N_{c}$ 表示一致数据对的数量， $N_{d}$ 表示不一致数据对的数量。

$KROCC = \frac{2 (N_{c} - N_{d})}{N (N - 1)}$ (9)

$OPM = | PLCC | + | SROCC | + | KROCC |$ (10)

上述评估指标的取值范围均为[−1, 1]，在本研究中，上述评估指标的值越接近1表明模型的预测性能越优。此外，本研究进一步计算了一个综合性能度量(Overall Performance Metric, OPM) [29]，其定义如公式(10)。OPM通过对PLCC、SROCC和KROCC加权求和，提供了一个整体性能评估指标，其值越接近3表明模型的综合性能越优。

此外，本研究还使用均方误差(Mean Squared Error, MSE)和平均绝对误差(Mean Absolute Error, MAE)来量化 $y_{i}$ 与 ${\overset{⌢}{y}}_{i}$ 之间的差异。MSE是 $y_{i}$ 与 ${\overset{⌢}{y}}_{i}$ 之间差异的平方的平均值，其定义如公式(11)；MAE是 $y_{i}$ 与 ${\overset{⌢}{y}}_{i}$ 之间绝对差异的平均值，其定义公式(12)。MSE和MAE 的值越小，表明模型的预测性能越好。

$MSE = \frac{1}{N} \sum_{i = 1}^{N} {(y_{i} - {\overset{⌢}{y}}_{i})}^{2}$ (11)

$MAE = \frac{1}{N} \sum_{i = 1}^{N} | y_{i} - {\overset{⌢}{y}}_{i} |$ (12)

2.2.5. 实验环境

所有实验均在一台配备NVIDIA GeForce RTX 3060Ti显卡和Intel I5-12400F (Intel Corporation，美国)的计算机上运行。该计算机基于Windows 11操作系统，实验代码基于Python 3.10编程语言开发，并采用Pytorch 2.5.0深度学习框架构建深度学习模型。

3. 结果

3.1. 实验结果

本研究使用了4个CNN模块和1个ViT模块实现NR-IQA模型，并在CCCID数据集上进行训练、验证以及测试。教师模型中的每个集成成员(CNN-ViT网络)训练了100个epoch，批处理大小为10张CT图像，学习率设置为0.0002。使用在验证集上具有最佳整体表现的权重来形成教师模型。学生模型训练了20个epoch，蒸馏损失权重β设置为0.75，误差阈值 $ε$ 设置为0.05，学生模型的训练参数设置与教师模型相同。在IQA预测过程中，本研究使用了在整个训练集上表现最好的权重。教师模型的4个集成成员和学生模型的损失变化如图4所示，本研究提出的NR-IQA模型在性能评估中展现出显著的优越性，其综合性能指标达到2.8070，PLCC达到0.9916，表明模型预测IQA评分与实际IQA评分之间具有极强的线性相关性；SROCC为0.9683，KRCC为0.8471则共同验证了模型在排序一致性上的鲁棒性。在误差控制方面，MAE低至0.0259，MSE仅为0.0010，体现了模型预测IQA精度的优越性。

(a) 教师模型1损失变化 (b) 教师模型2损失变化

(e) 学生模型损失变化

Figure 4. The loss variation diagram of the four integrated members of teacher model and student model

图4. 教师模型的4个集成成员和学生模型的损失变化图

3.2. 消融实验

3.2.1. CNN模块消融实验

本研究同时分析了CNN模块数量、教师模型集成成员数量以及学生模型蒸馏损失权重对模型性能的影响，所有实验的训练参数设置均与本研究提出的NR-IQA模型相同。在第一个实验中，本研究改变了CNN模块数量，数量从0到5依次进行实验，所有消融模型中ViT架构保持不变，在完成教师模型的训练后再进行学生模型的训练，实验结果详见表1。实验结果表明，增加CNN模块的数量有助于提升模型预测IQA评分的性能。此外，当CNN模块数量为4时，模型综合性能最优，其次是5个CNN模块。

Table 1. The impact of different numbers of CNN modules on the performance of NR-IQA model

表1. 不同CNN模块数量对NR-IQA模型性能的影响

CNN模块数量	OPM	PLCC	SROCC	KRCC	MAE	MSE
CNN-0	2.6325	0.9311	0.9292	0.7723	0.0655	0.0102
CNN-1	2.5841	0.8863	0.9295	0.7683	0.0977	0.0141
CNN-2	2.6838	0.9363	0.9446	0.8028	0.0735	0.0113
CNN-3	2.6943	0.9579	0.9456	0.7908	0.0486	0.0050
CNN-4	2.8070	0.9916	0.9683	0.8471	0.0259	0.0010
CNN-5	2.7154	0.9613	0.9525	0.8016	0.0504	0.0049

3.2.2. 集成模型消融实验

在第二个实验中，本研究评估了不同教师模型集成成员数量对模型综合性能的影响。本研究从1到5逐步增加集成成员的数量，每个集成成员的网络架构保持不变，均为CNN-ViT网络，在完成教师模型的训练后再进行学生模型的训练，实验结果详见表2。实验表明，增加集成成员数量能提高所有评估指标的性能，这归因于网络泛化能力的增强。此外，表现最好的教师模型是由4个集成成员组成的。

Table 2. The impact of the number of integrated members on the performance of NR-IQA model

表2. 不同集成成员数量对NR-IQA模型性能的影响

集成成员数量	OPM	PLCC	SROCC	KRCC	MAE	MSE
1	2.6684	0.9519	0.9376	0.7789	0.0499	0.0054
2	2.7536	0.9755	0.9587	0.8195	0.0322	0.0025
3	2.7922	0.9761	0.9679	0.8481	0.0320	0.0025
4	2.8070	0.9916	0.9683	0.8471	0.0259	0.0010
5	2.7439	0.9505	0.9609	0.8325	0.0701	0.0074

3.2.3. 蒸馏损失权重实验

在第三个实验中，本研究将学生模型的蒸馏损失权重β从0到1逐步进行调整，每个学生网络训练20个epoch，实验结果详见表3。实验结果表明，蒸馏损失权重在β = 0.75时，模型所有评估指标表现最优。蒸馏损失在模型中起到了正则化的作用，使得模型能够学习IQA的整体分布，蒸馏损失权重使用0.2到0.8之间的数值是有效的，而给蒸馏损失和预测损失(β = 1)相同的权重则会导致模型性能下降。

Table 3. The impact of different student model distillation loss weights on the performance of NR-IQA model

表3. 不同学生模型蒸馏损失权重对NR-IQA模型性能的影响

蒸馏损失权重	OPM	PLCC	SROCC	KRCC	MAE	MSE
β = 0	2.3926	0.8994	0.8511	0.6422	0.0798	0.0116
β = 0.2	2.6823	0.9609	0.9386	0.7828	0.0849	0.0104
β = 0.25	2.6546	0.9429	0.9343	0.7774	0.0650	0.0090
β = 0.4	2.6406	0.8872	0.9498	0.8037	0.0761	0.0150
β = 0.5	2.6373	0.9328	0.9373	0.7673	0.0577	0.0070
β = 0.6	2.7482	0.9603	0.9584	0.8295	0.0333	0.0041
β = 0.75	2.8070	0.9916	0.9683	0.8471	0.0259	0.0010
β = 0.8	2.7237	0.9788	0.9477	0.7972	0.0423	0.0034
β = 1	2.6699	0.9588	0.9379	0.7732	0.0471	0.0047

3.3. 对比实验

本研究对比分析了提出的NR-IQA模型与六个已经应用于IQA任务的网络：ViT、CNN-ViT、ResNet [30]、DenseNet [31]、VGGNet [32]、GoogleNet [33]。为了确保训练的一致性，保持训练超参数不变，epoch均设置为100，实验结果请参阅表4。实验结果表明，本研究提出的NR-IQA模型相较于对比模型，在所有评估指标上均存在显著的优越性，在综合性能上，本研究提出的NR-IQA模型以2.8070领先，较次优模型VGGNeT提升约0.8%，表明其在综合性能上具有明显优势；同时本研究提出的NR-IQA模型在PLCC指标上表现突出，较第二名的DenseNet提升1.17%。实验结果验证了本研究提出的NR-IQA模型在IQA任务中的先进性和实用性，为NR-IQA技术在临床场景的应用提供了新的技术基准。

Table 4. Experimental results of different comparative models

表4. 不同对比模型的实验结果

模型	OPM	PLCC	SROCC	KRCC	MAE	MSE
ViT	2.7224	0.9562	0.9533	0.8128	0.0552	0.0073
CNN-ViT	2.7836	0.9746	0.9669	0.8420	0.0378	0.0031
ResNet	2.7126	0.9577	0.9508	0.8041	0.0583	0.0063
DenseNet	2.7731	0.9799	0.9621	0.8311	0.0591	0.0049
VGGNeT	2.7839	0.9762	0.9654	0.8423	0.0333	0.0024
GoogleNet	2.7423	0.9633	0.9597	0.8194	0.0665	0.0090
本研究	2.8070	0.9916	0.9683	0.8471	0.0259	0.0010

4. 讨论

NR-IQA旨在建立与放射科医生主观评估高度一致的客观图像质量评估体系。本研究提出一种基于深度学习的NR-IQA模型，该模型将CNN模块与ViT模块结合，同时训练4个CNN-ViT网络集成作为教师模型，以模拟放射科医生多次主观IQA过程，接着结合知识蒸馏框架，将教师模型的信息蒸馏到1个学生模型(单一CNN-ViT网络)中。本研究利用CCCID数据集对提出的NR-IQA模型进行验证，针对CT图像数据集没有实际IQA评分的问题，结合PSNR和SSIM两个客观指标来评估CT图像质量，并使用其标注CCCID数据集来训练提出的模型，最终实现了更高的IQA准确性，为CT图像的质量评估任务提供了新的思路和方法。

结合表1和表4可知，相较于单独使用ViT模块，结合CNN模块和ViT模块中的自注意力机制更能够提高模型性能。且表1中的实验结果表明当CNN模块数量增至4个时，OPM达到2.8070，PLCC突破0.99且MAE降至0.0259，揭示多层级特征提取可有效捕获CT图像的多尺度质量特征。然而，当CNN模块数量增至5个时，OPM下降3.26%，MAE反弹94.6%，表明过深的网络结构会引发梯度退化。

请参阅表2，集成成员数量对模型性能的影响实验表明，当集成成员增至4个时，OPM达峰值2.8070，PLCC突破0.99且MAE降至0.0259，证明适度集成通过特征互补显著增强评估鲁棒性。然而，当集成成员增至5个时，OPM下降2.25%、MAE上升，表明过度集成引发的决策冲突，对模型性能产生一定的影响。

本研究还提出了使用最大误差阈值来选择指导学生模型训练的教师预测。如果教师模型的平均预测超过了 $ε$ ，它将不被视为适合的标签用于学生模型训练；当教师模型的平均预测误差低于 $ε$ 时，将其作为新的实际IQA标签向量用于学生模型训练，有效地减轻了教师模型的极端预测对学生模型可能产生的不利影响，从而导致更稳健、更准确的学生模型训练过程。表3的实验结果表明，蒸馏损失权重的选择在训练中的重要性，当β = 0.75时，模型达最优性能(OPM = 2.8070, PLCC = 0.9916)，MAE较无蒸馏(β = 0)降低67.5%，验证适度软化教师监督可协调特征空间对齐与预测精度。

此外，未来的研究工作应该着重于测试提出的NR-IQA模型的泛化能力，通过在其他医学图像数据集上进行评估。

5. 结论

本研究提出了一种基于ViT模块和知识蒸馏策略的NR-IQA模型，该模型将CNN模块与ViT模块结合，同时训练4个CNN-ViT网络集成作为教师模型，以模拟放射科医生多次主观IQA过程，接着结合知识蒸馏框架，将教师模型的信息蒸馏到1个学生模型中。针对CT图像数据集没有实际IQA评分的问题，本研究结合PSNR和SSIM两个客观指标来评估CT图像质量，并使用其标注CCCID数据集以训练提出的NR-IQA模型，最终实现了更高的IQA准确性，为CT图像的质量评估任务提供了新的思路和方法。

基金项目

上海介入医疗器械工程技术研究中心(18DZ2250900)。

NOTES

^*通讯作者。

参考文献

[1]	Xun, S.Y., Li, Q.Y., Liu, X.H., et al. (2025) Charting the Path Forward: CT Image Quality Assessment—An In-Depth Review. arXiv: 2405.00075.
[2]	Yi, X. and Babyn, P. (2018) Sharpness-Aware Low-Dose CT Denoising Using Conditional Generative Adversarial Network. Journal of Digital Imaging, 31, 655-669. https://doi.org/10.1007/s10278-018-0056-0
[3]	Kasban, H., El-Bendary, M. and Salama, D. (2015) A Comparative Study of Medical Imaging Techniques. International Journal of Information Science and Intelligent System, 4, 37-58.
[4]	Gao, Q., Li, S., Zhu, M., Li, D., Bian, Z., Lv, Q., et al. (2020) Combined Global and Local Information for Blind CT Image Quality Assessment via Deep Learning. Medical Imaging 2020: Image Perception, Observer Performance, and Technology Assessment, Houston, 15-20 February 2020. https://doi.org/10.1117/12.2548953
[5]	Lee, W., Cho, E., Kim, W., Choi, H., Beck, K.S., Yoon, H.J., et al. (2022) No-Reference Perceptual CT Image Quality Assessment Based on a Self-Supervised Learning Framework. Machine Learning: Science and Technology, 3, Article ID: 045033. https://doi.org/10.1088/2632-2153/aca87d
[6]	Zarb, F., Rainford, L. and McEntee, M.F. (2010) Image Quality Assessment Tools for Optimization of CT Images. Radiography, 16, 147-153. https://doi.org/10.1016/j.radi.2009.10.002
[7]	Bevabcmlal, A. (2016) Knowledge-Based Taxonomic Scheme for Full-Reference Objective Image Quality Measurement Models. Journal of Imaging Science and Technology, 60, 60406-1-60406-15.
[8]	Sara, U., Akter, M. and Uddin, M.S. (2019) Image Quality Assessment through FSIM, SSIM, MSE and PSNR—A Comparative Study. Journal of Computer and Communications, 7, 8-18. https://doi.org/10.4236/jcc.2019.73002
[9]	Wang, Z., Bovik, A.C., Sheikh, H.R. and Simoncelli, E.P. (2004) Image Quality Assessment: From Error Visibility to Structural Similarity. IEEE Transactions on Image Processing, 13, 600-612. https://doi.org/10.1109/tip.2003.819861
[10]	Rehman, A. and Wang, Z. (2012) Reduced-Reference Image Quality Assessment by Structural Similarity Estimation. IEEE Transactions on Image Processing, 21, 3378-3389. https://doi.org/10.1109/tip.2012.2197011
[11]	Bampis, C.G., Gupta, P., Soundararajan, R. and Bovik, A.C. (2017) Speed-QA: Spatial Efficient Entropic Differencing for Image and Video Quality. IEEE Signal Processing Letters, 24, 1333-1337. https://doi.org/10.1109/lsp.2017.2726542
[12]	Zhang, Y., Phan, T.D. and Chandler, D.M. (2017) Reduced-Reference Image Quality Assessment Based on Distortion Families of Local Perceived Sharpness. Signal Processing: Image Communication, 55, 130-145. https://doi.org/10.1016/j.image.2017.03.020
[13]	Lu, Y., Fu, J., Li, X., Zhou, W., Liu, S., Zhang, X., et al. (2022) RTN: Reinforced Transformer Network for Coronary CT Angiography Vessel-Level Image Quality Assessment. In: Wang, L., Dou, Q., Fletcher, P.T., Speidel, S. and Li, S., Eds., Medical Image Computing and Computer Assisted Intervention—MICCAI 2022, Springer, 644-653. https://doi.org/10.1007/978-3-031-16431-6_61
[14]	Baldeon Calisto, M.G., Rivera-Velastegui, F., Lai-Yuen, S.K., Riofrío, D., Pérez, N., Benítez, D., et al. (2024) Distilling Vision Transformers for No-Reference Perceptual CT Image Quality Assessment. Medical Imaging 2024: Image Processing, San Diego, 19-22 February 2024. https://doi.org/10.1117/12.3004838
[15]	Xun, S., Jiang, M., Huang, P., Sun, Y., Li, D., Luo, Y., et al. (2024) Chest CT-IQA: A Multi-Task Model for Chest CT Image Quality Assessment and Classification. Displays, 84, Article ID: 102785. https://doi.org/10.1016/j.displa.2024.102785
[16]	Gao, Q., Li, S., Zhu, M., Li, D., Bian, Z., Lyu, Q., et al. (2019) Blind CT Image Quality Assessment via Deep Learning Framework. 2019 IEEE Nuclear Science Symposium and Medical Imaging Conference (NSS/MIC), Manchester, 26 October-2 November 2019, 1-4. https://doi.org/10.1109/nss/mic42101.2019.9059777
[17]	Ayaan, H., Adam, W. and Abdullan-al-zubaer, I. (2022) Noise2Quality: Non-Reference, Pixel-Wise Assessment of Low Dose CT Image Quality. Image Perception, Observer Performance, and Technology Assessment: Medical Imaging 2022, San Francisco, 20-24 February 2022, 120351C-1-120351C-6.
[18]	Mudeng, V., Kim, M. and Choe, S. (2022) Prospects of Structural Similarity Index for Medical Image Analysis. Applied Sciences, 12, Article 3754. https://doi.org/10.3390/app12083754
[19]	Hore, A. and Ziou, D. (2010) Image Quality Metrics: PSNR vs. SSIM. 2010 20th International Conference on Pattern Recognition, Istanbul, 23-26 August 2010, 2366-2369. https://doi.org/10.1109/icpr.2010.579
[20]	Cavaro-Menard, C., Zhang, L. and Le Callet, P. (2010) Diagnostic Quality Assessment of Medical Images: Challenges and Trends. 2010 2nd European Workshop on Visual Information Processing (EUVIP), Paris, 5-6 July 2010, 277-284. https://doi.org/10.1109/euvip.2010.5699147
[21]	Dosovitskiy, A., Beyer, L., Kolesnikov, A., et al. (2021) An Image Is Worth 16 × 16 Words: Transformers for Image Recognition at Scale. arXiv: 2010.11929.
[22]	Hinton, G., Vinyals, O. and Dean, J. (2015) Distilling the Knowledge in a Neural Network. arXiv: 1503.02531.
[23]	Zhao, Q., Zhong, L., Xiao, J., Zhang, J., Chen, Y., Liao, W., et al. (2023) Efficient Multi-Organ Segmentation from 3D Abdominal CT Images with Lightweight Network and Knowledge Distillation. IEEE Transactions on Medical Imaging, 42, 2513-2523. https://doi.org/10.1109/tmi.2023.3262680
[24]	刘泽奇, 王宁, 张冲, 魏国辉. 基于轻量化网络与知识蒸馏策略的心脏核磁共振图像分割[J]. 生物医学工程学杂志, 2024, 41(6): 1204-1212.
[25]	Chen, G., Choi, W., Yu, X., et al. (2018) Learning Efficient Object Detection Models with Knowledge Distillation. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, 4-9 December 2017, 742-751. https://dl.acm.org/doi/10.5555/3294771.3294842
[26]	Saputra, M.R.U., Gusmao, P., Almalioglu, Y., Markham, A. and Trigoni, N. (2019) Distilling Knowledge from a Deep Pose Regressor Network. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, 27 October-2 November 2019, 263-272. https://doi.org/10.1109/iccv.2019.00035
[27]	Su, S., Yan, Q., Zhu, Y., Zhang, C., Ge, X., Sun, J., et al. (2020) Blindly Assess Image Quality in the Wild Guided by a Self-Adaptive Hyper Network. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 13-19 June 2020, 3664-3673. https://doi.org/10.1109/cvpr42600.2020.00372
[28]	Wu, J., Ma, J., Liang, F., Dong, W., Shi, G. and Lin, W. (2020) End-to-End Blind Image Quality Prediction with Cascaded Deep Neural Network. IEEE Transactions on Image Processing, 29, 7414-7426. https://doi.org/10.1109/tip.2020.3002478
[29]	Lee, W., Wagner, F., Galdran, A., Shi, Y., Xia, W., Wang, G., et al. (2025) Low-Dose Computed Tomography Perceptual Image Quality Assessment. Medical Image Analysis, 99, Article ID: 103343. https://doi.org/10.1016/j.media.2024.103343
[30]	Xu, L. and Chen, Q. (2019) Remote-sensing Image Usability Assessment Based on Resnet by Combining Edge and Texture Maps. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 12, 1825-1834. https://doi.org/10.1109/jstars.2019.2914715
[31]	Jiang, T., Hu, X., Yao, X., Tu, L., Huang, J., Ma, X., et al. (2021) Tongue Image Quality Assessment Based on a Deep Convolutional Neural Network. BMC Medical Informatics and Decision Making, 21, Article No. 147. https://doi.org/10.1186/s12911-021-01508-8
[32]	Gao, F., Yu, J., Zhu, S., Huang, Q. and Tian, Q. (2018) Blind Image Quality Prediction by Exploiting Multi-Level Deep Representations. Pattern Recognition, 81, 432-442. https://doi.org/10.1016/j.patcog.2018.04.016
[33]	Sun, J., Wan, C., Cheng, J., Yu, F. and Liu, J. (2017) Retinal Image Quality Classification Using Fine-Tuned CNN. In: Cardoso, M., et al., Eds., Fetal, Infant and Ophthalmic Medical Image Analysis, Springer, 126-133. https://doi.org/10.1007/978-3-319-67561-9_14

为你推荐

友情链接