SMLS:一种用于宫颈图像识别的分类识别模型
SMLS: A Classification Recognition Model for Cervical Image Recognition
DOI: 10.12677/mos.2025.143205, PDF, HTML, XML,   
作者: 方庆斌, 邹任玲*, 许 婧, 谷雪莲, 胡秀芳:上海理工大学,健康科学与工程学院,上海;管 睿:长海医院妇产科,上海;尹学志:上海贝瑞科技有限公司,上海
关键词: 宫颈癌SMLS模型宫颈图像识别多层次多尺度特征融合可分离卷积Cervix SMLS Model Cervical Image Recognition Multi-Level and Multi-Scale Feature Fusion Separable Convolution
摘要: 宫颈癌是全球妇女中发病率第四高、最危险的癌症。不过,只要及时发现和治疗,治愈率几乎可以达到100%。阴道镜检查是一种常见的医疗程序,用于评估宫颈病变的严重程度。然而,随着宫颈癌病例数量的逐年上升,医生面临的工作量也在不断增加,导致人工视觉检查中可能出现诊断错误和漏诊。由于传统ViT模型的特征提取能力并不能充分利用且运行效率低,因此本研究提出了一种新的模型,通过深度可分卷积和多层次多尺度特征融合(deeply separable convolution and multi-level multi-scale feature fusion, SMLS)对ViT模型进行改进,并辅以迁移学习以提高准确性。该方法旨在将宫颈阴道镜图像分为正常、宫颈上皮内瘤变和浸润癌三个类别。首先对数据集进行数据扩充以扩大其规模,然后对宫颈图像数据集的模型参数进行微调,然后通过与四种传统神经网络模型进行对比验证该模型的有效性,最后利用消融实验来进行对模型的各个模块的有效性验证。实验结果表明,所提出的方法在有限的数据集上达到了87.80%的准确率。该方法能够充分利用该模型的特征提取能力,识别效果好,可以应用于对宫颈图像的快速诊断识别。
Abstract: Cervical cancer is the fourth most prevalent and dangerous female cancer in the world, but if detected and treated in a timely manner, the cure rate is almost 100%. Colposcopy is a common medical procedure used to assess the severity of cervical lesions. However, with the number of cervical cancer cases rising every year, the workload faced by physicians is increasing, leading to potential diagnostic errors and missed diagnoses during manual visualization. Since the feature extraction capability of the traditional Vision Transformer (ViT) model is not fully utilized and operates inefficiently, this study introduces a novel model, which improves the ViT model by using deeply separable convolution and multi-level multi-scale feature fusion (SMLS), and is used to perform a new method of recognition and classification of cervical images, supplemented with migration learning to improve the accuracy. The objective of the method is to categorize cervical colposcopy images into three classifications: normal, cervical intraepithelial neoplasia and invasive carcinoma. Firstly, data expansion is performed on the dataset to enlarge its size, then the model parameters of the cervical image dataset are fine-tuned, and then the efficacy of the model is validated through comparing it with four traditional neural network models, and finally ablation experiments are used to carry out the validation of the efficacy of each module of the model. The experimental findings demonstrate that the proposed method achieves an accuracy of 87.80% on a limited dataset. The method can make full use of the feature extraction ability of the model, with good recognition effect, and can be applied to the rapid diagnosis and recognition of cervical images.
文章引用:方庆斌, 邹任玲, 许婧, 管睿, 谷雪莲, 胡秀芳, 尹学志. SMLS:一种用于宫颈图像识别的分类识别模型[J]. 建模与仿真, 2025, 14(3): 83-96. https://doi.org/10.12677/mos.2025.143205

1. 引言

根据世界卫生组织国际癌症研究机构(IARC)于2023年发布的最新全球癌症患病率数据[1],全球每年约有60万宫颈癌新发病例,3400万女性死于宫颈癌,这是世界上仅次于乳腺癌、结肠直肠癌和肺癌的第四大最常见的女性癌症,发展中国家死于宫颈癌的人数每年仍在增加。宫颈癌造成的死亡大多数发生在发展中国家。研究表明[1],在发达国家,由于早期诊断和治疗,宫颈癌前病变明显减少。宫颈癌的主要原因是人乳头瘤病毒(HPV)进入宫颈细胞,引起病毒感染。导致宫颈癌的其他因素还有性史、吸烟、HIV感染、长期服用避孕药、免疫系统差等[2]。它严重影响妇女的身心健康,也在一定程度上制约了人口和计划生育的发展。宫颈癌的筛查是在早期进行的,宫颈癌的筛查和诊断技术主要包括宫颈细胞学检查、HPV-DNA检测、阴道镜检查和活检[3]-[5]。宫颈细胞学检查[6] [7]是早期宫颈癌筛查的主要工具,包括巴氏涂片检查(Pap smear)和薄型细胞学检查(TCT)。阴道镜检查在目前的筛查过程中起着关键作用,被认为是宫颈癌的最佳筛查方法。阴道镜是1925年由德国学者汉斯·亨塞尔曼(Hans Hinselman)发明的[8],具有显微放大的功能,经阴道镜检查后可观察部位10~60倍,可观察外阴、阴道、子宫颈病变部位及病变程度,分析是否有疑似病变,可用于定位活检,尤其对无明显症状的患者。并且可以及时发现疾病,避免疾病的延误[2]。Wang Y等[9]研究表明,HPV和活检辅助阴道镜筛查宫颈癌,检测结果的准确率提高到100%。

近年来,机器学习[10]已经实现了对各种疾病的检测和预测能力。深度学习是一种复杂的机器学习算法,它学习样本数据的内在规律和表示层次,从这些学习过程中获得的信息对文本、图像和声音等数据的解释有很大帮助,并且在语言和图像识别方面取得了远远优于以往相关技术的结果[11]。目前深度学习也被应用到医学领域,利用深度学习模型对医学图像进行诊断识别。如Li等人首先通过引入原始图像与醋酸图像之间的差异验证醋酸白厚度与病变分级之间的相关性,然后利用自关注机制和跨模态特征融合将宫颈图像信息与临床文本信息融合,最终利用复旦大学妇产科医院提供的数据集实现了90.5%的准确率[12]。后期Dosovitskiy等人利用Transformer架构开发了Vision Transformer (ViT)模型[13],Transformer架构也正式应用于图像分类,如Md Khairul Islam等[14]提出将DCNN-ViT-GRU模型应用于肺部图像诊断。该模型采用卷积神经网络(CNN)与门控循环单元(GRU)和视觉变压器(ViT)相结合的方法,通过交叉验证在两个不同的数据集上分别达到99%和99.86%的准确率。然而,尽管ViT模型目前被广泛使用,但它也有缺点:在特征提取过程中,ViT模型只应用Block的最后一层进行最终的分类和识别,而忽略了其他层权重的重要性。而目前的ViT模型参数多,训练时间长,效率很低。临床应用耗时长,效果不理想。

综上所述,基于以上问题,本研究提出了一种基于ViT模型的新型宫颈图像诊断识别网络模型,并通过添加多级多尺度特征融合模块和可分离卷积模块实现了多尺度特征融合方法,最终在图像测试集中实现了87.80%的准确率,从而实现了一种更加完善的宫颈图像识别方法。

2. 材料

2.1. 数据集

实验资料为上海长海医院1632例患者阴道镜下宫颈照片。每个病例都包含患者的诊断病理报告,该报告表明患者是否患有疾病以及哪种类型,以便更好地构建数据集。数据于2021年3月至2023年3月收集,平均每位患者4张图像。根据诊断病理报告将资料分为三种类型:正常、宫颈上皮内瘤变(cervical intraepithelial neoplasia, CIN)和宫颈浸润性癌。在该数据集下,有5761张宫颈图像,其中4130张为正常,1529张为宫颈上皮内瘤变,102张为宫颈浸润性癌。颜色空间为RGB。

转化区又称鳞柱交界处,是宫颈癌最多发的区域,阴道镜检查重点观察转化区。根据能否暴露转化带,将阴道镜下的转化区分为三种类型[15] [16]。I型是指完全位于宫颈口外的转变区,完全可见鳞状–柱状交界处。II型转化区是指鳞柱交界处部分延伸至颈椎管内,正常方式也可完全暴露转化区。III型转化带是指部分渗透到子宫颈的鳞状柱连接处,已经完全不可见,会导致图像中的信息丧失或模糊,模型的特征提取部分无法有效提取相关特征,从而使识别模型无法准确区分子宫颈的正常区域与病变区域,影响图像分类和病变识别的准确性,因此在数据集处理过程中,在医生指导下删除了III型转化带的病例,仅保留转化区类型I和转化区类型II。

2.2. 图像预处理

在深度学习过程中,对图像和数据进行预处理[17]-[19],可以提高图像识别的准确率。本文基于上海长海医院获得的数据集,通过对数据集进行旋转、移动等数据增强方法[20]来增加数据集的数量,使正常、CIN、癌症这三个数据集的数量尽可能保持一致,提高模型的鲁棒性,减少过拟合现象的产生。

此外,通过在模型训练过程中对图像进行基本的随机裁剪、水平翻转和归一化操作;在模型验证过程中对图像进行基本的缩放、随机裁剪和归一化操作[21] [22]。最后,按照机器学习中常用的8:2分割比例,将数据集划分为训练集和测试集。每种疾病类别的数据集见表1。本文将通过Python编程语言,使用随机抽样进行训练,并将这些图像的大小归一化为224 × 224 × 3。

Table 1. Comparison of the number of images before and after data enhancement

1. 数据增强前后的图像数量对比

图像疾病类型

图像预处理之前

图像预处理之后

正常

4130

4130

CIN

1529

3935

癌症

102

3876

总共

5761

11,941

2.3. 实验配置

实验平台硬件配置:本实验在Windows 11操作系统下运行;GPU为NVIDIA Geforce 3060;Cuda版本为11.7;编程语言是Python。神经网络模型基于pytorch框架,版本1.13。

3. 方法

3.1. 模型架构

Figure 1. SMLS model structure

1. SMLS模型结构图

该实验所用到的SMLS网络模型架构如图1所示。该模型是由可分离卷积模块,线性映射模块,Transformer Encoder特征提取模块以及最后分类识别所用到的MLP Head模块组成。对于一个输入图像 p R C × H × W ,首先通过对进行归一化以及随机裁剪、缩放、翻转和旋转等操作后的224 × 224宫颈图像经过Patch Embedding层被分割为14 * 14个patch (在图中仅显示9个patch),每个patch代表图像的一个局部区域,后续每个patch经过可分离卷积以及线性映射层后将图像块序列转化为各自的标记特征,同时加入位置编码和一个可训练的类别编码(token [0])。最终输入特征表示如公式(1)所示。

F 0 = [ p c l a s s , p m 1 T ; p m 2 T ; p m N T ] + T p o s , T R ( P 2 C ) × D , T p o s R ( N + 1 ) × D (1)

其中, F 0 表示进入编码器前的输入特征, p c l a s s 表示类别编码, p m i 为切分后的图像块序列,T表示图像块的线性映射, T p o s 表示位置编码,通过位置编码信息增强模型的输入,N为输入图像切分图像块的数量,图像块的尺寸为 P × P × C

之后在Transformer Encoder模块中进行特征提取,在该特征提取模块中,主要由12个Transformer Block块堆叠而成,而每个Transformer Block都由一个多头注意力(Multi-head Self Attention, MSA)和一个多层感知机(MLP)模块组成[23] [24]。最后根据特征提取后的权重经过MLP Head模块对图像进行分类识别。

3.2. 注意力机制

一般情况,神经网络接受的输入是很多大小不一的向量,并且不同向量与向量之间有一定的关系,但实际训练的时候无法充分发挥这些输入之间的关系从而导致模型的训练效果极差,自注意力机制就可以有效解决这个问题[25] [26]。自注意力机制是深度学习中一种重要的机制,实际上是注意力机制的一种,也是一种网络的构型。Zhang R等人[27]提出将自注意力机制与CNN相结合,提高空间特征的表征能力,增强分类性能;Li Y Z等人[28]提出将自注意力机制与残差结构ResNet相结合,将输入与全局信息进行整合;特别是应用到Transformer模型中,用于处理自然语言处理(NLP),已经取得了瞩目的成就。自注意力机制与循环神经网络(RNN)不同,RNN [29]必须按照顺序进行处理,而前者可以在模型进行处理输入数据时考虑其他数据元素,可以并行计算,加快运行速度。同时自注意力机制不受输入序列长度的限制,它可以处理不同长度的输入序列,而无需预定义固定窗口的大小。在自注意力机制中,关键点在于Query (Q)、Key (K)、Value (V)。自注意力机制的总体计算如公式(1)所示。各个步骤的详细计算公式如公式(2)~(5)所示。通过公式(5)可以得到Softmax ( α 1 , i )的值,该值表明,值越大,受到关注的程度越明显。

Attention ( Q , K , V ) = Softmax ( Q K T d k ) V (2)

Q = ( q 1 T , q 2 T , , q n T ) ,   K = ( k 1 T , k 2 T , , k n T ) ,   V = ( v 1 T , v 2 T , , v n T ) (3)

Q i = a i w q ,   K i = a i w k ,   V i = a i w v (4)

α 1 , i = q 1 k i d , α 2 , i = q 2 k i d , , α n , i = q n k i d (5)

Softmax ( α 1 , i ) = e α 1 , i j e α 1 , j (6)

在很多Transformer模型中,加入了多头自注意力机制[30] [31]。它不仅能够学习不同类型的关注,还可以将他们合并以捕获更复杂的模式,有助于提高模型的表现。其与自注意力机制的结构不同之处如图2所示,其将自注意力机制中的qkv利用线性变换各分成nqkv,再按照如图2所示的方法传递到Head1,Head2 ... Headn中,最后根据公式(6)与公式(7)实现Multi-Head Self-Attention层。

MultiHead ( Q , K , V ) = Concat ( Head 1 , Head 2 , , Head n ) W 0 (7)

其中,Wo为model的维度。

Head n = Attention ( Q W i q , K W i k , V W i v ) (8)

Figure 2. Structure of the multi-pronged self-attention mechanism

2. 多头自注意力机制结构

3.3. 可分离卷积

随着MobileNet网络模型[32]的逐步优化,应用越来越广泛,而在MobileNet网络中应用的可分离卷积也越来越受到研发人员的欢迎。可分离卷积目前主要包括深度可分离卷积和空间可分离卷积[33] [34]。空间可分离卷积主要处理图片和卷积核的空间维度,将一个卷积核拆分成两个更小的卷积核,但并不是所有的卷积核都可被拆分。因此空间可分离卷积应用受到局限性较大,深度可分离卷积较为常见。在本实验中采用的方法为深度可分离卷积。深度可分离卷积的实现主要包括两个模块,即深度卷积和点卷积。

在原ViT模型中,因参数量大,模型结构复杂导致在处理图片维度时产生很大计算量,效率缓慢,极其占用资源。而可分离卷积模块是减小模型的复杂程度和参数量,从而提高模型的运行效率,减少模型训练时间。因此,本研究在原ViT模型的基础上,将图像划分为patch后,添加可分离卷积模块。如图1模型流程图的下半部分所示。通过深度可分离卷积的应用,可以使得运行效率得到很大程度的提高,详细运行步骤如图3所示。

Figure 3. Depth separable convolutional module

3. 深度可分离卷积模块

3.4. 多层次多尺度特征融合

在传统ViT模型中,最后的MLP模块是根据Transformer Encoder特征提取模块中的最后一层Block进行分类识别。这种仅仅使用最后一层输出特征来进行分类识别的做法会导致该特征提取模块的其他层输出特征的资源浪费,并不能做到充分利用Transformer Encoder模块。且在ViT的特征提取过程中,共包含12个特征提取Block,每一个Block都是在注意力机制的作用下进行的,每一层的输出都包含不同的特征提取信息,浅层及中层也包含一些关键的位置信息和细节信息。正如许多基于卷积神经网络的图像分类算法中[35],采用注意力机制与多层次多分支进行融合的方法,能够充分利用图像的特征提取能力。受此启发,本研究将第4层,第8层以及第12层输出的权重进行融合,将融合后的权重进行输出,多层次多尺度融合图如图4所示。

Figure 4. Multi-level and multi-scale feature fusion map

4. 多层次多尺度特征融合图

根据从低尺度、中尺度、高尺度三种不同层次尺度的特征来进行输出权重,并进行特征融合。通过该流程,从而实现了多层次多尺度特征融合的方法,可以捕捉到数据中的不同层次间的特征和模式,从而提高模型预测时的准确性。

3.5. 迁移学习

在本研究中,应用了迁移学习方法[36]图5显示了该SMLS模型利用迁移学习的基本方法概览。首先,SMLS模型在大型ImageNet数据集上进行预训练,训练后生成预训练权重,然后在自己的数据集上训练时,首先导入预训练权重,并在这些权重的基础上进行训练,准确率会有较大幅度的提高。

Figure 5. Transfer learning process chart

5. 迁移学习流程图

3.6. 模型训练参数

训练过程中,经过参数调优和反复训练后,Batch_size设置为16,Epoch设为50,模型优化器采用Adam算法,损失函数选用交叉熵损失。学习率经多次调试,最终决定采用余弦退火策略,动态调整学习率。余弦退火策略的计算公式如公式(14)所示,初始学习率设为0.0001。

η t = η min + 1 2 ( η max η min ) ( 1 + cos ( T cur T max π ) ) (9)

其中, η t 为在训练轮次或时间t时的学习率; η max 为习率的最大值; η min 为习率的最小值; T cur 为前epoch; T max 为总epoch值。

4. 实验结果与讨论

4.1. 迁移学习

本研究评估并比较了SMLS网络模型与VGG16、ResNet34、MobileNet和GoogleNet模型在阴道镜拍摄的宫颈图像上的分类性能。为保持公平性,所有模型均使用相同的数据集进行训练,为确保准确性和严谨性,训练集和测试集均来自相同的数据集,且模型使用参数也保持一致。

首先通过训练集进行训练,图6显示了使用迁移学习后的准确率和损失图像,其中训练集的准确率为99.12%,验证集的准确率为92.54%。图7显示了不使用迁移学习训练后获得的准确率与损失图像,其中训练集的准确率为71.8%,验证集的准确率为70.6%。经过对比可以看出,在使用迁移学习前后,训练集的准确率相差27.3%,同时也验证了迁移学习的效果非常显著。

Figure 6. After transfer learning effect (a) accuracy and (b) loss

6. 迁移效果后的(a) 准确率与(b) 损失

Figure 7. Before transfer learning effect (a) accuracy and (b) loss

7. 迁移效果前的(a) 准确率与(b) 损失

4.2. 评价指标

在机器学习领域,混淆矩阵,又称为可能性矩阵或错误矩阵。混淆矩阵[37]是一种可视化工具,特别用于监督学习中。在这项研究中,利用混淆矩阵来评估不同模型对宫颈中正常、CIN和癌症类型的识别能力。混淆矩阵的每一列代表了预测的类别,每一列的总数表示预测为该类别的数据的数量;每一行代表了数据的真实归属类别,每一行的数据总数表示该类别的数据实例的数目;每一列的数值表示真实数据被预测为该类的数目。根据真实标签和预测标签的分布,可以确定真阳性(TP)、假阴性(FN)、真阴性(TN)和假阳性(FP)的数量。根据混淆矩阵的准确率图像直观的表示了预测准确率,颜色越深表示准确率越高。图8图9分别代表不同模型对宫颈图像测试集识别的识别数量和识别准确率的混淆矩阵图。

Figure 8. Confusion matrix of quantitative results of different models for identification of cervical disease types: (a) SMLS; (b) VGG16; (c) GoogleNet; (d) MobileNet; (e) ResNet34

8. 不同模型对宫颈疾病类型识别数量结果的混淆矩阵:(a) SMLS;(b) VGG16;(c) GoogleNet;(d) MobileNet;(e) ResNet34

根据公式(9)可以根据混淆矩阵的参数得出各个模型对数据集识别的准确率,并绘制图10所示直方图。由图中可以看出,SMLS模型的识别准确率达到87.80%,优于其余三个模型,且MobileNet模型效果最差,最大差距为25.63%。这些结果明确表明了本研究新提出的模型对宫颈识别分类的准确性与一致性方面的优势。

Accuracy = TP + TN TP + TN + FP + FN (10)

精确率(Precision)表示在模型识别为正类的样本中,真正为正类的样本所占比例。一般情况下,精确率越高,说明效果越好。公式(11)说明了精确率的计算公式。

Figure 9. Confusion matrix of results on the accuracy of different models in recognizing cervical disease types: (a) SMLS; (b) VGG16; (c) GoogleNet; (d) MobileNet; (e) ResNet34

9. 不同模型对宫颈疾病类型识别准确率结果的混淆矩阵:(a) SMLS;(b) VGG16;(c) GoogleNet;(d) MobileNet;(e) ResNet34

Figure 10. Accuracy comparison plot between the SMLS model and other models

10. SMLS模型与其余对比模型的准确率图

Precision = TP TP + FP (11)

召回率(Recall)表示模型识别出为正类的样本的数量占总的正类样本数量的比值。一般情况下,召回率越高,说明有更多的正类样本被预测正确,模型的效果越好。公式(12)说明了召回率的计算公式。

Recall = TP TP + FN (12)

F1-Score又称平衡F分数,是统计学中用来衡量二分类模型精确度的一种指标。一般情况下F1-Score的值为0~1,1为最好。公式(13)说明了F1-Score的计算公式。

F 1 Score = 2 × Precision × Recall Precision + Recall (13)

表2所示,每个模型的精确度、召回率和F1分数都显示在表格中。结果表明,本研究中使用的SMLS模型在所有参数上都超过了其他模型,效果最优。具体来说,它的精确率为0.8878,召回率为0.8787,F1分数为0.8792。

Table 2. Comparison of evaluation indicators between models

2. 模型之间精确率、召回率以及F1值对比

模型

训练集Accuracy

验证集Accuracy

测试集

Accuracy

Precision

Recall

F1-Score

SMLS (ous)

0.9912

0.9254

0.8780

0.8878

0.8787

0.8792

VGG16

0.8615

0.8099

0.7460

0.7493

0.7469

0.7466

GoogleNet

0.8661

0.7782

0.6217

0.7048

0.6228

0.6277

MobileNet

0.8496

0.7909

0.7121

0.7542

0.7118

0.7122

ResNet34

0.9199

0.8553

0.8337

0.8452

0.8349

0.8332

4.3. 消融实验

该SMLS模型主要由可分离卷积与多层次多尺度特征融合构成。为了进一步验证该两个模块对模型准确率及效率的有效性,本文利用消融实验[38],将两个模块删除组合重新来检测每个模块对该模型识别宫颈图像的影响。在消融实验中,依旧使用同一份数据集进行训练和测试,使用同样的图像预处理方法,模型参数和优化器也保证相同,唯一的区别在于模型的模块组合。最终的消融实验评价指标结果如表3所示。

Table 3. Results from the ablation experiments on cervical image detection

3. 消融实验的宫颈图像检测结果

模型

训练集Accuracy

验证集Accuracy

测试集

Accuracy

Precision

Recall

F1-Score

ViT

0.9258

0.8322

0.8157

0.8238

0.8153

0.8149

MLS

0.9794

0.9018

0.8560

0.8625

0.8486

0.8520

SMLS

0.9912

0.9254

0.8780

0.8878

0.8787

0.8792

由表中评价结果可以看出,添加多层次多尺度模块后,模型的训练集准确率增长了0.0536,验证集准确率增长了0.0696。测试集准确率增长了0.0403,精确率增长了0.0387,召回率增长了0.0333,F1-Score增长了0.0371,各评价指标有较为明显的提高。添加可分离卷积模块后,该评价指标提升效果不明显,但从表4模型训练时间中可以看出,添加该模块后,该模型的训练时间得到很大程度的改善。

Table 4. Comparison of ViT and SMLS time

4. ViT与SMLS时间对比

训练集时间/epoch

验证集时间/epoch

总轮次

总时间

ViT

24:57

2:08

50

22:34:10

SMLS

13:29

1:19

50

12:24:00

综合上述实验表明,对于宫颈图像数据集的识别,多层次多尺度特征融合在宫颈图像识别的评价指标中提升效果明显,可分离卷积在提升模型训练效率上提升十分明显。各个模块在一定程度上均改善了模型的检测性能。

5. 结论

本文提出了一种新型深度学习网络模型SMLS,来进行对宫颈图像数据集的正常、宫颈上皮内瘤变以及癌症进行分类识别。首先,利用多层次多尺度特征融合方法来对特征提取模块进行改进,充分利用提取的特征。之后,添加深度可分离卷积模块来提高模型的识别效率。然后,采用数据增强技术,有效解决了类别不平衡问题。然而,由于数据集数量有限,直接训练导致准确率低、训练速度慢。因此通过采用迁移学习方法,准确率有了显著提高。其次,通过模型训练以及与其他卷积神经网络模型进行对比,准确率取得了87.80%,且各种评价指标均优于其他模型。最后,通过消融实验验证了各个模块对模型性能的贡献,进一步验证了模型设计的合理性和有效性。结果显示,本研究所提出的模型是有前景的。未来的工作将致力于进一步丰富宫颈图像数据集,以提升模型的泛化能力,并对模型进行进一步优化,力求建立一个适用于识别宫颈图像的临床诊断模型。

NOTES

*通讯作者。

参考文献

[1] Vale, D.B. and Teixeira, J.C. (2023) Implementing Plans for Global Elimination of Cervical Cancer. Nature Medicine, 29, 3004-3005.
https://doi.org/10.1038/s41591-023-02577-0
[2] Kashyap, N., Krishnan, N., Kaur, S. and Ghai, S. (2019) Risk Factors of Cervical Cancer: A Case-Control Study. Asia-Pacific Journal of Oncology Nursing, 6, 308-314.
https://doi.org/10.4103/apjon.apjon_73_18
[3] Bravo, C.A., Walker, M.J., Papadopoulos, A. and McWhirter, J.E. (2024) Social Media Use in HPV, Cervical Cancer, and Cervical Screening-Related Research: A Scoping Review. Preventive Medicine, 179, Article 107798.
https://doi.org/10.1016/j.ypmed.2023.107798
[4] Swanson, A.A. and Pantanowitz, L. (2024) The Evolution of Cervical Cancer Screening. Journal of the American Society of Cytopathology, 13, 10-15.
https://doi.org/10.1016/j.jasc.2023.09.007
[5] Asare, M., Obiri-Yeboah, D., Enyan, N.I.E., Nuer-Allornuvor, G., Fosu, E.S., Ken-Amoah, S., et al. (2024) An Intervention to Increase Cervical Cancer Screening among Women Living with HIV: A Mixed Methods Study. Patient Education and Counseling, 118, Article 107993.
https://doi.org/10.1016/j.pec.2023.107993
[6] Fu, L., Xia, W., Shi, W., Cao, G., Ruan, Y., Zhao, X., et al. (2022) Deep Learning Based Cervical Screening by the Cross-Modal Integration of Colposcopy, Cytology, and HPV Test. International Journal of Medical Informatics, 159, Article 104675.
https://doi.org/10.1016/j.ijmedinf.2021.104675
[7] Ramírez, A.T., Valls, J., Baena, A., et al. (2023) Performance of Cervical Cytology and HPV Testing for Primary Cervical Cancer Screening in Latin America: An Analysis within the ESTAMPA Study. The Lancet Regional HealthAmericas, 26, Article 100593.
[8] Petry, K.U., Nieminen, P.J., Leeson, S.C., Bergeron, C.O.M.A. and Redman, C.W.E. (2018) 2017 Update of the European Federation for Colposcopy (EFC) Performance Standards for the Practice of Colposcopy. European Journal of Obstetrics & Gynecology and Reproductive Biology, 224, 137-141.
https://doi.org/10.1016/j.ejogrb.2018.03.024
[9] Wang, Y., Wang, J. and Mei, H. (2022) Diagnosis of Cervical Intraepithelial Neoplasia and Invasive Cervical Carcinoma by Cervical Biopsy under Colposcopy and Analysis of Factors Influencing. Emergency Medicine International, 2022, 1-5.
https://doi.org/10.1155/2022/9621893
[10] Dennis, A.P. and Strafella, A.P. (2024) The Role of AI and Machine Learning in the Diagnosis of Parkinson’s Disease and Atypical Parkinsonisms. Parkinsonism & Related Disorders, 126, Article 106986.
https://doi.org/10.1016/j.parkreldis.2024.106986
[11] Hosain, M.T., Jim, J.R., Mridha, M.F. and Kabir, M.M. (2024) Explainable AI Approaches in Deep Learning: Advancements, Applications and Challenges. Computers and Electrical Engineering, 117, Article 109246.
https://doi.org/10.1016/j.compeleceng.2024.109246
[12] Li, J., Hu, P., Gao, H., Shen, N. and Hua, K. (2024) Classification of Cervical Lesions Based on Multimodal Features Fusion. Computers in Biology and Medicine, 177, Article 108589.
https://doi.org/10.1016/j.compbiomed.2024.108589
[13] Dosovitskiy, A., Beyer, L. and Kolesnikov, A. (2021) An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale. Proceedings of the ICLR Conference, Austria, 3-7 May 2021, 1-21.
[14] Islam, M.K., Rahman, M.M., Ali, M.S., Mahim, S.M. and Miah, M.S. (2024) Enhancing Lung Abnormalities Diagnosis Using Hybrid DCNN-ViT-GRU Model with Explainable AI: A Deep Learning Approach. Image and Vision Computing, 142, Article 104918.
https://doi.org/10.1016/j.imavis.2024.104918
[15] Kyrgiou, M., Bowden, S.J., Athanasiou, A., Paraskevaidi, M., Kechagias, K., Zikopoulos, A., et al. (2021) Morbidity after Local Excision of the Transformation Zone for Cervical Intra-Epithelial Neoplasia and Early Cervical Cancer. Best Practice & Research Clinical Obstetrics & Gynaecology, 75, 10-22.
https://doi.org/10.1016/j.bpobgyn.2021.05.007
[16] Manley, K.M., Wills, A.K., Morris, G.C., Hogg, J.L., López Bernal, A. and Murdoch, J.B. (2016) The Impact of HPV Cervical Screening on Negative Large Loop Excision of the Transformation Zone (LLETZ): A Comparative Cohort Study. Gynecologic Oncology, 141, 485-491.
https://doi.org/10.1016/j.ygyno.2016.03.032
[17] Litjens, G., Kooi, T., Bejnordi, B.E., Setio, A.A.A., Ciompi, F., Ghafoorian, M., et al. (2017) A Survey on Deep Learning in Medical Image Analysis. Medical Image Analysis, 42, 60-88.
https://doi.org/10.1016/j.media.2017.07.005
[18] Fernandes, K., Cardoso, J.S. and Fernandes, J. (2017) Transfer Learning with Partial Observability Applied to Cervical Cancer Screening. In: Lecture Notes in Computer Science, Springer, 243-250.
https://doi.org/10.1007/978-3-319-58838-4_27
[19] Lopes, U.K. and Valiati, J.F. (2017) Pre-Trained Convolutional Neural Networks as Feature Extractors for Tuberculosis Detection. Computers in Biology and Medicine, 89, 135-143.
https://doi.org/10.1016/j.compbiomed.2017.08.001
[20] Zhang, T., Luo, Y., Li, P., Liu, P., Du, Y., Sun, P., et al. (2020) Cervical Precancerous Lesions Classification Using Pre-Trained Densely Connected Convolutional Networks with Colposcopy Images. Biomedical Signal Processing and Control, 55, Article 101566.
https://doi.org/10.1016/j.bspc.2019.101566
[21] Zhang, X. and Zhao, S. (2018) Cervical Image Classification Based on Image Segmentation Preprocessing and a Capsnet Network Model. International Journal of Imaging Systems and Technology, 29, 19-28.
https://doi.org/10.1002/ima.22291
[22] Supriyanti, R., Budiono, T., Ramadhani, Y., et al. (2015) Pre-Processing of Ultrasonography Image Quality Improvement in Cases of Cervical Cancer Using Image Enhancement. 2015 IEEE 12th International Symposium on Biomedical Imaging, 2, 1318-1322.
[23] Zhu, D. and Wang, D. (2023) Transformers and Their Application to Medical Image Processing: A Review. Journal of Radiation Research and Applied Sciences, 16, Article 100680.
https://doi.org/10.1016/j.jrras.2023.100680
[24] Wang, Y., Du, B., Wang, W. and Xu, C. (2024) Multi-Tailed Vision Transformer for Efficient Inference. Neural Networks, 174, Article 106235.
https://doi.org/10.1016/j.neunet.2024.106235
[25] Chen, F., Huang, D., Lin, M., Song, J. and Huang, X. (2024) RDNet: Lightweight Residual and Detail Self-Attention Network for Infrared Image Super-Resolution. Infrared Physics & Technology, 141, Article 105480.
https://doi.org/10.1016/j.infrared.2024.105480
[26] Xia, X. and Ma, Y. (2024) Cross-Stage Feature Fusion and Efficient Self-Attention for Salient Object Detection. Journal of Visual Communication and Image Representation, 104, Article 104271.
https://doi.org/10.1016/j.jvcir.2024.104271
[27] Zhang, R., Liu, G., Wen, Y. and Zhou, W. (2023) Self-Attention-Based Convolutional Neural Network and Time-Frequency Common Spatial Pattern for Enhanced Motor Imagery Classification. Journal of Neuroscience Methods, 398, Article 109953.
https://doi.org/10.1016/j.jneumeth.2023.109953
[28] Li, Y., Wang, Y., Huang, Y., Xiang, P., Liu, W., Lai, Q., et al. (2023) RSU-Net: U-Net Based on Residual and Self-Attention Mechanism in the Segmentation of Cardiac Magnetic Resonance Images. Computer Methods and Programs in Biomedicine, 231, Article 107437.
https://doi.org/10.1016/j.cmpb.2023.107437
[29] Al-Selwi, S.M., Hassan, M.F., Abdulkadir, S.J., Muneer, A., Sumiea, E.H., Alqushaibi, A., et al. (2024) RNN-LSTM: From Applications to Modeling Techniques and beyond—Systematic Review. Journal of King Saud UniversityComputer and Information Sciences, 36, Article 102068.
https://doi.org/10.1016/j.jksuci.2024.102068
[30] Park, G., Han, C., Kim, D. and Yoon, W. (2020) MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding. 2020 IEEE Winter Conference on Applications of Computer Vision (WACV), Snowmass Village, 1-5 March 2020, 1518-1526.
[31] Wang, D., Zhang, Z., Jiang, Y., Mao, Z., Wang, D., Lin, H., et al. (2021) DM3Loc: Multi-Label mRNA Subcellular Localization Prediction and Analysis Based on Multi-Head Self-Attention Mechanism. Nucleic Acids Research, 49, e46.
https://doi.org/10.1093/nar/gkab016
[32] Wang, W., Li, Y., Zou, T., Wang, X., You, J. and Luo, Y. (2020) A Novel Image Classification Approach via Dense-Mobilenet Models. Mobile Information Systems, 2020, 1-8.
https://doi.org/10.1155/2020/7602384
[33] Chowanda, A. (2021) Separable Convolutional Neural Networks for Facial Expressions Recognition. Journal of Big Data, 8, Article No. 132.
https://doi.org/10.1186/s40537-021-00522-x
[34] Chollet, F. (2017) Xception: Deep Learning with Depthwise Separable Convolutions. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, 21-26 July 2017, 1251-1258.
[35] Liu, C. and Meng, Z. (2024) TBFF-DAC: Two-Branch Feature Fusion Based on Deformable Attention and Convolution for Object Detection. Computers and Electrical Engineering, 116, Article 109132.
https://doi.org/10.1016/j.compeleceng.2024.109132
[36] Marcelino, P. (2018) Transfer Learning from Pre-Trained Models towards Data Science.
[37] Liu, S., Wang, L. and Yue, W. (2024) An Efficient Medical Image Classification Network Based on Multi-Branch CNN, Token Grouping Transformer and Mixer MLP. Applied Soft Computing, 153, Article 111323.
https://doi.org/10.1016/j.asoc.2024.111323
[38] Yang, T., Hu, H., Li, X., Meng, Q., Lu, H. and Huang, Q. (2024) An Efficient Fusion-Purification Network for Cervical Pap-Smear Image Classification. Computer Methods and Programs in Biomedicine, 251, Article 108199.
https://doi.org/10.1016/j.cmpb.2024.108199

Baidu
map