1. 引言
出血性脑卒中是一种常见的脑血管疾病,其中出血性脑卒中是脑血管破裂导致脑出血的一种类型,占所有脑卒中病例的10%~15%。出血性脑卒中发病率较高、病情迅速发展、急性期内病死率较高,且大约80%的患者会遗留严重的神经功能障碍,给患者家庭和社会带来沉重的健康和经济负担[1]-[3]。其中血肿范围扩大是预后不良的重要危险因素之一,血肿周围的水肿作为脑出血后继发性损伤的标志,在近年来引起了临床广泛关注。传统的诊疗模式高度依赖医生的经验和判断,存在诊断效率低、个体化治疗方案制定困难等问题。近年来,人工智能技术的快速发展为出血性脑卒中的精准诊疗带来了新的契机。王恒等人[4]采用机器学习智能诊疗预测模型对出血性脑卒中患者进行预测。李倩等人[5]采用决策树和Logistic预测回归方法建立出血性脑卒中手术后感染风险预测模型。因此,基于机器学习和深度学习等智能算法[6],构建出血性脑卒中临床智能诊疗模型,能够有效整合多模态医疗数据,实现疾病的早期预警、精准诊断、治疗方案推荐和预后评估,为临床决策提供科学依据,最终提高患者的生存率和生活质量。本文将围绕对血肿周围水肿的发生及进展建模,并探索治疗干预和水肿进展的关联关系,具有重要的临床意义。
2. 模型建立
2.1. BP神经网络
BP (Back Propagation)神经网络[7]其结构主要有三部分组成,输入层、隐含层和输出层三个部分,如图1所示。采用全连接的方式,相同层的神经元之间无连接,不同层的神经元之间相互连接。
设输入层的节点数为
,隐含层节点数为
,输出层节点数为
,学习速率为
,激励函数为
。其中激励函数
采用S (sigmoid)型函数。满足下式:
函数形式:
(1)
隐含层输出:
(2)
输出层输出:
(3)
误差计算:
(4)
Figure 1. BP neural network structure diagram
图1. BP神经网络结构示意图
2.2. 改进的麻雀搜索算法
由于传统BP神经网络在提高模型的表达能力和预测准确性相对较差,因此通过引入改进的麻雀搜索算法优化神经网络,可以有效地提高训练效率和模型收敛速度,使得神经网络能够更快地学习和适应不同的任务。麻雀搜索算法(SSA)是一种新型群智能优化算法[8]。为加强麻雀搜索算法种群多样性并提高算法的寻优效率,改进麻雀搜索算法(ISSA)算法采用混沌映射初始化种群策略,选择迭代速度、遍历性和均匀性更好的Logistic-Tent混沌映射初始化种群,将混沌映射生成的混沌序列映射到解空间内得到多样性更好的初始麻雀种群,从而扩大算法寻优搜索范围。
麻雀搜索算法优化BP神经网络的核心是利用麻雀搜索算法优化BP神经网络的初始权值和阈值,然后将BP神经网络的训练误差作为个体适应度值,将得到最优神经网络权值和阈值传递给BP神经网络训练模型,从而达成BP神经网络收敛速度和精度提升的目的。
ISSA优化BP的流程图如图2所示,具体流程为:
1) 初始化麻雀种群,选择所需的麻雀种群大小并采用TCM对ISSA的麻雀种群初始化,确定迭代次数;
2) 种群由一组候选解组成,这些候选解代表BP模型的参数值,根据每个参数可以取值的范围定义搜索空间,初始种群在搜索空间内随机生成,完成初始化;
3) 计算得到n个初始的适应度值,然后对适应度值的最小和最大的值分别为当前最差值和最优值;
4) 计算并得到发现者、加入者、警戒者的位置信息;
5) 根据当前迭代的最优值,并根据基于ISSA的更新规则更新位置;
6) 把当前最优值与前一次迭代的最优值进行对比,判断现在是不是最好?若是,则更新并保存当前位置;否则,保留前一次位置信息不更新;
7) 获取优化后的相关参数,判定最优条件是否满足?若是,则赋予BP最佳权值和阈值;否则,则进入步骤4),直至满足最佳条件即达到期望的适应度MSE达到最小值;
8) 输出算法找到的BP最佳解。
Figure 2. ISSA-BP algorithm optimizes flow chart
图2. ISSA-BP算法优化流程图
2.3. 聚类分析
聚类(Clustering)是指把相似的数据划分到一起,具体划分的时候并不关心这一类的标签,目标就是把相似的数据聚合到一起,聚类是一种无监督学习方法。模糊C均值算法简称FCM聚类算法,是一种基于划分的聚类算法[9],它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法的改进,普通C均值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。
假定给定数据样本,包含了
个对象
,
是第
个特征向量,
是
的第
个属性,每个样本中都包括
个属性。FCM算法可以将该数据集划分为
类,
为大于1的正整数,其中
个类的聚类中心分别为
。
FCM的目标函数为:
(5)
FCM的约束条件为:
(6)
上式中,
表示样本点
与聚类中心
的隶属度,
是模糊指数(
),
是样本点
与聚类中心
的距离,一般为欧式距离[10]。
维空间
,
,向量
和
的欧式距离为:
(7)
平方欧氏距离为:
(8)
FCM算法通过对目标函数的迭代优化来取得对样本集的模糊分类,为使目标函数
取得最小值,在满足约束条件的情况下对目标函数使用拉格朗日乘数,得到隶属度矩阵
和聚类中心
:
(9)
(10)
3. 模型求解与分析
3.1. 建立血肿扩张的概率模型
综合考虑前100名患者的个人史,疾病史,发病及治疗相关特征,考虑首次影响检查结果,以及详细影像检查结果。对数据结果导入至MATLAB工作区。其中,输入变量72组,包括“年龄”、“性别”、“血肿体积”以及详细影像检查结果等数据。输入层节点数为72,输出层节点数为1。
隐含层节点的选取公式为:
(11)
式中,
为隐含层的节点数,
为输入层的节点数,
为输出层的节点数,其中,
为常数。
根据公式可得,隐含层的节点范围为(12, 23),为寻找最优隐含层节点数。对隐含层节点数从12开始训练,一直训练到23,对比分类预测回归质量寻得最优节点数为21。因此,ISSA-BP神经网络模型的结构为72-21-1,模型运行界面如图3所示。进一步,绘制出训练集、测试集1和测试集2的热力图如图4,图5所示,表明模型具有较好的预测能力。
另外引入AUC (Area Under Curve)来检测模型方法真实性,其判断预测模型优劣的标准如下:根据整合选取附件数据,划分训练集、测试集1和测试集2,通过MATLAB编程分别绘制出AUC线如图6所示。
Figure 3. Fitness curve of ISSA-BP model training set
图3. 模型训练集适应度曲线图
Figure 4. Training set
图4. 训练集
(a) Test set 1 (b) Test set 2
(a) 测试集1 (b) 测试集2
Figure 5. Test set
图5. 测试集
Figure 6. Judging the merits of the prediction model by AUC
图6. AUC判断预测模型优劣
从图6可知,训练集和测试集2在[0.85, 0.95]范围内,说明预测模型效果很好;测试集1为0.59,说明效果较低,但对于本问题可以达到不错的效果。对拟合结果进行后处理操作,使所有预测结果的范围置于(0, 1)区间内,将预测的数值结果作为血肿扩张时间的概率结果。
3.2. FCM聚类分析
将前100名患者水肿体积数据和时间数据导入MATLAB工作区,编程读取时间数据作为x轴,水肿体积数据作为y轴。采用高斯模型拟合方式,峰值数量为2,稳健性调用LAR (Least Absolute Residual)最小绝对残差,以残差平方最小为目标进行拟合,拟合曲线如图7所示。
Figure 7. Edema volume data fit curve
图7. 水肿体积数据拟合曲线图
Figure 8. The change of the objective function with the number of iterations
图8. 目标函数随迭代次数变化情况
得到水肿体积随时间变化的曲线方程为:
(12)
基于建立的高斯模型,引入性别、年龄、脑出血前mRS评分、高血压病史、卒中病史、房颤病史、冠心病病史、酒史以及血压最大值、血压最小值等数据作为个体差异的指标进行FCM聚合分析,选取聚类中心为5,通过FCM聚类算法进行迭代计算,其目标函数值随迭代次数的变化情况如图8所示。
(a) Subcategory 1 (b) Subcategory 2
(a) 亚类1 (b) 亚类2
(c) Subcategory 3 (d) Subcategory 4
(c) 亚类3 (d) 亚类4
(e) Subcategory 5
(e) 亚类5
Figure 9. The fitting curve of edema volume over time in five subgroups
图9. 五个亚类人群的水肿体积随时间进展变化的拟合曲线
利用FCM聚类模型对不同人群分类的过程中,需要选取特征数据集。患者的个人史,疾病史,发病相关特征对患者样本差异具有重要影响。选取患者“年龄”“性别”“房颤史”“冠心病史”“脑室引流”等特征作为分类特征,于五类不同的人群,我们分别表示亚类1到亚类5,蓝色的采样点表示实际采样数据,实线表示通过高斯模型拟合得到的拟合曲线。采用FCM聚类算法五个亚类人群的水肿体积随时间进展变化的拟合曲线如图9所示,可以看到二者的吻合度都比较高。
通过采用FCM聚类算法五个亚类人群的水肿体积随时间进展变化的拟合曲线,得到“亚类1~5”的高斯拟合模型对立的表达结果如表1所示。
Table 1. Subclass fitting function expression using FCM clustering algorithm
表1. 采用FCM聚类算法亚类拟合函数表达式
亚类类别 |
参数
|
参数
|
参数
|
函数表达式 |
亚类1 |
3.861e+04 |
286.3 |
337.3 |
|
亚类2 |
3.608e+04 |
358.9 |
459.3 |
|
亚类3 |
6.575e+04 |
548.4 |
534.7 |
|
亚类4 |
2.392e+04 |
216.8 |
307.4 |
|
亚类5 |
5.015e+04 |
434.6 |
448.8 |
|
3.3. 方差分析
用一个统计量来检验因素对结果的显著影响,使用F分布进行检验,并将对结果进行分单因素方差分析。脑室引流对水肿体积进展模式影响不显著,P值为0.6943,F值为0.16;止血治疗对水肿体积进展模式影响显著,P值为0.0468,F值为4.15;降颅压治疗对水肿体积进展模式影响不显著,P值为0.7889,F值为0.07;降压治疗对水肿体积进展模式影响不显著,P值为0.5466,F值为0.37;镇静、镇痛治疗对水肿体积进展模式影响不显著,P值为0.4697,F值为0.53;止吐护胃对水肿体积进展模式影响不显著,P值为0.7202,F值为0.13;营养神经对水肿体积进展模式影响非常显著,P值为0.0007,F值为12.97,具体数据治疗方案对水肿体积的影响见表2。
Table 2. Effect of treatment regimen on the edema volume
表2. 数据治疗方案对水肿体积的影响
名称 |
脑室引流 |
止血治疗 |
降颅压治疗 |
降压治疗 |
镇静治疗 |
止吐护胃 |
营养神经 |
P |
0.6943 |
0.0468 |
0.7889 |
0.5466 |
0.4697 |
0.7202 |
0.0007 |
F |
0.16 |
4.15 |
0.07 |
0.37 |
0.53 |
0.02 |
12.97 |
显著性 |
不显著 |
显著 |
不显著 |
不显著 |
不显著 |
不显著 |
显著 |
治疗方式中营养神经和止血治疗对水肿有较好的治疗效果,止吐护胃和降颅压治疗的治疗效果较差,血肿治疗中脑室引流、止血治疗和降压治疗的治疗效果较好,止吐护胃和营养神经的治疗效果不显著。血肿指标与水肿指标的相关度为:0.6470。
4. 模型优劣评价
4.1. 模型优点
1) 基于ISSA-BP神经网络构建预测所有患者发生血肿扩张的概率模型,训练集和测试集2在[0.85, 0.95]范围内,预测模型效果很好。
2) 基于FCM聚类对数据进行归类分析,并利用高斯曲线拟合5个亚组的水肿体积随时间进展曲线,能够更全面地探索水肿进展的规律。
4.2. 模型缺点
1) 提出的分析过程相对复杂,需要合理选择和参数化聚类算法。进一步研究特征选择和模型解释方法,以提高模型的可解释性和临床可应用性,可以尝试一些改进的算法来提高模型性能。
2) 实际上受制于本题数据样本的限制,神经网络算法模型需要大量的数据和计算资源,需要进行结合智能算法进行改进,不适用于所有情况。
5. 总结
综上,本文通过分析出血性脑卒中患者的临床数据和医学影像信息,构建了ISSA-BP智能诊疗模型,采用FCM聚类算法的五个亚类人群的水肿体积随时间进展变化的拟合曲线,可以看到拟合精度较高,并得到“亚类1~5”的高斯拟合模型对立的表达结果。最后基于方差分析模型,研究不同治疗方法对水肿体积进展模式的影响,得到早期有效的止血治疗可以减小血肿体积,而脑室引流和降颅压治疗可以有助于减小水肿体积。治疗方法通常是综合应用的,医生需要根据患者的具体情况制定个性化的治疗计划,优先级可能取决于病情的严重程度和治疗窗口。未来,继续改进模型的性能,并将其应用于实际临床实践中,以改善出血性脑卒中患者的预后和生活质量。