机器学习驱动的出血性脑卒中智能诊疗建模研究

期刊菜单

机器学习驱动的出血性脑卒中智能诊疗建模研究
Research on Intelligent Diagnosis and Treatment Modeling of Hemorrhagic Stroke Driven by Machine Learning

DOI: 10.12677/aam.2025.141027, PDF, HTML, XML,
作者: 张志成：辽宁师范大学数学学院，辽宁大连
关键词: 神经网络；最小二乘回归；线性回归；决策树；Neural Network； Least Squares Regression； Linear Regression； Decision Tree

摘要: 出血性脑卒中是脑卒中的一种常见且致命的类型，其起病急、进展快、预后差，死亡率高。因此，研究血肿扩张、水肿发展及其预后预测具有重要临床意义。本文基于160位患者的个人史、疾病史、治疗方案及检查数据，采用多种机器学习模型(包括神经网络、最小二乘回归、XGBoost和LightGBM等)进行分析，构建了预测患者血肿扩展、水肿进展及mRS评分的数学模型。针对血肿扩张问题，本文首先利用患者首次检查与随访检查的数据，构建了血肿扩张的判定标准，并通过神经网络模型预测了所有患者发生血肿扩展的概率。结果表明，所建模型能够准确预测血肿扩展的发生，且具有较高的可靠性。对于水肿进展分析，本文结合最小二乘回归和决策树模型，深入探讨了不同治疗方法对水肿体积变化的影响，并通过Spearman’s rank correlation系数分析了血肿、水肿与治疗方法之间的关系。研究发现，不同治疗方法显著影响水肿体积的变化，且血肿与水肿的关系呈现一定的相关性。本研究通过多种模型的结合，提出了全面的血肿扩张与水肿进展预测框架，能够为临床提供精准的预警。创新性地将不同机器学习方法应用于出血性脑卒中的预后预测，并探讨了治疗方法与疾病进展的关系，为后续治疗优化提供依据。本文的模型和分析方法为出血性脑卒中患者的个性化治疗和预后评估提供了新的视角和技术支持。

Abstract: Hemorrhagic stroke is a common and fatal type of stroke, with acute onset, rapid progression, poor prognosis and high mortality. Therefore, it is of great clinical significance to study hematoma expansion, edema development and prognosis prediction. Based on the personal history, medical history, treatment plan and examination data of 160 patients, this paper uses a variety of machine learning models (including neural network, least squares regression, XGBoost and LightGBM, etc.) for analysis, and constructs a mathematical model to predict the patient’s hematoma expansion, edema progression and mRS score. For the problem of hematoma expansion, this paper first uses the data of the patient’s first examination and follow-up examination to construct the judgment criteria for hematoma expansion, and predicts the probability of hematoma expansion in all patients through the neural network model. The results show that the constructed model can accurately predict the occurrence of hematoma expansion and has high reliability. For the analysis of edema progression, this paper combines least squares regression and decision tree models to deeply explore the effects of different treatments on edema volume changes, and analyzes the relationship between hematoma, edema and treatment methods through Spearman’s rank correlation coefficient. The study found that different treatments significantly affect the changes in edema volume, and the relationship between hematoma and edema shows a certain correlation. This study proposed a comprehensive prediction framework for hematoma expansion and edema progression through the combination of multiple models, which can provide accurate early warning for clinicians. Different machine learning methods are innovatively applied to the prognosis prediction of hemorrhagic stroke, and the relationship between treatment methods and disease progression is explored to provide a basis for subsequent treatment optimization. The models and analysis methods in this paper provide new perspectives and technical support for the personalized treatment and prognosis evaluation of patients with hemorrhagic stroke.

文章引用：张志成. 机器学习驱动的出血性脑卒中智能诊疗建模研究[J]. 应用数学进展, 2025, 14(1): 247-262. https://doi.org/10.12677/aam.2025.141027

1. 问题重述

1.1. 问题背景

出血性脑卒中指非外伤性脑实质内血管破裂引起的脑出血，占全部脑卒中发病率的10%~15%。其病因复杂，通常因脑动脉瘤破裂、脑动脉异常等因素，导致血液从破裂的血管涌入脑组织，从而造成脑部机械性损伤，并引发一系列复杂的生理病理反应。出血性脑卒中起病急、进展快，预后较差，急性期内病死率高达45%~50%，约80%的患者会遗留较严重的神经功能障碍，为社会及患者家庭带来沉重的健康和经济负担。因此，发掘出血性脑卒中的发病风险，整合影像学特征、患者临床信息及临床诊疗方案，精准预测患者预后，并据此优化临床决策具有重要的临床意义。

出血性脑卒中后，血肿范围扩大是预后不良的重要危险因素之一。在出血发生后的短时间内，血肿范围可能因脑组织受损、炎症反应等因素逐渐扩大，导致颅内压迅速增加，从而引发神经功能进一步恶化，甚至危及患者生命。因此，监测和控制血肿的扩张是临床关注的重点之一。此外，血肿周围的水肿作为脑出血后继发性损伤的标志，在近年来引起了临床广泛关注。血肿周围的水肿可能导致脑组织受压，进而影响神经元功能，使脑组织进一步受损，进而加重患者神经功能损伤。综上所述，针对出血性脑卒中后的两个重要关键事件，即血肿扩张和血肿周围水肿的发生及发展，进行早期识别和预测对于改善患者预后、提升其生活质量具有重要意义。

医学影像技术的飞速进步，为无创动态监测出血性脑卒中后脑组织损伤和演变提供了有力手段。近年来，迅速发展并广泛应用于医学领域的人工智能技术，为海量影像数据的深度挖掘和智能分析带来了全新机遇。期望能够基于本赛题提供的影像信息，联合患者个人信息、治疗方案和预后等数据，构建智能诊疗模型，明确导致出血性脑卒中预后不良的危险因素，实现精准个性化的疗效评估和预后预测。相信在不久的将来，相关研究成果及科学依据将能够进一步应用于临床实践，为改善出血性脑卒中患者预后作出贡献[1]。

1.2. 问题提出

对于问题一，以探讨发生血肿的影响因子为目的进行建模。(a)问：要以表一患者sub001到sub100的入院首次影像检查流水号，发病到首次影像检查时间间隔以及表二中各时间点流水号和对应的血肿HM_volume值大小为条件，判断100位患者发病后48小时内是否发生血肿扩张同时借助附录一检查时间数据判断血肿扩张发生的具体时间。(b)问：基于前一百名患者发生血肿的事实情况，探讨出以患者的个人史，疾病史，发病相关和血肿的首次影像结果的相关数据为变量对患者是否发生血肿事件的影响，并在此基础上推断出160位患者发生血肿事件的概率。

对于问题二，以血肿周围水肿的发生，大小随时间的变化，以及治疗干预对于水肿大小进展的关联关系为目的进行建模。(a)问：基于前一百位患者的多次检查时的水肿ED_volume的大小，构建一条患者的水肿ED_volume的预期大小随发病时间变化的拟合曲线，同时计算出每一位患者的水肿大小的预期值和真实值的残差。(b)问：依照患者的个体差异对100位患者进行分组处理，探讨每一个亚组的水肿体积随时间进展曲线，同时计算出真实值和曲线间的残差。(c)问：探讨对患者进行脑室引流，止血治疗以及降颅压治疗等治疗手段对水肿体积进展的影响。(d)问：分析患者的血肿体积，水肿体积和治疗方法之间的影响关系。

2. 模型假设与符号说明

2.1. 模型假设

1) 假设血压的正常范围为60~140，将表1中在血压正常范围记为0，超出正常范围记为1。

2) 假设首次检查时间记为患者首次发病时间。

3) 假设以相关性形容血肿体积、水肿体积及治疗方法三者之间的关系。

4) 假设随访检查时间为下一次患者发病时间。

2.2. 符号说明

Table 1. Symbols

表1. 符号说明

符号	符号描述	单位
$H M_{0}$	首次影像血肿体积大小	10⁻³ ml
$H M_{1}$	随访1影像血肿体积大小	10⁻³ ml
$Δ R$	两次血肿相对增加体积	无
$T_{i, j}$	第i个患者第j次检查时间	h
${T^{'}}_{i}$	第i个患者发生血肿扩散时间	h
$P_{i}$	第i个患者发生血肿扩散概率	无
$E D_{i} (i = 1, 2, \dots, n)$	第i次影像水肿体积大小	10⁻³ ml
$E {D^{'}}_{i} (i = 1, 2, \dots, n)$	第i个患者水肿预测体积	10⁻³ ml
$H {M^{'}}_{i} (i = 1, 2, \dots, n)$	第i个患者血肿预测体积	10⁻³ ml
$P_{i}$	第i个患者发生血肿扩散概率	无
$λ_{i} (i = 1, 2, \dots, n)$	第i个特征因子	无
$a_{i} (i = 1, 2, 3, 4, 5)$	第i个亚组	无
$b_{j} (j = 1, 2, \dots, 14)$	第j个治疗方法	无

3. 问题一建模与求解

3.1. 问题分析与思路

在问题一中，对于(a)小问：根据题目提供的表格数据判断患者sub001至sub100发病后48小时内是否发生血肿扩张事件，首先给出具体的计算公式，表格中决定血肿扩张事件发生的关键是首次检查的HM_volume值与随访1次检查的HM_volume值。将随访1流水号的HM_volume值记为HM1减去首次检查流水号的HM_volume值记为HM0所得结果去除首次检查流水号的HM_volume值HM0最终结果记为，将结果大于0.33的r1且两次流水号时间间隔小于等于48小时的数据对应的患者就是发生血肿扩张事件的患者。

对于(b)小问：将患者列表及临床信息、患者影像信息血肿及水肿的体积及位置、患者影像信息血肿及水肿的形状及灰度分布中全部患者作为数据集，分为训练集和测试集。取前100位患者sub001至sub100作为训练集，通过对其参数进行占比分析，构建BP神经网络模型，并进行预测评估，得到相应的计算指标，以此推测出全部160位患者发生血肿扩张的概率。

3.2. 数据预处理

3.2.1. 信息剔除与数据化

对于问题一(a)判断患者sub001至sub100发病后48小时内是否发生血肿扩张，我们首先导入所需的库：pandas和datetime，提取数据：sub001-sub100。对于问题一(b)预测所有患者(sub001至sub160)发生血肿扩张的概率，首先导入建立模型所需的库，包括pandas、torch和torch.nn，并定义三个表格文件的路径：table1_dir、table2_dir和table3_dir，使用pandas库读取了这三个表格文件，将它们存储在相应的DataFrame对象中：table1df、table2df和table3df。

3.2.2. 数据标准化

sub001至sub100患者48小时内血肿扩张分析运用python中的pandas库查看和编辑数据，通过对数据进行处理：

(1) 计算： $Δ R = \frac{H M_{1} - H M_{0}}{H M_{0}}$ ；

(2) 过滤：将结果大于0.33的 $Δ R$ 且两次流水号时间间隔小于等于48小时的数据进行输出；

(3) 搜索：得到患者sub001至sub100发病后48小时内发生血肿扩张事件的具体患者，同时记录血肿扩张发生时间。

所得具体患者及血肿扩张发生时间为(表2)：

Table 2. Sub001~sub100 incidence and time

表2. Sub001~sub100发病情况及时间

	首次影像检查流水号	是否发生血肿扩张	血肿扩张时间
		1是，0否	单位：小时
sub001	20161212002136	0
sub002	20160406002131	0
……	……	……	……
Sub100	20180314000010	0

3.3. 基于神经网络的血肿扩张概率预测

3.3.1. 神经网络原理

神经网络通过构建类似于大脑神经突触联接的结构，来进行信息处理与预测。应用神经网络的过程中，处理信息的单元分为三类：输入单元、输出单元和隐含单元。输入单元接受外部给的信号与数据；输出单元实现系统处理结果的输出；隐含单元处在输入和输出单元之间，从网络系统外部是无法观测到隐含单元的结构的。同时神经元间的连接强度大小由权值等参数来决定。

$[a_{1}, a_{2}, \dots, a_{n}]$ 是n维度输入单元，神经网络的拓扑结构中包含两层权值矩阵J和K和偏置向量 $c_{1}$ ， $c_{2}$ ，经n个神经元的输入得到m维的输出单元 $[b_{1}, b_{2}, \dots, b_{m}]$ 。

$b = K f (J a + c_{1}) + c_{2}$ (4)

其中，隐层和权值矩阵和偏置向量的具体形式如下：

$J = [\begin{matrix} j_{11} & j_{12} & \dots & j_{1 n} \\ j_{21} & j_{22} & \dots & j_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ j_{q 1} & j_{q 2} & \dots & j_{q n} \end{matrix}]$ , $c_{1} = [\begin{matrix} c_{11} \\ c_{12} \\ ⋮ \\ c_{1 q} \end{matrix}]$ (2)

$K = [\begin{matrix} k_{11} & k_{12} & \dots & k_{1 q} \\ k_{21} & k_{22} & \dots & k_{2 q} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ k_{m 1} & k_{m 2} & \dots & k_{m q} \end{matrix}]$ , $c_{2} = [\begin{matrix} c_{21} \\ c_{22} \\ ⋮ \\ c_{2 q} \end{matrix}]$ (3)

3.3.2. 神经网络预测水肿扩张概率

基于python建立神经网络模型：

定义函数process_sex，处理性别信息，该函数将输入的性别字符串转换为一个包含0和1的列表，其中1表示男性，0表示女性。定义函数：process_pressure，用于处理血压信息。该函数根据血压范围判断是否异常，如果收缩压大于140或舒张压小于60，则认为是异常血压。定义函数process_table1，处理第一个表格文件。该函数遍历表格的所有列，对性别和血压两列进行处理，并将处理后的结果存储在一个列表中。最后，将所有列的数据转换为张量，并使用torch.stack函数将其堆叠在一起。定义函数process_labels，处理标签信息。该函数从名为“./out/1_a_for_b.txt”的文件中读取标签数据，并将其转换为一个张量。定义函数process_table2，用于处理第二个表格文件。该函数遍历表格的所有列，并将每一列的数据转换为一个张量。

我们调用训练集推出测试集：前100位患者推出后60，将得出的测试集作为训练集推出前一百即推出原训练集：后60推前100。带入pycharm进行求解得到水肿扩张概率(具体见表3)：

Table 3. Probability of hematoma expansion in sub001 to sub160

表3. Sub001至sub160发生血肿扩张的概率

	首次影像检查流水号	是否发生血肿扩张	血肿扩张时间	血肿扩张预测概率
		1是，0否	单位：小时
sub001	20161212002136	0
sub002	20160406002131	0
……	……	……	……	……
Sub160	20200821002584

3.3.3. 结果分析

从上文的分析可知，我们基于数据的前100例患者(sub001至sub100)的个人史，疾病史，发病及治疗相关特征，患者影像信息血肿及水肿的体积及位置，患者影像信息血肿及水肿的形状及灰度分布，调用前100位患者作为训练集推出后60位患者作为测试集，这是神经网络模型在机器学习中的有利体现，同时对预测结果具有指导意义[2]。

4. 问题二建模与求解

4.1. 问题分析与思路

问题二(a)：

根据前100个患者(sub001至sub100)的水肿体积(ED_volume)和重复检查时间点，首先我们对数据进行预处理，结合回归分析，来建立回归模型，然后借助python程序对前100种数据进行曲线拟合，并希望得到全体患者水肿体积随时间进展曲线和残差。

问题二(b)：

根据题目中要求患者水肿体积随时间进展模式的个体差异，构建不同人群(分亚组：3~5个)的水肿体积随时间进展曲线，首先我们将患者数据分组，希望借助回归模型构建不同数据组的水肿体积随时间进展曲线，然后借助机器学习软件pycharm计算前100个患者(sub001至sub100)真实值和曲线间的残差及其所属亚组。

问题二(c)：

为了分析不同治疗方法对水肿体积进展模式的影响，首先我们想到决策树算法，构建相应模型，然后通过拟合曲线的方式，观察水肿曲线变化特点以及不同治疗方法之间的差异，最后运用python评估不同治疗方法对水肿进展模式的影响。

问题二(d)：

对于血肿体积、水肿体积及治疗方法三者之间的关系，我们通过对问题二前三问的总结与分析，绘制三者中任意两个的关系散点图，借助机器学习方法，探索出三者的其他关系。

4.2. 数据再处理

4.2.1. 数据筛选与导入

对于问题二(a)，在Pandas库中，使用 strcontains0方法，筛选出包含特定子字符串(在这里是subo1)的行。以此排序数据，并使其与患者标签相匹配。引入所需的库：matplotlib、numpy、pandas、scipy；输入需要读取的Excel文件地址；读取Excel文件数据，将其存储为pandas表格，方便后续的数据处理table2df = pd.read_excel(table2_dir, header = 0)；对于问题二(b)，对于问题二(c)，导入所需库numpy、pandas、scipy、sklearn、KMeans、matplotlib、curve_fit、f_oneway，读取csv文件中的数据，进行初始化存储数据的列表，构建T、ED和A列表，最终将列表转换为NumPy数组；对于问题二(d)，使用pandas库和numpy库，同时设置中文标签，导入，并设置治疗方法：脑室引流、营养时间等。

4.2.2. 异常数据处理

对于问题二(a)：通过对数据进行预处理我们发现4个：20161224000862、20161223000334、20160518000830、20170605000297无法运用机器一致拟合患者的数据，我们决定进行特殊处理：不带入机器计算，通过针对性手段得出所需结果。

4.3. 最小二乘回归模型拟合曲线

4.3.1. 最小二乘回归模型

1) 最小二乘回归公式原理：

$\hat{b} = \frac{\sum_{i = 1}^{n} (x_{i} - \bar{x}) (y_{i} - \bar{y})}{\sum_{i = 1}^{n} {(x_{i} - \bar{x})}^{2}}$ (4)

$\hat{a} = \bar{y} - \hat{b} \bar{x}$ (5)

其中，n表示样本量，x_i和y_i分别表示第i个样本的自变量和因变量， $\bar{x}$ 和 $\bar{y}$ 分别表示所有样本的自变量和因变量的平均值[3]。

最小二乘回归模型流程图如图1：

Figure 1. Flowchart

图1. 流程图

4.3.2. 拟合曲线

通过最小二乘回归原理我们按照前100行数据进行分析，提取各个字段的数据，注意对于那些空白的或者无效的数据进行处理，对于时间字段，只取前八位数字，对于空或无效字段，转换为numpy的空值标记nan，对于体积字段直接读取并转为列表格式，这样做的目的是将所有的有效数据都集中在一个可以进行计算的结构里面，并且能够方便地处理缺失或者无效的数据。参照上述处理方式把所有时刻的数据集中到一起，以便进行线性拟合，定义需要进行拟合的函数形式，这里选择基本的线性模型：

$y = a x + b$ (6)

使用scipy库中优化模块下的一个函数curve_fit进行曲线拟合，打印出拟合得到的最优参数a和b，计算并得出残差，完成了最小二乘回归模型的建立，此时能够解决模型拟合，最后使用matplotlib库绘制原始数据点和拟合的曲线，可以直观地看出模型的拟合情况，及完成可视化。拟合曲线如图2所示：

Figure 2. Edema volume progression curve over time for all patients

图2. 全体患者水肿体积随时间进展曲线

曲线拟合分析：从图中可以直观的看到全体患者水肿体积随时间进展拟合情况，由于所有患者的集中检查时间不同，因而得到类似三个柱子的散点图，但并不影响我们对于真实值和所拟合曲线之间残差值计算的准确性。残差结果通过残差 = 真实值 − 预测值，运用拟合结果计算残差，所得的前100个患者(sub001至sub100)真实值和所拟合曲线之间存在的残差值如表4所示：

Table 4. Residual values of the first 100 patients

表4. 前100个患者残差值

	首次影像检查流水号	残差(全体)
sub001	20161212002136	−1.76
sub002	20160406002131	2.66
……	……	……
Sub100	20180314000010	−1.18

残差分析：残差一般服从于正态分布，可通过正态分布对其准确性进行检验。检验结果：

误差分析：

由于前100位患者的影像检查结果对应的散点共计436个，过于分散，而全部点采用线性拟合处理，得出的图像误差较大，不利于对残差进行分析，所得到的残差结果过于粗糙。

4.4. 线性回归模型解亚分组残差

4.4.1. 线性回归

线性回归表示为建立变量之间线性关系。其表达形式为

$y = w^{'} x + e$ , (7)

其中y表示因变量，x表示自变量，w表示权重，e表示误差。

4.4.2. 线性回归模型求解亚分组残差

线性回归模型求解亚分组残差围绕Pandas的DateFramedf进行，在每个组内执行线性回归。依据患者水肿体积随时间进展模式的个体差异，建立线性回归模型，将前100位患者分为5组。探索构建5组人群的水肿体积随时间进展曲线[4]。

首先操作和转化DataFrame的列为列表。将DataFrame的连续列(如“随访2流水号”，“随访3流水号”等)独立提取到各自的列表中。原始数据列表中的值为NaN，新列表中同样保持为NaN。

然后将先前分离的所有列表整合到两个大的列表x_all_new和 y_all_new中，同时移除至少包含一个NaN值的配对数据。

其次将数据划分成五个等频箱，然后在每个箱(或“组”)内执行线性回归。

最后计算残差(观测值和预测值之间的差异)，然后对观测值(y_all_new)与残差的关系进行线性拟合，并绘制这个拟合线，进而得到5个图表。

如下图3~7所示。

模型是通过python在由y值定义的不同组内执行线性回归，来分析不同变量对应关系。

依据前100个患者(sub001至sub100)的python运行得到结果以及拟合后的曲线，计算真实值和曲线间的残差(亚组)及其所属亚组，如下表5所示。

Figure 3. Edema volume progression curve over time in group 1 patients

图3. 第一组患者水肿体积随时间进展曲线

Figure 4. Edema volume progression curve over time in the second group of patients

图4. 第二组患者水肿体积随时间进展曲线

Figure 5. Edema volume progression curve over time in group 3 patients

图5. 第三组患者水肿体积随时间进展曲线

Figure 6. Edema volume progression curve over time in group 4 patients

图6. 第四组患者水肿体积随时间进展曲线

Figure 7. Edema volume progression curve of group 5 patients over time

图7. 第五组患者水肿体积随时间进展曲线

Table 5. Residuals (subgroups) of the first 100 patients and their subgroups

表5. 前100个患者的残差(亚组)及其所属亚组

	首次影像检查流水号	残差(全体)	残差(亚组)	所属亚组
sub001	20161212002136	−1.76	3.76	5
sub002	20160406002131	2.66	3.88	4
……	……	……	……	……
sub100	20180314000010	−1.18	−4.94	2

4.5. 决策树模型评估水肿进展影响

因为决策树原理是一种树形结构，从根节点开始，按照决策树的分类属性，其中每个内部节点表示一个属性上的判断，每个分支代表一个判断结果的输出，从上往下，逐层划分，直到叶子节点，便能获得结果，最后每个叶节点代表一种分类结果。所以构建决策树模型符合此题目的要求[5]。

图8分析：对于不同治疗方法对水肿体积进展模式的影响，每个点代表不同的治疗方法，通过治疗方法的替换，通过得出水肿体积随实际水肿体积的线性变化关系，在每个治疗方法节点上，根据治疗方法的选取进行分支，将结果划分到不同输出类中。

基于以上建立的决策树模型，借助机器学习软件python依据上图有效评估不同治疗方法对水肿体积进展模式的影响如下：

脑室引流与水肿体积成正相关，即使用脑室引流能够对水肿有减小作用。

止血治疗与水肿体积成正相关，即使用止血治疗能够对水肿有减小作用，但减小效果不如脑室引流。

降颅压治疗与水肿体积成正相关，即使用降颅压治疗能够对水肿有减小作用，且减小效果比前两种都要明显。

降压治疗与水肿体积成正相关，即使用降压治疗能够对水肿有减小作用，但减小效果不如止血治疗。

镇静、镇痛治疗与水肿体积成正相关，即使用镇静、镇痛治疗能够对水肿有减小作用，但减小效果不如降压治疗。

止吐护胃与水肿体积成微小正相关，即使用止吐护胃能够对水肿有减小作用，但减小效果不明显，同时减小效果是所有治疗方法中最不明显的。

营养神经与水肿体积成负相关，即使用营养神经不能够对水肿有减小作用，反而会使水肿体积增大，对水肿不具备治疗效果。

不同治疗方法对水肿体积进展模式的影响排序如下：

降颅压治疗 > 脑室引流 > 止血治疗 > 降压治疗 > 镇静、镇痛治疗 > 止吐护胃 > 营养神经。

Figure 8. Effects of different treatments on the progression pattern of edema volume

图8. 不同治疗方法对水肿体积进展模式的影响

4.6. Spearman’s Rank Correlation系数分析血肿水肿、治疗方法之间关系

Spearman’s rank correlation系数：

斯皮尔曼相关性是两者单调关系的强度，即两者在变大或变小的趋势上多大程度上保持步调一致，计算斯皮尔曼相关系数使用的是数据样本排位位次值。斯皮尔曼不需要先验知识(即除了数据本身不需要知道其它参数)便可以准确获取X和Y的采样概率分布之间的相关性。

基于以上分析建立Spearman’s rank correlation系数分析模型：鉴于血肿体积、水肿体积及治疗方法三者一定存在某种关系，或为线性，或为非线性。我们通过对问题二前三问的总结与分析，通过python计算血肿体积与水肿体积间的相关性和计算治疗方法与血肿体积、水肿体积间的相关性，并绘制每种治疗方法与血肿体积和水肿体积的散点图如下图9~16所示：

最后借助Spearman's rank correlation系数分析的原理结合三者相互之间的散点图得到他们的关系：

其中，血肿体积与水肿体积的相关性为：0.7051。

每一种治疗方法与血肿、水肿体积的相关性如下表6。

Figure 9. Relationship between hemostatic treatment and hematoma and edema volume

图9. 止血治疗与血肿、水肿体积关系

Figure 10. Relationship between intracranial pressure reduction therapy and hematoma and edema volume

图10. 降颅压治疗与血肿、水肿体积关系

Figure 11. Relationship between ventricular drainage and hematoma and edema volume

图11. 脑室引流与血肿、水肿体积关系

Figure 12. Relationship between ventricular drainage and hematoma and edema volume

图12. 脑室引流与血肿、水肿体积关系

Figure 13. Relationship between antihypertensive treatment and hematoma and edema volume

图13. 降压治疗与血肿、水肿体积关系

Figure 14. Relationship between sedation, analgesia and hematoma and edema volume

图14. 镇静、镇痛治疗与血肿、水肿体积关系

Figure 15. Relationship between antiemetic and stomach protection and the volume of hematoma and edema

图15. 止吐护胃与血肿、水肿体积关系

Figure 16. Relationship between hematoma volume and edema volume

图16. 血肿体积与水肿体积的关系

Table 6. Relationship between treatment methods and hematoma and edema volumes

表6. 治疗方法与血肿、水肿体积关系

治疗方法	血肿相关性	水肿相关性
脑室引流	0.135844	0.213549
止血治疗	0.081796	0.177765
降颅压治疗	0.254568	0.395792
降压治疗	0.076132	0.107713
镇静、镇痛治疗	−0.055101	0.053829
止吐护胃	0.044083	0.017385
营养神经	0.117969	−0.012418

5. 模型的评价

模型的优点：

问题一(b)中基于python建立神经网络模型：

问题二(a)最小二乘回归模型拟合曲线：曲线拟合采用了最小二乘法的方法，通过将误差的平方最小化和寻找数据的最佳函数匹配，它可以使得数据与实际数据之间的误差的平方和最小。

问题二(b)线性回归模型：更加便利简洁地反映拟合曲线的特征；

问题二(c)决策树模型：我们采用的决策树模型，可以将树的结构可视化分析有助于理解和解释。在处理数据的过程中也可以处理掉不相关的数据特征，去掉不完整的数据，同时具有测试数据集的运行过程比较快的特点。

问题二(d)我们采用Spearman's rank correlation系数分析血肿水肿、治疗方法之间关系可以不对数据的分布做出假设，可以直接分析数据可以衡量这些变量之间的任意关系同时处理掉不相关的数据特征。它的缺点是将变量数据等级化，只考虑变量的等级而忽略了具体数值的差异。当两个变量等级相近或者具体数值相差较大时Spearman's rank correlation系数可能会低估了它们之间的相关性。

模型的缺点

问题二(a)最小二乘回归模型：由于选择的是基本线性模型： $y = a x + b$ ，不利于对拟合曲线进行细致刻画，同时在将误差的平方最小化来寻找数据的最佳函数匹配，对于本题来说，自变量过多，出现过拟合现象；模型改进：

问题二(b)线性回归模型原理是采用线性的方式对数据进行拟合，会对残差的计算造成较大误差。

问题二(c)决策树模型拟合曲线时会发生过拟合现象。改进：我们需要对决策树进行剪枝、设置每一个叶节点的最小样本数、设置树的最大深度来减小模型的复杂度，从而避免决策树发生过拟合现象。

问题二(d)将变量数据等级化，只考虑变量的等级而忽略了具体数值的差异。当两个变量等级相近或者具体数值相差较大时Spearman's rank correlation系数可能会低估了它们之间的相关性。

参考文献

[1]	李涛. 基于CT的深度学习模型预测幕上自发性脑出血血肿早期扩张以及预后不良的研究[D]: [博士学位论文]. 广州: 南方医科大学, 2022.
[2]	李娟, 汤翔宇, 沈逸. 基于卷积神经网络的深度学习算法对颅内出血的类型识别及血肿分割一致性的研究[J]. 放射学实践, 2021, 36(1): 7-12.
[3]	钟堃琰, 刘惊雷. 基于低秩类间稀疏判别最小二乘回归的图像分类[J]. 山东大学学报(理学版), 2022, 57(11): 89-101.
[4]	李阔辰. 线性回归模型中的异方差检验与估计方法研究[D]: [硕士学位论文]. 太原: 山西财经大学, 2023.
[5]	张铃林. 基于决策树的结直肠癌风险预测模型研究[J]. 现代预防医学, 2023, 50(15): 2707-2713.

为你推荐

友情链接