1. 引言
随着社交媒体(Social Media, SM)的普及,信息传播方式发生了显著变化。在SM中,用户的互动往往基于相似的观点,这种相似性导致了回声室效应的产生。回声室效应表现为信息的同质化和隔离性,限制了用户接触多元观点的机会,进而导致认知偏差和群体极化的加剧[1],影响了社会的和谐发展。因此,深入研究并检测回声室对维护信息多样性和社会稳定至关重要。
在分析社交网络中的回声室效应时,信息传播的路径、传播速度以及用户互动的时间序列决定了网络的结构变化,也直接影响了回声室的形成与演化。目前的大多数回声室检测模型主要依赖于静态网络分析,关注社区结构的拓扑特性和用户行为的一致性[2] [3]。尤其是在基于结构的回声室检测中,用户的观点传播路径、互动频率以及传播过程中时间因素的影响被忽略[4]。这种静态分析的局限性导致了对回声室边界和动态演化的错误划分,无法准确捕捉回声室的形成和演化过程。针对上述问题,本文提出了一种基于时序状态估计的回声室检测模型,将信息传播过程和时序特性纳入回声室检测的框架中。首先,采用动态随机块模型(Dynamic Stochastic Block Models, DSBM)作为网络的基础模型,结合改进的无迹卡尔曼滤波(Unscented Kalman Filter, UKF)算法,增强模型处理非线性动态网络的能力。UKF通过对网络状态的细致估计,有效捕捉了信息传播过程中的关键动态特征。同时,为了全面考虑用户信息在网络传播中的作用,对用户极性进行动态建模,设计一种基于独立级联的传播模型,为避免模型陷入局部最优[5],引入了模拟退火算法(Simulated Annealing, SA),用于优化社区结构搜索,以确保模型对回声室的识别更加准确。
2. 研究现状
回声室检测方法的研究经历了从基本的结构分析到考虑信息传播及其时序特性逐步深化的过程。目前的研究可以划分为三大类:基于内容的方法、基于网络结构的方法和混合方法。早期的回声室检测主要集中在基于内容和基于网络结构的静态分析上。基于内容的方法侧重于分析用户生成的文本数据,通过语言特征和观点一致性来识别回声室[6] [7]。然而,这类方法在处理用户行为和态度时往往存在简化的倾向,导致信息失真的现象。随之而来的基于网络结构的方法,研究者们利用网络中的节点和边进行社区检测,将回声室检测视为一种社区划分问题,通过网络的紧密度和聚集性来识别具有回声室效应的群体[8]。尽管此类方法在社区检测方面取得了一定的进展,但它们同样忽视了信息动态传播的特性,未能有效捕捉回声室效应的形成机制及其演化过程。
随着对回声室效应理解的逐步深入,研究者意识到仅通过内容或结构的静态分析无法全面解释信息传播的复杂性。因此,混合方法应运而生[9],这类方法尝试结合内容特征与社交网络中的用户行为来进行回声室检测。Yang [10]等人提出了一个增量社区检测模型,模拟网络结构的连续变化,检测每个快照中的社区演化;Liu [11]等人基于进化聚类框架提出了多目标进化算法,提升了聚类的准确率和平滑度。然而,这些方法仍然局限于静态结构分析,对信息传播和社交互动的时间动态特性考虑不足[12]。尽管Baumann [13]等人尝试通过用户观点和网络内容的相似性进行动态社区检测,但这类方法仍未充分解决信息传播过程中的复杂非线性问题。
尽管混合方法通过结合内容和网络结构对回声室进行了更全面的分析,现有的大多数研究仍然未能准确捕捉到信息传播的时间特性和复杂的动态演变[14]。例如,Jiang [15]提出的rettweet-bert模型通过语言特征和网络结构来估计用户极性,但它对信息传播的动态路径缺乏详细刻画。现有方法普遍缺少对传播路径、信息流动方向及时间因素的建模,无法提供对回声室形成和演变过程的完整解释。
近年来,随着深度学习和图神经网络(GNN)的兴起,回声室检测的研究也取得了新的进展。例如,Hamilton等人[16]提出了基于图卷积网络(GCN)的社区检测方法,通过结合节点属性和网络结构来识别回声室。此外,一些研究者开始尝试将时间序列分析与图神经网络结合,以捕捉回声室的动态演化。例如,Kumar等人[17]提出了动态图神经网络(DGNN),通过分析网络结构的时序变化来预测回声室的形成。类似地,Li等人[18]提出了基于时序图卷积网络(T-GCN)的回声室检测模型,能够同时捕捉网络结构和时间序列特征。尽管这些方法在回声室检测方面取得了一定的进展,但它们仍然存在一些局限性。例如,大多数方法忽略了信息传播过程中的非线性特性,导致对回声室边界的错误划分。
针对现有模型的局限,研究者逐渐意识到引入动态社区检测算法和传播模型相结合的方案,是解决回声室效应检测问题的关键途径。DSBM为动态网络建模提供了新的思路,它通过EKF来估计网络状态,进而通过局部搜索算法识别社区成员。然而,EKF在处理动态非线性系统时存在许多局限性,例如对系统平滑性的过高要求,以及在强非线性条件下精度差和收敛速度低等问题。
为了解决这些问题,研究者提出了使用UKF替代EKF的方案。UKF通过对网络状态进行更精确的非线性估计,提供了对信息传播路径和动态状态的更好建模。然而,传统的UKF方法也存在局限,特别是在社交网络复杂的拓扑结构下,UKF对异常值敏感,且随着状态维度的增加,计算复杂度和所需的sigma点数量迅速增加。为了应对UKF在回声室检测任务中的局限,研究者提出了多种改进方案。Dertimanis等人[19]提出了逐次贝叶斯滤波框架,用有限的信息识别系统中的联合输入和状态,适用于线性系统的分析。Maes等人[20]通过围绕当前状态进行线性化的方式,提出了一种类似于EKF的算法,但仍未能有效应对社交网络的非线性复杂性。Lei等人[21]提出了基于UKF的递归非线性最小二乘方法,虽然能在一定程度上改进状态估计,但存在噪声滤波不够有效的问题。许万[22]则提出了自适应鲁棒无迹卡尔曼滤波算法,通过动态调整UKF的预测值,减少外部噪声的影响。
目前,回声室检测的主要挑战在于社交网络中的非线性信息传播和动态时序特性。尽管UKF相较于EKF有了显著进步,但传统的UKF在处理高维状态空间和复杂的传播路径时仍存在问题,尤其是在动态变化的社交网络拓扑结构和不确定的噪声环境下。为了克服这些局限性,本文提出了一种基于UKF和ICM (信息传播模型)的改进方法,旨在更好地捕捉回声室的动态特征,提高检测的精度与鲁棒性。
3. 模型介绍
3.1. 方法定义
一个动态社交网络
由时间步T和邻接矩阵集合
组成,其中任意时间步t内的网络
包含节点集合
和连边集合
。我们假设网络的邻接图是有向的,并且不存在自边,其中
,假设如果节点i到节点j在时间步t时有一条边,则
,否则为0,同时
,
表示截至时间T的所有快照集合。符号
表示节点i是社区a的成员,
表示社区c中节点的数量。在时间t,所有节点的社区由向量
表示,其中
表示在时间步t节点i属于社区a。在确定动态网络的拓扑结构之后,再进行状态预测。在每个时间步t通过邻接矩阵
算出块密度矩阵
,然后使用滤波算法得到对应网络在对应时间上的状态估计,通过优化算法迭代更新出网络状态矩阵和社区隶属向量。经过传播模型对社区中节点的信息传播进行计算,得到最终的社区纯度和电导值。因此,研究社交媒体中回声室的检测问题,其核心是对动态网络中状态矩阵的估计和信息传播的合理设计,本文将对这两个问题进行详细研究。
3.2. 模型
为了更准确地捕捉社交网络中的回声室特征,本文提出了一种基于动态随机块的回声室检测模型,该模型的核心思想是结合动态随机块模型(DSBM)和改进的无迹卡尔曼滤波(UKF),通过状态估计和传播模型的协同作用,揭示信息传播过程中的动态特性和社区极化现象。该模型的建立过程分为网络状态估计和传播模型构建两个阶段:(1) 网络的状态估计:因为DSBM中EKF对高维数据的不适用性,使用UKF进行代替,但使用传统的UKF时要对噪声数据进行提前设置,而在回声室检测任务中,社区中的噪声时不可预测并且是提前不可知的,所以引入抗差估计理论,来减小异常值对算法的影响。(2) 传播模型构建:在ICM的基础上,为了提升模型的适应性,考虑回声室对一致性信息传播的促进作用,引入了节点极性、社区整体极性和默认传播概率来判断信息传播的发生,在每个时间步,采用混合传播概率机制。利用了社区影响和默认传播之间的权衡,通过参数调整处理跨社区影响。经过这两个阶段,完成R-UKF模型的构造工作,模型基本框架如图1所示。
Figure 1. Framework diagram of the R-UKF model
图1. R-UKF模型的框架图
具体而言,在网络状态估计阶段,我们采用改进的UKF算法(R-UKF),通过动态计算加权因子和优化sigma点生成策略,提高了状态估计的精度和鲁棒性。在传播模型设计阶段,我们提出了一个基于社区极性的传播规则,只有当节点极性与社区整体极性一致时,信息传播才可能发生。这种设计不仅增强了模型对回声室效应的刻画能力,还为后续的实验验证奠定了理论基础。
3.2.1. 网络状态估计
动态随机块模型(DSBM)基于概率图模型,假设网络中的节点可以被划分为不同的社区,并考虑社区结构随时间的变化,核心思想在于将网络的演化视为社区结构的演变过程,生成动态网络,捕捉节点之间的时空关联。本文将在DSBM的基础上进行改进,使其适用于我们的回声室检测任务。
传统的DSBM模型使用的是简单的扩展卡尔曼滤波(EKF)算法,这种方法是基于线性系统的近似推断算法,对非线性系统的建模能力有限,同时因为社交网络数据通常是高维并且稀疏的,不仅包括节点的特征、连接关系、时间戳等信息,其中大部分节点之间的连接还是缺失的,导致高维数据中存在着大量的零值,增加了模型的处理复杂度。而无迹卡尔曼滤波(UKF)通过对非线性问题进行建模,通过采样技术来近似非线性变换,避免了对雅可比矩阵的线性化,还可以通过调整采样点的权重来处理观测噪声的变化,能够更好地处理社交网络中高维的数据内容。同时,DSBM采用局部搜索策略,在回升室检测任务中,由于参数空间大,加上搜索空间的限制,算法容易陷入局部最优解而无法找到全局最优解,因此,在模型的构造过程中,使用改进的UKF算法和全局搜索策略,分别计算网络状态和节点社区归属以实现回声室检测工作,从而更全面,更系统地描述社交网络是否存在回声室特征。
1) R-UKF
在回声室检测过程中可能会出现强非线性的状态变化,UKF采用无迹变换的方式来处理卡尔曼滤波中由于非线性传递引起的问题,这种方法在处理非线性运动时表现更为出色。但在传统的UKF中,我们多数都假设数据服从高斯分布,对异常值非常敏感,一旦系统遇到异常值,就可能产生较大的误差,进而影响估计的准确性。
Figure 2. Flowchart of the R-UKF algorithm
图2. R-UKF算法流程图
为了解决该问题,本文引入抗差估计理论,利用系统观测量与预测量的动态残差计算自适应加权因子,将这些加权因子应用于UKF中,在每个离散时间步对预测状态向量和预测误差协方差进行加权处理,以实现动态模型信息和测量值信息之间实现平衡,同时在生成sigma点时采用最小策略减少采样点的生成,使用非线性观测函数,使UKF能更好地适应实际观测数据的特征,从而提高状态估计的准确性。算法流程如图2所示。
2) 状态预测
目的:利用先前的状态估计和系统模型来预测下一个时刻的状态
,并同时估计系统不确定性
。使用状态转移方程来预测下一时刻的状态:
(1)
其中
是应用于前一状态的状态转移模型,
是一个均值为0,协方差矩阵为
的过程噪声。然后计算协方差矩阵,据上一个时刻的状态协方差矩阵
和系统噪声
和计算下一个时刻的状态协方差矩阵
:
(2)
其中
表示
时刻的状态估计值,
表示
时刻的状态估计不确定性(协方差矩阵),
则是状态转移矩阵。
3) 观测预测
首先是进行无迹变换,使用最小策略生成
个sigma点,相比于传统的
个sigma点,能在一定程度上减少计算量,同时保持对状态空间的较好覆盖,从而提高了状态估计的效率和准确性。
(3)
生成大致过程如下:首先确定生成sigma点的数量,确定为
个,其中L是状态向量的维度;然后将状态估计协方差矩阵
进行Cholesky分解,得到扩散矩阵
,其中k是一个缩放参数,通常取值范围为
,用于控制sigma点的分布;
最后按照以下公式生成sigma点:第一个sigma点是系统当前的状态估计值本身:
,接下来L个sigma点是状态估计值加上扩散矩阵的各列:
(4)
将第一个sigma点分配较高的权重,保证其在状态估计中的重要性。将其权重者设为
,将剩余的L个sigma点分配较小的权重,为
。最后得到:
(5)
然后进行观测预测,这一步使用状态向量的sigma点来预测观测值,并计算预测观测值的协方差矩阵,首先使用观测函数
将sigma点映射到观测空间:
(6)
其中观测函数
被定义为:
(7)
是一个对角矩阵,用
表示
的协方差矩阵,矩阵中的元素和
为:
(8)
(9)
然后预测观测值的协方差矩阵:
(10)
其中
为观测矩阵,表示状态函数对状态向量的线性化,
为观测噪声的协方差矩阵。
4) 更新状态估计和观测之间的协方差
首先计算状态估计和观测之间的协方差
:
(11)
然后计算Kalman增益:
(12)
接着进行动态残差计算及加权因子更新,为了在算法中实现自适应的观测噪声处理和状态更新,我们需要计算实际观测值与预测观测值之间的差异,衡量系统的状态估计与实际观测之间的偏差,由观测值
和预测的观测值
,我们定义动态残差:
(13)
为了调整状态更新的权重,通过动态残差
计算自适应加权因子:
(14)
其中
是一个阈值参数,用于控制残差的影响程度。最后更新状态估计和系统协方差矩阵,使用自适应加权因子
和Kalman增益
更新状态估计:
(15)
(16)
3.2.2. 独立传播模型构建
独立级联模型是典型的信息传播模型,在回声室检测任务中能有效进行信息传播建模,ICC基于两个关键假设:(1) 节点u激活邻居节点v的成功概率为
,且非活跃节点被新活跃邻居激活的概率与之前激活尝试无关。(2) 每个节点u有且仅有一次机会激活邻居v,成功与否后,u仍保持活跃但失去影响力,在每个时间步重复执行该操作,直到整个网络中不存在有影响力的活跃节点时,传播过程结束。
由于回声室检测任务的复杂性,信息在传播过程中不仅受到社区整体极性的影响,还会受到跨社区传播的影响。社区的整体极性反映了整个社区的成员对信息传播的总体倾向,跨社区影响调整了不同社区之间信息传播的概率。本文对独立级联模型进行改进,假设回声室促进了人们的意见在意识形态一致的信息上的流动,通过考虑其极性p和社区的整体极性
来判断是否产生传播,具体来说,只有当sign
时,传播才允许发生。在这个前提下,设
为初始种子集,
为t时间步上的激活节点集(
),在每个时间步t中,
包含了从起始到当前的所有激活节点,
包含了在t时刻所有新的激活节点。其中,在
时,对于每个节点
,设v为u未激活的子邻居之一,都有
的概率来尝试激活v,其中:
(17)
α是一个权衡社区影响和默认传播概率的参数,取值范围为[0, 1],
和
分别是节点u和v所属社区的极性。
是默认的传播概率,取值为一次参数为
的伯努利试验,此外,如果节点v属于不同的社区,则引入一个参数β,用于调整跨社区的影响:
(18)
4. 实验
在完成模型的设计后,本文通过一系列实验验证了所提方法的有效性。实验的目标是评估模型在社交网络状态估计和回声室检测任务中的性能表现,并与其他主流算法进行对比分析。本文从对社交网络状态估计的角度切入,量化回声室检测模型对社交网络信息处理的能力,网络状态估计通过对网络数据的分析和建模,实时地了解网络中各个节点的状态和行为,因此网络状态估计可作为衡量回声室检测模型有效性和准确性的重要指标。本文在相同环境下将提出的R-UKF模型与其他网络状态估计模型比较性能差异。实验基于MATLAB进行,具体过程包括特定话题相关数据的预处理、社交网络的构建、网络状态估计的计算以及对节点类别进行分类等,对所提模型的准确性和有效性进行了验证。
4.1. 数据集与预处理
实验的三个数据集分别来自Reddit、Twitter和Facebook三个不同的社交平台。Reddit是一个综合性的去中心化的在线社交新闻站点。其匿名性使不存在个人影响力较大的KOL,消除了个人影响力偏差,带来了更广泛的社交互动;Twitter是一个基于短文本分享的实时社交网络,倡导信息的快速传播和实时讨论;Facebook则是全球用户最多的社交平台,通过用户的真实身份建立关系网,强调用户间的深度社交互动。实验覆盖了特定话题下关于Donald Trump总统在任期间的三种讨论内容(枪支管控、少数族裔歧视和政治领域)。三个数据集的时间跨度均为2017年1月至2019年1月。三个数据集中总共包含了189,847个用户和用户发表的835,196份帖子数据,数据集的具体展示如表1所示。
Table 1. Details of datasets
表1. 数据集详情
Dataset |
#Nodes |
#Edges |
#Density |
#Pro-Trump |
#Anti-Trump |
GUN CONTROL MINORITIES |
12609.4 |
151813.0 |
0.0019 |
9165.6 |
3291.4 |
DISCRIMINATION |
8133.6 |
134362.6 |
0.0040 |
4544.2 |
2615.4 |
POLITICAL SPHERE |
8494.6 |
66261.8 |
72399 |
3368.0 |
3935.0 |
4.2. 实验设置及评价标准
4.2.1. 实验环境
实验所使用的硬件环境:处理器为Intel (R) Core (TM) i7-8750H,主频是2.20 GHz,GPU为GTX 1050 Ti。软件环境:MATLAB搭建模型,语言为MATLAB,使用Windows10 64位操作系统。
4.2.2. 参数设置
在利用R-UKF模型进行回声室检测的实验中,分别分析了社区影响权重alpha以及跨社区影响调节参数beta。通过控制变量取不同的参数值进行分析,找到实验中表现的最优值。表2中加粗数字表示通过实验获得的具有最佳效果的参数值。
Table 2. Values of experimental parameters
表2. 实验参数取值
参数名称 |
参数变量 |
α |
0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1 |
β |
0.1,0.2,0.3,0.4,0.5,0.6 |
4.2.3. 评价指标
准确性(Accuracy, Acc)、召回率(Recall, Rec)、精确度(Precision, Pre)和F1-Score是评价网络估计结果的常用标准,因此本文采用这三种指标衡量网络估计算法的性能,进而对回声室检测模型的能力进行评估,其中真阳性TP (True Positives)表示模型正确预测为正例的样本数;真隐性TN (True Negatives)表示模型正确预测为负例的样本数;假阳性FP (False Positives)表示模型错误地将负例预测为正例的样本数;假阴性FN (False Negatives)表示模型错误地将正例预测为负例的样本数。四个指标的计算方式如下:
(19)
(20)
(21)
(22)
4.3. 实验结果分析
为了验证模型的有效性,我们将模型应用于数据集中的三个社交网络数据,在所有数据集中,我们定义每个节点代表一个用户,当且仅当用户u直接回复用户v的帖子或评论时,两节点相连。每条边用一个权重
来描述,该权重表示用户u和v之间的交互次数。在实验中,我们将交互网络定义为有向图,能更加有效地计算社区间的信息传递关系。
4.3.1. 回声室检测结果分析
根据之前的方法定义,我们将模型应用于每个主题和时间段,结合改进的DSBM模型和K-means聚类算法从网络中识别出存在的社区。对此,我们首先对社区进行状态跟踪,根据状态估计量和它们的方差,通过逻辑函数,我们得到了估计边缘概率。在图3中我们分别展示了特定时间中主题(枪支管控、少数族裔歧视和政治领域)的边缘概率矩阵估计。
在图3(a)中我们可以看出在枪支管控数据集的这段时间中社区之间的连接概率情况,其中所有社区的整体连接概率都比较低,最为显著的是社区1和社区4,而在少数族裔歧视图3(b)的数据中,社区间进行交流的情况稍微好一些,但也仍有个别社区与外界的联系不密切,例如社区2和社区3,这两个社区的封闭程度相较于其他社区较高。而在政治领域图3(c)中,社区间的整体联系情况较好,只有少数几个社区之间的联系情况不是很密集,这可能是因为讨论的主题并不相关。
我们选取了枪支管控数据中2017/07/01~2018/01/01这个时间段的社区进行展示,如图4所示,我们划分了分布比较密集的几个社区来展示,在这个时间段中可以很明显地看出具有回声室特征的社区中用户的聚集程度相对于其他社区要更为密集,而且该社区与其他社区之间的连接相对较少,呈现出较为封闭的状态;同时有的社区虽然用户聚集程度较高,但是在社区之间有较好的融合,从而没有表现出典型的回声室现象应有的隔离。而随着时间的流逝,社区中的结构也在发生改变,社区中成员的减少或增加,成员意识形态的改变,都有可能导致社区整体属性(电导和纯度)发生变化。
Figure 3. Community connectivity heatmap
图3. 社区连接热点图
Figure 4. Community display in social networks
图4. 社交网络中社区展示
我们通过Morini等人[2]提出的电导值和纯度来评估社区是否存在回声室现象,同时,根据Morini的实验方法建议,设置电导值得分为≤ 0.5,以确保超过一半的总边界保持在社区内部;对于纯度我们设置阈值为> 0.7,以确保在同一回声室中的大多数用户共享相同的意识形态标签,在图5中我们展示了针对三个主题的回声室检测的结果。我们选取了社交网络中比较突出的7个社区,从图中可以看出这三个主题之间的结果差异是明显的,例如在枪支管控数据集中可以看到,在2017.01.01~2019.01.01这段时间中只有一个社区表现出高纯度低电导的情况,存在明显的回声室现象,而在之后的时间,该社区的电导值和纯度在不断进行变化,纯度都保持在0.7以下,由此可见根据时间的推移,随着社区中内容和成员的不断变换,社区不一定是永远都存在回声室效应,在所有数据集计算平均过后,枪支管控中存在回声室的社区占25%,少数族裔歧视中存在回声室的社区占28.57%,政治领域中存在的回声室社区占19.11%。同时,一些不存在回声室效应的社区,因为某种原因可能变为回声室社区。对于存在回声室效应的社区,可以通过人为干涉和舆论导向来控制回声室的形成,从而建立良好的社交网络环境。
4.3.2. 模型预测结果分析
在对社交网络进行社区分类以及状态估计之后,我们需要对社区未来状态进行预测,在算法中,考虑了传播概率的影响,通过调节社区影响权重、跨社区影响调节参数等,来计算不同社区之间的传播概率,进而预测社区未来的发展状况。我们选取了三个数据集中的某一个社区,查看预测任务的有效性,这里我们选择枪支管控中的社区7。如图6所示,对该社区中的节点极性预测,实验结果显示,在阈值为0.5时,预测数据与真实数据之间的重合度达到了97%,表明我们的模型在预测任务中表现出良好的准确性。此外,从绝对误差的角度来看,所有预测值的绝对误差均在0.02之内,进一步验证了我们的模型在预测阶段的可靠性和有效性。这些结果为我们的研究提供了坚实的支持,也为进一步探索和改进枪支管控领域的决策提供了有力的参考依据。
Figure 5. Conductance and purity within communities
图5. 社区中的电导和纯度
Figure 6. Predicted results of community polarity
图6. 对社区极性的预测结果
4.3.3. 对比试验
为了验证模型对网络状态估计和回声室检测的有效性,本文将其与一些针对网络状态估计的流行模型进行对比,分别是卡尔曼滤波(KF)、扩展卡尔曼滤波(EKF)、无迹卡尔曼滤波(UKF)、粒子滤波(PF)、平滑滤波(SF)和中值滤波(MF)。实验均使用文章中的数据集,实验结果如表所示。
Table 3. Experimental results comparing different models
表3. 不同模型的对比实验结果
模型 |
Acc (%) |
Pre (%) |
Rec (%) |
F1 (%) |
R-UKF |
0.9751 |
0.9960 |
0.9790 |
0.9874 |
KF |
0.9526 |
0.9853 |
0.9633 |
0.9757 |
EKF |
0.9441 |
0.9548 |
0.9883 |
0.9713 |
UKF |
0.9368 |
0.9394 |
0.9971 |
0.9674 |
PF |
0.8322 |
0.8848 |
0.9333 |
0.9084 |
SF |
0.8991 |
0.9515 |
0.9423 |
0.9469 |
MF |
0.9340 |
0.9802 |
0.9519 |
0.9659 |
从表3中的实验可以看出,将传播模型和动态残差综合利用进行社交网络状态预测的R-UKF模型具有最优的结果,对于三个社交媒体上的枪支管控、少数族裔歧视和政治领域三类数据,本文所提出的模型较基于粒子滤波算法的模型准确率提升了14.29%,与对于处理线性模型叫出色的KF和EKF算法准确率分别提升了2.25%和3.1%。虽然所提方法的召回率低于基于UKF算法的模型,这主要是因为本模型的复杂性和严格的异常值处理方法使得模型在捕捉边缘样本和异常样本方面有所不足,而UKF模型结构简单,对异常值处理宽松,能够识别更多样本。但其他三项评价标准均优于UKF方法。这是因为传统的回升室检测模型对时间和非线性系统的建模程度不够,虽然也能对社交网络进行较为准确的估计,但是忽略了数据的动态变化以及异常值的处理,不利于回声室检测任务。也正因如此,以及此次对比实验,测试了R-UKF模型对社交媒体中回声室检测的有效性。
4.3.4. 参数影响
在提出的R-UKF模型中存在着两个可变的参数:社区影响权重α、跨社区影响调节参数β。其中α表示社区内部节点之间的影响权重,它决定了一个节点在预测过程中受到同一社区内其他节点影响的程度;β表示不同社区之间的影响力,较高的β值意味着社区之间的互动和影响较强,即一个社区的行为或者状态会显著影响其他社区。为了评价这两个参数在回声室状态预测性能的影响,分别在不同参数值的情况下进行实验。
为了R-UKF中的最优参数值,设置α的取值范围为[0, 1],步长设置为0.1,这个范围覆盖了社区内部节点之间可能的所有影响程度,从完全无社区内部影响到社区内部节点完全一致性;设置β的取值范围为[0.1, 0.6],步长设置为0.1,这是考虑到不同社区之间的互动存在一定程度的中低度影响,确保模型在跨社区互动时保持适度的稳定性和合理性。共进行了66组实验,图7(a)显示了各组参数下的回声室状态估计的准确率,当α = 0.5,β = 0.4时,表现出了最高的准确率,达到97.1%。为了进一步说明社区影响权重α和跨社区影响调节参数β对回声室网络信息表达能力的影响,首先在跨社区影响调节参数β为最优即β = 0.4时,将不同α取值下的R-UKF模型运用于状态估计,结果如图7(b)所示。根据实验观察到状态估计的准确率随着α值的变化产生了较大的影响,当α = 0.5时,状态估计的准确率最高,当α = 0.6时,准确率略低于最高值,但是当α过小或过大时,估计的精度明显下降,其次,在α为最优即α = 0.5时,保持其他参数为最优的情况下,β的不同取值对状态估计的准确率如图7(c)所示,通过实验可知,在β = 0.4时,模型展现了最高的准确率。以上结果说明,在整个社交媒体网络中社区内和社区间存在依赖关系,考虑多种社区的传播方式对网络的演化机制有一定的影响,进一步体现了本模型的性能更优。
Figure 7. The influence of parameters on state estimation
图7. 参数对状态估计的影响
5. 结束语
本文提出了一种基于时序状态估计与非线性社区检测的社交网络回声室检测模型,通过改进的无迹卡尔曼滤波(R-UKF)对动态社交网络进行状态估计,并结合考虑节点极性和社区极性影响的传播模型,有效解决了现有方法在社区结构、节点属性、信息传播过程和时间因素上的不足;实验结果表明,该模型在Reddit、Twitter和Facebook三个真实数据集上的准确性、召回率、精确度和F1-Score等指标均优于当前主流滤波算法,特别是在枪支管控、少数族裔歧视和政治领域等话题中表现出更强的回声室检测能力;此外,通过对社区影响权重α和跨社区影响调节参数β的深入分析,发现当α = 0.5且β = 0.4时模型性能最佳,进一步验证了社区内和跨社区传播机制的重要性;尽管未充分考虑多层网络的影响是本研究的局限之一,但整体上该模型为理解信息传播机制和群体极化现象提供了新的视角,具有重要的理论意义和实际应用价值。