An Echo Chamber Detection Model for Social Networks Integrating Temporal State Estimation and Nonlinear Community Detection
Echo chamber detection is fundamental in public opinion control. Addressing the limitations of existing models concerning the consideration of community structure, node attributes, information dissemination processes, and temporal factors, which affect the accuracy of features such as interactivity frequency, information propagation probability, and information flow direction, this paper proposes a state estimation-based model for community echo chamber detection. Utilizing an improved Unscented Kalman Filter for state estimation of social networks and designing a propagation model that incorporates node polarity and community polarity influences, the model outperforms mainstream filtering algorithms in echo chamber detection tasks within communities. The experimental results demonstrate the effectiveness of the proposed model in enhancing echo chamber detection and its significant applicability in public opinion control.
Social Network
随着社交媒体(Social Media, SM)的普及,信息传播方式发生了显著变化。在SM中,用户的互动往往基于相似的观点,这种相似性导致了回声室效应的产生。回声室效应表现为信息的同质化和隔离性,限制了用户接触多元观点的机会,进而导致认知偏差和群体极化的加剧
在分析社交网络中的回声室效应时,信息传播的路径、传播速度以及用户互动的时间序列决定了网络的结构变化,也直接影响了回声室的形成与演化。目前的大多数回声室检测模型主要依赖于静态网络分析,关注社区结构的拓扑特性和用户行为的一致性
回声室检测方法的研究经历了从基本的结构分析到考虑信息传播及其时序特性逐步深化的过程。目前的研究可以划分为三大类:基于内容的方法、基于网络结构的方法和混合方法。早期的回声室检测主要集中在基于内容和基于网络结构的静态分析上。基于内容的方法侧重于分析用户生成的文本数据,通过语言特征和观点一致性来识别回声室
随着对回声室效应理解的逐步深入,研究者意识到仅通过内容或结构的静态分析无法全面解释信息传播的复杂性。因此,混合方法应运而生
尽管混合方法通过结合内容和网络结构对回声室进行了更全面的分析,现有的大多数研究仍然未能准确捕捉到信息传播的时间特性和复杂的动态演变
近年来,随着深度学习和图神经网络(GNN)的兴起,回声室检测的研究也取得了新的进展。例如,Hamilton等人
针对现有模型的局限,研究者逐渐意识到引入动态社区检测算法和传播模型相结合的方案,是解决回声室效应检测问题的关键途径。DSBM为动态网络建模提供了新的思路,它通过EKF来估计网络状态,进而通过局部搜索算法识别社区成员。然而,EKF在处理动态非线性系统时存在许多局限性,例如对系统平滑性的过高要求,以及在强非线性条件下精度差和收敛速度低等问题。
为了解决这些问题,研究者提出了使用UKF替代EKF的方案。UKF通过对网络状态进行更精确的非线性估计,提供了对信息传播路径和动态状态的更好建模。然而,传统的UKF方法也存在局限,特别是在社交网络复杂的拓扑结构下,UKF对异常值敏感,且随着状态维度的增加,计算复杂度和所需的sigma点数量迅速增加。为了应对UKF在回声室检测任务中的局限,研究者提出了多种改进方案。Dertimanis等人
目前,回声室检测的主要挑战在于社交网络中的非线性信息传播和动态时序特性。尽管UKF相较于EKF有了显著进步,但传统的UKF在处理高维状态空间和复杂的传播路径时仍存在问题,尤其是在动态变化的社交网络拓扑结构和不确定的噪声环境下。为了克服这些局限性,本文提出了一种基于UKF和ICM (信息传播模型)的改进方法,旨在更好地捕捉回声室的动态特征,提高检测的精度与鲁棒性。
一个动态社交网络 由时间步T和邻接矩阵集合 组成,其中任意时间步t内的网络 包含节点集合 和连边集合 。我们假设网络的邻接图是有向的,并且不存在自边,其中 ,假设如果节点i到节点j在时间步t时有一条边,则 ,否则为0,同时 , 表示截至时间T的所有快照集合。符号 表示节点i是社区a的成员, 表示社区c中节点的数量。在时间t,所有节点的社区由向量 表示,其中 表示在时间步t节点i属于社区a。在确定动态网络的拓扑结构之后,再进行状态预测。在每个时间步t通过邻接矩阵 算出块密度矩阵 ,然后使用滤波算法得到对应网络在对应时间上的状态估计,通过优化算法迭代更新出网络状态矩阵和社区隶属向量。经过传播模型对社区中节点的信息传播进行计算,得到最终的社区纯度和电导值。因此,研究社交媒体中回声室的检测问题,其核心是对动态网络中状态矩阵的估计和信息传播的合理设计,本文将对这两个问题进行详细研究。
为了更准确地捕捉社交网络中的回声室特征,本文提出了一种基于动态随机块的回声室检测模型,该模型的核心思想是结合动态随机块模型(DSBM)和改进的无迹卡尔曼滤波(UKF),通过状态估计和传播模型的协同作用,揭示信息传播过程中的动态特性和社区极化现象。该模型的建立过程分为网络状态估计和传播模型构建两个阶段:(1) 网络的状态估计:因为DSBM中EKF对高维数据的不适用性,使用UKF进行代替,但使用传统的UKF时要对噪声数据进行提前设置,而在回声室检测任务中,社区中的噪声时不可预测并且是提前不可知的,所以引入抗差估计理论,来减小异常值对算法的影响。(2) 传播模型构建:在ICM的基础上,为了提升模型的适应性,考虑回声室对一致性信息传播的促进作用,引入了节点极性、社区整体极性和默认传播概率来判断信息传播的发生,在每个时间步,采用混合传播概率机制。利用了社区影响和默认传播之间的权衡,通过参数调整处理跨社区影响。经过这两个阶段,完成R-UKF模型的构造工作,模型基本框架如
具体而言,在网络状态估计阶段,我们采用改进的UKF算法(R-UKF),通过动态计算加权因子和优化sigma点生成策略,提高了状态估计的精度和鲁棒性。在传播模型设计阶段,我们提出了一个基于社区极性的传播规则,只有当节点极性与社区整体极性一致时,信息传播才可能发生。这种设计不仅增强了模型对回声室效应的刻画能力,还为后续的实验验证奠定了理论基础。
传统的DSBM模型使用的是简单的扩展卡尔曼滤波(EKF)算法,这种方法是基于线性系统的近似推断算法,对非线性系统的建模能力有限,同时因为社交网络数据通常是高维并且稀疏的,不仅包括节点的特征、连接关系、时间戳等信息,其中大部分节点之间的连接还是缺失的,导致高维数据中存在着大量的零值,增加了模型的处理复杂度。而无迹卡尔曼滤波(UKF)通过对非线性问题进行建模,通过采样技术来近似非线性变换,避免了对雅可比矩阵的线性化,还可以通过调整采样点的权重来处理观测噪声的变化,能够更好地处理社交网络中高维的数据内容。同时,DSBM采用局部搜索策略,在回升室检测任务中,由于参数空间大,加上搜索空间的限制,算法容易陷入局部最优解而无法找到全局最优解,因此,在模型的构造过程中,使用改进的UKF算法和全局搜索策略,分别计算网络状态和节点社区归属以实现回声室检测工作,从而更全面,更系统地描述社交网络是否存在回声室特征。
1) R-UKF
在回声室检测过程中可能会出现强非线性的状态变化,UKF采用无迹变换的方式来处理卡尔曼滤波中由于非线性传递引起的问题,这种方法在处理非线性运动时表现更为出色。但在传统的UKF中,我们多数都假设数据服从高斯分布,对异常值非常敏感,一旦系统遇到异常值,就可能产生较大的误差,进而影响估计的准确性。
为了解决该问题,本文引入抗差估计理论,利用系统观测量与预测量的动态残差计算自适应加权因子,将这些加权因子应用于UKF中,在每个离散时间步对预测状态向量和预测误差协方差进行加权处理,以实现动态模型信息和测量值信息之间实现平衡,同时在生成sigma点时采用最小策略减少采样点的生成,使用非线性观测函数,使UKF能更好地适应实际观测数据的特征,从而提高状态估计的准确性。算法流程如
2) 状态预测
目的:利用先前的状态估计和系统模型来预测下一个时刻的状态 ,并同时估计系统不确定性 。使用状态转移方程来预测下一时刻的状态:
(1)
其中 是应用于前一状态的状态转移模型, 是一个均值为0,协方差矩阵为 的过程噪声。然后计算协方差矩阵,据上一个时刻的状态协方差矩阵 和系统噪声 和计算下一个时刻的状态协方差矩阵 :
(2)
其中 表示 时刻的状态估计值, 表示 时刻的状态估计不确定性(协方差矩阵), 则是状态转移矩阵。
3) 观测预测
首先是进行无迹变换,使用最小策略生成 个sigma点,相比于传统的 个sigma点,能在一定程度上减少计算量,同时保持对状态空间的较好覆盖,从而提高了状态估计的效率和准确性。
(3)
生成大致过程如下:首先确定生成sigma点的数量,确定为 个,其中L是状态向量的维度;然后将状态估计协方差矩阵 进行Cholesky分解,得到扩散矩阵 ,其中k是一个缩放参数,通常取值范围为 ,用于控制sigma点的分布;
最后按照以下公式生成sigma点:第一个sigma点是系统当前的状态估计值本身: ,接下来L个sigma点是状态估计值加上扩散矩阵的各列:
(4)
将第一个sigma点分配较高的权重,保证其在状态估计中的重要性。将其权重者设为 ,将剩余的L个sigma点分配较小的权重,为 。最后得到:
(5)
然后进行观测预测,这一步使用状态向量的sigma点来预测观测值,并计算预测观测值的协方差矩阵,首先使用观测函数 将sigma点映射到观测空间:
(6)
其中观测函数 被定义为:
(7)
是一个对角矩阵,用 表示 的协方差矩阵,矩阵中的元素和 为:
(8)
(9)
然后预测观测值的协方差矩阵:
(10)
其中 为观测矩阵,表示状态函数对状态向量的线性化, 为观测噪声的协方差矩阵。
首先计算状态估计和观测之间的协方差 :
(11)
然后计算Kalman增益:
(12)
接着进行动态残差计算及加权因子更新,为了在算法中实现自适应的观测噪声处理和状态更新,我们需要计算实际观测值与预测观测值之间的差异,衡量系统的状态估计与实际观测之间的偏差,由观测值 和预测的观测值 ,我们定义动态残差:
(13)
为了调整状态更新的权重,通过动态残差 计算自适应加权因子:
(14)
其中 是一个阈值参数,用于控制残差的影响程度。最后更新状态估计和系统协方差矩阵,使用自适应加权因子 和Kalman增益 更新状态估计:
(15)
(16)
独立级联模型是典型的信息传播模型,在回声室检测任务中能有效进行信息传播建模,ICC基于两个关键假设:(1) 节点u激活邻居节点v的成功概率为 ,且非活跃节点被新活跃邻居激活的概率与之前激活尝试无关。(2) 每个节点u有且仅有一次机会激活邻居v,成功与否后,u仍保持活跃但失去影响力,在每个时间步重复执行该操作,直到整个网络中不存在有影响力的活跃节点时,传播过程结束。
由于回声室检测任务的复杂性,信息在传播过程中不仅受到社区整体极性的影响,还会受到跨社区传播的影响。社区的整体极性反映了整个社区的成员对信息传播的总体倾向,跨社区影响调整了不同社区之间信息传播的概率。本文对独立级联模型进行改进,假设回声室促进了人们的意见在意识形态一致的信息上的流动,通过考虑其极性p和社区的整体极性 来判断是否产生传播,具体来说,只有当sign 时,传播才允许发生。在这个前提下,设 为初始种子集, 为t时间步上的激活节点集( ),在每个时间步t中, 包含了从起始到当前的所有激活节点, 包含了在t时刻所有新的激活节点。其中,在 时,对于每个节点 ,设v为u未激活的子邻居之一,都有 的概率来尝试激活v,其中:
(17)
α是一个权衡社区影响和默认传播概率的参数,取值范围为[0, 1], 和 分别是节点u和v所属社区的极性。 是默认的传播概率,取值为一次参数为 的伯努利试验,此外,如果节点v属于不同的社区,则引入一个参数β,用于调整跨社区的影响:
(18)
在完成模型的设计后,本文通过一系列实验验证了所提方法的有效性。实验的目标是评估模型在社交网络状态估计和回声室检测任务中的性能表现,并与其他主流算法进行对比分析。本文从对社交网络状态估计的角度切入,量化回声室检测模型对社交网络信息处理的能力,网络状态估计通过对网络数据的分析和建模,实时地了解网络中各个节点的状态和行为,因此网络状态估计可作为衡量回声室检测模型有效性和准确性的重要指标。本文在相同环境下将提出的R-UKF模型与其他网络状态估计模型比较性能差异。实验基于MATLAB进行,具体过程包括特定话题相关数据的预处理、社交网络的构建、网络状态估计的计算以及对节点类别进行分类等,对所提模型的准确性和有效性进行了验证。
实验的三个数据集分别来自Reddit、Twitter和Facebook三个不同的社交平台。Reddit是一个综合性的去中心化的在线社交新闻站点。其匿名性使不存在个人影响力较大的KOL,消除了个人影响力偏差,带来了更广泛的社交互动;Twitter是一个基于短文本分享的实时社交网络,倡导信息的快速传播和实时讨论;Facebook则是全球用户最多的社交平台,通过用户的真实身份建立关系网,强调用户间的深度社交互动。实验覆盖了特定话题下关于Donald Trump总统在任期间的三种讨论内容(枪支管控、少数族裔歧视和政治领域)。三个数据集的时间跨度均为2017年1月至2019年1月。三个数据集中总共包含了189,847个用户和用户发表的835,196份帖子数据,数据集的具体展示如
Dataset |
#Nodes |
#Edges |
#Density |
#Pro-Trump |
#Anti-Trump |
GUN CONTROL MINORITIES |
12609.4 |
151813.0 |
0.0019 |
9165.6 |
3291.4 |
DISCRIMINATION |
8133.6 |
134362.6 |
0.0040 |
4544.2 |
2615.4 |
POLITICAL SPHERE |
8494.6 |
66261.8 |
72399 |
3368.0 |
3935.0 |
实验所使用的硬件环境:处理器为Intel (R) Core (TM) i7-8750H,主频是2.20 GHz,GPU为GTX 1050 Ti。软件环境:MATLAB搭建模型,语言为MATLAB,使用Windows10 64位操作系统。
在利用R-UKF模型进行回声室检测的实验中,分别分析了社区影响权重alpha以及跨社区影响调节参数beta。通过控制变量取不同的参数值进行分析,找到实验中表现的最优值。
参数名称 |
参数变量 |
α |
0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1 |
β |
0.1,0.2,0.3,0.4,0.5,0.6 |
准确性(Accuracy, Acc)、召回率(Recall, Rec)、精确度(Precision, Pre)和F1-Score是评价网络估计结果的常用标准,因此本文采用这三种指标衡量网络估计算法的性能,进而对回声室检测模型的能力进行评估,其中真阳性TP (True Positives)表示模型正确预测为正例的样本数;真隐性TN (True Negatives)表示模型正确预测为负例的样本数;假阳性FP (False Positives)表示模型错误地将负例预测为正例的样本数;假阴性FN (False Negatives)表示模型错误地将正例预测为负例的样本数。四个指标的计算方式如下:
(19)
(20)
(21)
(22)
为了验证模型的有效性,我们将模型应用于数据集中的三个社交网络数据,在所有数据集中,我们定义每个节点代表一个用户,当且仅当用户u直接回复用户v的帖子或评论时,两节点相连。每条边用一个权重 来描述,该权重表示用户u和v之间的交互次数。在实验中,我们将交互网络定义为有向图,能更加有效地计算社区间的信息传递关系。
根据之前的方法定义,我们将模型应用于每个主题和时间段,结合改进的DSBM模型和K-means聚类算法从网络中识别出存在的社区。对此,我们首先对社区进行状态跟踪,根据状态估计量和它们的方差,通过逻辑函数,我们得到了估计边缘概率。在
在
我们选取了枪支管控数据中2017/07/01~2018/01/01这个时间段的社区进行展示,如
我们通过Morini等人
在对社交网络进行社区分类以及状态估计之后,我们需要对社区未来状态进行预测,在算法中,考虑了传播概率的影响,通过调节社区影响权重、跨社区影响调节参数等,来计算不同社区之间的传播概率,进而预测社区未来的发展状况。我们选取了三个数据集中的某一个社区,查看预测任务的有效性,这里我们选择枪支管控中的社区7。如
为了验证模型对网络状态估计和回声室检测的有效性,本文将其与一些针对网络状态估计的流行模型进行对比,分别是卡尔曼滤波(KF)、扩展卡尔曼滤波(EKF)、无迹卡尔曼滤波(UKF)、粒子滤波(PF)、平滑滤波(SF)和中值滤波(MF)。实验均使用文章中的数据集,实验结果如表所示。
模型 |
Acc (%) |
Pre (%) |
Rec (%) |
F1 (%) |
R-UKF |
0.9751 |
0.9960 |
0.9790 |
0.9874 |
KF |
0.9526 |
0.9853 |
0.9633 |
0.9757 |
EKF |
0.9441 |
0.9548 |
0.9883 |
0.9713 |
UKF |
0.9368 |
0.9394 |
0.9971 |
0.9674 |
PF |
0.8322 |
0.8848 |
0.9333 |
0.9084 |
SF |
0.8991 |
0.9515 |
0.9423 |
0.9469 |
MF |
0.9340 |
0.9802 |
0.9519 |
0.9659 |
从
在提出的R-UKF模型中存在着两个可变的参数:社区影响权重α、跨社区影响调节参数β。其中α表示社区内部节点之间的影响权重,它决定了一个节点在预测过程中受到同一社区内其他节点影响的程度;β表示不同社区之间的影响力,较高的β值意味着社区之间的互动和影响较强,即一个社区的行为或者状态会显著影响其他社区。为了评价这两个参数在回声室状态预测性能的影响,分别在不同参数值的情况下进行实验。
为了R-UKF中的最优参数值,设置α的取值范围为[0, 1],步长设置为0.1,这个范围覆盖了社区内部节点之间可能的所有影响程度,从完全无社区内部影响到社区内部节点完全一致性;设置β的取值范围为[0.1, 0.6],步长设置为0.1,这是考虑到不同社区之间的互动存在一定程度的中低度影响,确保模型在跨社区互动时保持适度的稳定性和合理性。共进行了66组实验,
本文提出了一种基于时序状态估计与非线性社区检测的社交网络回声室检测模型,通过改进的无迹卡尔曼滤波(R-UKF)对动态社交网络进行状态估计,并结合考虑节点极性和社区极性影响的传播模型,有效解决了现有方法在社区结构、节点属性、信息传播过程和时间因素上的不足;实验结果表明,该模型在Reddit、Twitter和Facebook三个真实数据集上的准确性、召回率、精确度和F1-Score等指标均优于当前主流滤波算法,特别是在枪支管控、少数族裔歧视和政治领域等话题中表现出更强的回声室检测能力;此外,通过对社区影响权重α和跨社区影响调节参数β的深入分析,发现当α = 0.5且β = 0.4时模型性能最佳,进一步验证了社区内和跨社区传播机制的重要性;尽管未充分考虑多层网络的影响是本研究的局限之一,但整体上该模型为理解信息传播机制和群体极化现象提供了新的视角,具有重要的理论意义和实际应用价值。