1. 引言
点云用于三维空间的建模与表达,是一种常见的数据形式,在计算机视觉和机器学习领域被广泛应用于目标检测[1]-[3]、物体识别、虚拟现实等方面。然而,由于光线等环境影响和距离传感器的远近等因素,3D扫描仪生成的原始点云通常稀疏且嘈杂,有时还带有小孔,这极大地影响了下游任务的性能。因此,需要对原始数据进行优化,点云上采样通过将稀疏、嘈杂、不完整的原始点云转换为密集、干净、完整且包含更多几何细节的点云来实现这一目标。
现有方法大多采用监督训练的范式,训练数据来源于合成模型的样本采集,其分布不可避免地偏离真实扫描数据的分布,这将导致训练后的模型在实际应用中泛化能力较差。因此,众多学者转而开始关注自监督点云上采样。
自监督点云上采样的一般范式为采用输入点云作为监督信号,来约束上采样点云,使其遵循原始点云的分布,保留原始点云的几何属性。SSPU-Net [4]从生成的上采样点云中下采样出和输入稀疏点云数目相同的子集,然后使用稀疏点云进行约束,使得稀疏点云和密集点云的形状尽可能一致。不同的是,SPU-Net [5]提出了一种新颖的自监督框架,它使用多分支的思想,将输入补丁下采样为一些粗补丁,通过从粗补丁重建输入补丁本身来捕获固有的上采样模式。值得注意的是,不同分支的点云表示同一物体,在几何结构上具有一致性。然而,上述多分支自监督框架的设计机制并没有关注到各分支间的结构一致性问题。
针对上述问题,提出了一种结构感知的自监督点云上采样网络(SASPU-Net)。模型改进原有的网络结构,在特征提取中间阶段加入结构感知模块(Structure-Aware Module, SAM),重新组合特征点云,从而提升对局部细节的感知能力。在特征扩展阶段,使用Shuffle模块来进行上采样,同时使用插值点云来指导上采样过程,有利于保持原始点云的形状。最后,将不同分支的上采样点云合并起来,得到最终的上采样结果。实验结果表明,自监督模型SASPU-Net生成的上采样点云具有更多几何细节,边界更为清晰。
2. 相关工作
2.1. 监督式点云上采样方法
点云具有无序性和不规则性,传统的处理方式是将点云投影到二维平面或者体素化,再进行特征提取。PointNet [6]开创了从无序点云直接提取特征的先河。针对PointNet没有考虑局部结构的问题,PointNet++ [7]融入了点云的局部结构。Pu-Net [8]首次提出云点云上采样任务,它基于PointNet++的架构实现分层特征学习,以特征复制的方式实现点的扩展,然而,简单地对特征进行复制,造成扩展的点特征彼此过于接近。为了使特征差异化,MPU [9]在特征复制的同时,向网络提供有关位置变化的信息,以增加特征的差异性。PUGAN [10]使用生成对抗网络进行上采样,鉴别器起到重要作用。PU-GCN [11]在点云中引入图卷积网络进行消息传递和特征聚合,实现了更好的上采样质量。PUFA-GAN [12]可以看作PU-GAN的衍生方法,它在鉴别器中添加高频判别分支,可以有效地生成干净的高频区域。在现实场景中,只训练一次模型,就能实现不同倍率的上采样是非常必要的。为此,研究者们聚焦于任意倍率的上采样网络。Meta-PU [13]由残差图卷积(Residual Graph Convolutional, RGC)块组成主干网络,通过元子网络来动态调整RGC块的权重,这两个模块一起使Meta-PU能够仅使用单个模型以任意比例因子连续对点云进行上采样。Neural Points [14]使用包含丰富几何细节的曲面进行训练,使得训练后的模型对各种形状具有足够的表达能力。Grad-PU [15]通过将上采样过程与网络学习解耦从而实现任意倍率的点云上采样。
2.2. 自监督点云上采样方法
真实扫描数据集往往是无标签的,近年来,众多学者开始关注自监督点云上采样算法,以满足实际应用的需求。EAR [16]提出了一个可以感知边缘并有效处理噪声和离群点的重采样方法,它还可以用于对点集进行上采样。L2G-AE [17]提出了一种称为局部到全局自动编码器框架,它利用这种局部到全局的重建来促进点云理解,该框架也可以用于点云上采样。SSPU-Net利用输入稀疏点云和生成的密集点云之间的一致性,制定形状一致损失和图像一致损失来训练网络,使得稀疏点云和密集点云的形状尽可能一致。SAPCU [18]以自监督的方式寻找种子点在物体表面上最近的投影点,来实现上采样。然而,由于下垫面未知,投射哪些种子以及投影到何处是困难的。针对此问题,Zhao等学者[19]提出了局部一致性约束的种子选取策略和基于多视图的投影距离校正策略来提升上采样精度。SPU-Net采用多分支的方法,首先将输入补丁下采样为一些粗补丁,然后分别对粗补丁进行上采样,最后将上采样补丁合并起来,得到最终的上采样结果。然而,上述自监督的设计机制没有关注到各分支间的结构一致性问题,每条分支独立进行,特征表示能力不足。
3. 方法
3.1. 概述
3.1.1. 符号说明
论文中所有部分,
表示相加操作,
表示拼接操作,
表示数学上的并运算,FPS表示最远点采样。
3.1.2. 模型架构
给定具有
个点的稀疏点集
,上采样目标是生成密集点云
,其中
代表上采样率。
本文遵循SPU-Net的自监督方法和训练策略,执行
倍点云上采样,所提出模型SASPU-Net的网络结构如图1所示。为了利用不同分支间的结构一致性,模型改进原有自监督框架的设计,在中间阶段加入结构感知模块,重新组合特征点云。基于新的特征点云,使用KNN算法构建密集点云图,来增强结构感知的能力。特征扩展阶段使用Shuffle模块进行上采样,并通过IG模块使用插值点云来引导上采样过程。
Figure 1. Structure-aware self-supervised point cloud upsampling network architecture
图1. 结构感知的自监督点云上采样网络结构
3.2. 结构一致性感知
图像半监督语义分割方法PseudoSeg [20]对数据使用两种不同程度的增强,分别送入相同的网络,利用两种数据的一致性来实现伪监督。受PseudoSeg的启发,自监督点云上采样模型使用多分支方法,不同分支并行进行上采样,再合并得到
倍上采样点云。然而,上述过程忽略了多分支间结构上的一致性。为此,提出结构感知模块,来捕获不同分支间点云的结构一致性。
3.2.1. 结构感知模块
自监督网络的一个挑战是如何构建监督信号。为了利用输入点云本身作为监督信号,在先前的工作中,首先对输入点云重复
次最远点采样,得到一组粗糙点云。为了保证粗糙点云之间是不相交的,从输入点云
使用最远点采样得到第一个粗糙点云
之后,移除
中属于
的那些点,得到
,再基于
进行下采样,循环重复,直至得到
个下采样粗糙点云集合
。
上述点集下采样策略实现了不同分支间的结构具有一致性,同时保证了粗糙点云之间是不相交的。基于此,添加结构感知模块(SAM),利用不同分支间的结构一致性来增强点云的几何结构。如图2所示,虚线框内为结构感知模块。
Figure 2. Structure-aware feature extraction network
图2. 结构感知特征提取网络
自监督的核心在于充分利用数据自身的信息,SAM利用不同分支间的结构一致性将多分支特征点云在低层特征融合,不同分支间信息相互感知来增强点云的特征表达能力。基于增强后的特征点云,结合图卷积网络EdgeConv [21]和自注意力机制(SA)来同时捕获邻域内的信息和邻域间的相关性。之后解耦点云分支,使用EdgeConv进行消息传递和特征聚合,来更新特征点云。
3.2.2. 特征融合
不同分支分别通过上采样网络来重建输入补丁。在特征提取阶段,使用图卷积网络并结合注意力机制来捕获不同尺度的特征
。其中,j表示第j个粗糙点云,i表示特征尺度。特征提取的第一步是构建点云的局部图结构,图3展示了通过KNN算法构建的输入点云(左侧)和下采样后的粗糙点云(右侧)的局部邻域图对比。可以发现,下采样的粗糙点云所构建的图卷积结构,点云邻居和中心节点距离较远,并且两者相关性较低,图卷积结构并不可靠,点云局部几何特征粗糙,造成局部细节编码困难。
(a) 下采样前局部邻域图 (b) 下采样后局部邻域图
Figure 3. Local point cloud map constructed by KNN
图3. KNN构建的局部点云图
因此,为了更好地编码局部细节,添加结构感知模块(SAM)来增强模型的特征提取能力。由于越低层的特征细节(局部)信息越丰富,越高层的特征整体(全局)信息越丰富,选择在低层特征处添加SAM,
. (1)
SAM将
个特征点云
沿着点云数目的维度进行合并,
. (2)
选择特征距离作为计算指标,在新的密集点云中通过KNN算法构建局部细节增强的点云图结构。新的点云图中,中心节点和邻居节点的相关性更高,点云结构更加清晰。再使用图卷积网络EdgeConv进行消息传递和特征聚合来更新每个点特征。
基于增强后的特征点云
,探索了邻域点数目的选择对上采样效果的影响。对比实验结果如下(表1):
Table 1. Effect of K selection on experimental results
表1. K的选取对实验效果的影响
K |
CD (10−3) |
HD (10−3) |
P2F (10−3) |
10 |
0.33 |
2.72 |
4.44 |
16 |
0.34 |
2.79 |
4.53 |
通过对比可以发现,超参数K = 10时取得了更好的上采样结果。
3.2.3. 自注意力机制
此外,为了促进特征融合,弥补不同分支间的偏差,选择使用自注意力机制进行特征融合,更好地促进不同分支点云间的交流。注意力机制计算公式为:
. (3)
其中,Q、K、V是对特征点云
分别通过不同的线性变换得到的,增加了特征的多样性,获得具有判别力的特征。查询向量
遍历特征点云
中的每一个点,它计算与来自同一组和不同组点云点间的相关性,输出注意力权重,通过与
加权求和得到
。通过这种方式,模型可以学习到点云中不同点的重要程度,从而关注到重要的信息。
通过结构感知模块(SAM)提取细节特征后,将其解耦回若干独立的分支,进一步提取高层特征。由于特征提取阶段的早期,是提取局部特征的过程,侧重于编码局部细节,随着网络层数的增加,模型更加关注全局信息,特征点云的全局信息越来越丰富。因此,通过多尺度特征融合,捕获不同粒度的信息,进而提高模型的性能。
. (4)
3.3. 插值引导上采样模块
在上采样过程中保持点云的几何和形状特征是一个挑战。多分支方法导致粗糙的点云补丁分布稀疏,生成的上采样点云往往容易出现轮廓模糊的问题。因此,我们使用Shuffle操作来进行上采样。此外,使用最近邻插值点云粗补丁,生成的插值点云来指导上采样过程,帮助保持点云的形状和结构。如下所示:
(5)
其中,Shuffle为上采样模块,IG表示插值引导上采样。
整个操作可以分为两个步骤。(1) Shuffle:通过重组特征输出上采样特征点云;(2) IG:插值引导上采样,使用MLPs重建点云三维坐标,得到预测点云Q,再将插值点云L与预测点云Q相加。
模型算法总结如下:
算法:结构感知的自监督点云上采样网络 |
输入: |
(1) 结构感知特征提取 |
(2) 特征扩展 //插值引导点云上采样 |
输出F |
4. 实验
在本节中,选择与基线模型SPU-Net相同的PUGAN数据集来训练和测试网络性能,并从定量和定性两个角度对实验结果进行比较和分析。此外,比较了不同大小的输入点云对上采样结果的影响,并在原始数据集上添加噪声,测试模型的鲁棒性。
4.1. 数据集和网络配置
在PUGAN收集的数据集下,进行定性和定量比较。PU-GAN收集的数据集是从PU-Net和MPU的已发布数据集以及Visionair存储库中所收集的147个3D模型,涵盖了丰富多样的对象,从简单、平滑的模型(例如二十面体)到复杂的物体(例如雕像),并从中随机选择120个模型作为训练集,其余27个模型作为测试集。
论文中的所有实验均在Geforce RTX 2080Ti上进行,环境配置为CUDA10.0、CUDNN7.6。我们遵循与SPU-Net相同的训练策略,在补丁级别上进行训练与测试。我们选取较多的种子点,保证所划分的补丁能够完全覆盖稀疏点云,数据集中每个样本划分为24个补丁,每个补丁包含N = 256个点,然后在补丁级别上执行上采样。网络设置EdgeConv中局部点的数量K = 10。同样,我们使用Adam优化器训练上采样网络200轮次,并设置学习率为0.0001,以每50 k次迭代0.7的衰减率来降低学习率,直到10−6。
4.2. 评价指标
根据最近的点云上采样工作,选择倒角距离[22] (Chamfer Distance, CD)、豪斯多夫距离[23] (Hausdorff Distance, HD)、点到表面距离(Point-to-Surface Distance, P2F)作为评价指标。CD用来衡量两个点云的不相似度,HD度量了上采样点云和ground truth间的最大不匹配程度,P2F代表点到表面的距离,上述三个指标,数值越低,表明上采样效果越好。
4.3. 合成数据集上的结果
4.3.1. 定量实验结果
在PUGAN数据集上进行了实验,并与当前先进的有监督和无监督点云上采样算法进行了比较,结果如表2所示,加粗结果代表在该指标上表现最好,标红结果代表次优。
Table 2. Quantitative comparison of with other methods at 4× upsampling rate
表2. 4倍上采样率下与其他方法的定量比较
Methods |
Supervised? |
P2F (10−3) |
HD (10−3) |
CD (10−3) |
PU-Net (2018) |
Yes |
4.756 |
5.388 |
0.536 |
MPU (2019) |
Yes |
2.839 |
5.686 |
0.295 |
PU-GAN (2019) |
Yes |
2.161 |
4.899 |
0.277 |
PU-GCN (2021) |
Yes |
2.484 |
3.123 |
0.270 |
NePs (2022) |
Yes |
1.935 |
3.648 |
0.259 |
Grad-PU (2023) |
Yes |
1.893 |
2.369 |
0.245 |
L2G-AE (2019) |
No |
39.37 |
63.23 |
6.31 |
SSPU-Net (2021) |
No |
4.43 |
3.47 |
0.37 |
SAPCU (2022) |
No |
3.45 |
9.06 |
0.46 |
SPU-Net (2022) |
No |
5.33 |
2.98 |
0.40 |
SPU-PMD [24] (2024) |
No |
2.44 |
3.32 |
0.31 |
Ours |
No |
4.44 |
2.72 |
0.33 |
通过对比可以发现,所提出的模型在某些指标上优于部分有监督方法,和自监督方法相比,在HD、CD两项指标上,我们的方法优于SSPU-Net和SAPCU,并且在所有指标上都超越了基线模型SPU-Net,其中,P2F减少了
,HD减少了
,CD减少了
。此外,在HD指标上,我们的结果是所有自监督模型中最好的,在CD指标上次好,并且和表现最好的模型相差无几。
4.3.2. 定性实验结果
图4展示了所提出的模型和当前先进的方法生成的上采样点云的可视化结果对比。
(a) 输入 (b) 标签 (c) SPU-Net (d) 所提算法
Figure 4. Results of qualitative experiments on the PUGAN dataset
图4. PUGAN数据集上的定性实验结果
从上采样点云及其特写可以看出,所提出的模型上采样效果较好,产生了更少的异常值,点云的轮廓也更加清晰,点分布较为均匀。具体来看,骆驼(第一组)的两个角以及尾巴的特写显示所提出的模型更好地对复杂结构进行了上采样,轮廓更为清晰;从龙(第二组)也可以看出,所提出模型的结果表面更加光滑,离群点较少;鸟(第三组)的翅膀特写显示,所提出模型的结果产生了更少的异常值,边界较清晰;老虎(第四组)的下颚和腿两个部分之间,所提出的模型产生了更少的异常值,边界更加清晰。可视化结果表明,所提出的模型可以生成具有较多几何细节、较高质量的密集点云。
4.4. 消融实验
为了评估SASPU-Net模型中组件的有效性,包括插值引导(IG)部分和自注意力机制(SA),我们删除了每个组件并生成用于测试模型的上采样结果。表3展示了删除不同组件模型的实验效果,表明上述组件在提高模型性能方面都发挥着重要作用。
Table 3. Results of ablation experiments
表3. 消融实验结果
IG |
SA |
CD (10−3) |
HD (10−3) |
P2F (10−3) |
|
√ |
0.335 |
2.959 |
4.401 |
√ |
|
0.337 |
3.115 |
4.294 |
√ |
√ |
0.327 |
2.720 |
4.437 |
4.5. 稳定性测试
本节进一步从以下方面评估了模型SASPU-Net的稳健性:不同大小的输入点云和不同水平的噪声点云。
4.5.1. 对不同大小的点云进行上采样
对于点云上采样任务,输入点云的密集程度影响着上采样的效果,一般来说,原始点云越密集,对物体形状和几何结构的表达越清晰,越有利于点云上采样。因此,在不同密度的输入点云数据集上进行测试,以更全面地评估所提出的上采样模型的效果。分别在输入点云点数为256、512、1024、2048的测试数据集上进行实验并将上采样结果可视化,如图5所示。
(a) Input (b) SPU-Net (c) Ours
Figure 5. Upsampling results on point clouds of different input sizes
图5. 不同输入大小的点云上采样结果
可以看出,所提出的模型SASPU-Net在不同大小的输入点云数据集下,都取得了良好的上采样效果。即使在输入点云只有256个点时,也可以取得较好的上采样效果,随着输入点云点数的增加,上采样质量越来越高。
4.5.2. 对噪声点云进行上采样
由于扫描仪获得的点云通常含有噪声,因此有必要评估网络对含有噪声的点云的上采样性能。为了测试网络在处理噪声方面的鲁棒性,在不同的噪声水平下进行了实验。分别向PUGAN数据集添加0.1%、0.5%、1%、2%的高斯噪声,定量结果如表4所示。可以看出,所提出的模型对噪声具有一定鲁棒性,和基线模型相比,在1%的噪声水平下,HD减少了
,P2F减少了
,CD减少了
,在2%的噪声水平下,HD减少了
,P2F减少了
,CD减少了
,所提出的模型对噪声更加鲁棒。
Table 4. Qualitative upsampling results at different noise levels
表4. 不同噪声水平下的定量上采样结果
Noise Levels |
1% |
2% |
Methods |
CD (10−3) |
HD (10−3) |
P2F (10−3) |
CD (10−3) |
HD (10−3) |
P2F (10−3) |
SPU-Net |
0.549 |
5.139 |
9.190 |
1.021 |
10.829 |
15.683 |
Ours |
0.511 |
4.644 |
7.680 |
0.940 |
10.485 |
13.995 |
5. 结束语
本文关注自监督设计框架中的结构一致性问题,提出结构感知的自监督点云上采样网络(SASPU-Net)。通过将结构感知模块(SAM)集成到特征提取结构中来有效地捕获细粒度的局部特征,以促进上采样过程。模型利用不同分支间的结构一致性将多分支特征点云在低语义级别结合,增强了邻域信息的相关性,从而编码更为精细的局部结构。特征扩展部分,使用Shuffle操作进行上采样,并通过生成的插值点云来指导上采样过程。实验结果表明,所提算法可以生成具有较多几何细节、较高质量的密集点云,并且对噪声具有鲁棒性。
基金项目
国家自然科学基金(No. 62072024)。
NOTES
*通讯作者。