RandLA-Net实现了两个核心指标:一个是利用Random_sampling进行提速,二是设计特征提取模块解决Random_sampling带来的信息丢失问题。

下图为特征提取模块示意图:由三个模块组成,分别为LocSE,Attentive Pooling,Dilated Residual Block

特征提取 目标跟踪 特征提取模块_2d

Local Spatial Encoding(局部空间编码)

给定点云P以及每个点的特征(例如原始RGB或中间学习的特征),此局部空间编码单元会明确嵌入所有相邻点的x-y-z坐标,从而使相应的点特征始终知道其相对位置空间位置。这使LocSE单元可以显式观察局部几何图案,有效地学习复杂的局部结构。特别地,该单元包括以下步骤:

特征提取 目标跟踪 特征提取模块_2d_02

Finding Neighbouring Points.

对于采样出的中心点,首先通过K近邻(KNN)算法收集其相邻点。

Relative Point Position Encoding

对于中心点的每个最近的K个点,我们明确编码相对点位置,如下所示:

特征提取 目标跟踪 特征提取模块_特征提取 目标跟踪_03

  • 一二是点的xyz位置
  • ⊕是串联操作
  • || ·||计算相邻点和中心点之间的欧几里得距离。
  • ri 是根据冗余点位置信息进行编码的。这倾向于帮助网络学习局部特征并在实践中获得良好的性能。
Point Feature Augmentation.

对于每个相邻点 ,将编码的相对点位置与它的对应近邻点特征串联在一起,从而获得增强的特征向量。

LocSE代码解析

relative_pos_encoding函数

def relative_pos_encoding(self, xyz, neigh_idx):
        neighbor_xyz = self.gather_neighbour(xyz, neigh_idx)
        xyz_tile = tf.tile(tf.expand_dims(xyz, axis=2), [1, 1, tf.shape(neigh_idx)[-1], 1])
        relative_xyz = xyz_tile - neighbor_xyz
        relative_dis = tf.sqrt(tf.reduce_sum(tf.square(relative_xyz), axis=-1, keepdims=True))
        relative_feature = tf.concat([relative_dis, relative_xyz, xyz_tile, neighbor_xyz], axis=-1)
        return relative_feature

neighbor_xyz为获取的中心点的K个近邻点的xyz坐标
xyz_tile将中心点xyz进行扩维,relative_xyz算出中心点与近邻点之间的相对位置
relative_dis为中心点与近邻点之间的欧式距离
relative_feature为将中心点,近邻点,相对位置,欧氏距离全部串联起来,即完成局部空间编码

Attentive Pooling

该神经单元用于汇总近邻点特征的集合。现有论文通常使用最大/平均池来硬集成相邻特征,从而导致大部分信息丢失,相比之下,网络转向强大的注意力机制来自动学习重要的本地特征。

特征提取 目标跟踪 特征提取模块_计算机视觉_04

Computing Attention Scores

给定一组局部特征Fi={f1i…fki…fKi} ,设计了一个共享函数g()来为每个功能学习唯一的注意力得分。基本上,函数g()包含一个共享MLP,后跟softmax,通过softmax来获取每一个近邻点特征所占的比率,让网络自动学习,更重要的特征则占用更多的位置,它的正式定义如下:

特征提取 目标跟踪 特征提取模块_2d_05


其中W是共享MLP的可学习权重.

Weighted Summation

学到的注意力分数可以看作是自动选择重要特征的softmask。正式地,这些特征的加权总和如下:

特征提取 目标跟踪 特征提取模块_计算机视觉_06


总而言之,LocSE和Attentive Pooling单元学会聚合其K个最近点的几何图案和特征,并最终生成信息量丰富的特征向量。

Attentive Pooling代码解析

def att_pooling(feature_set, d_out, name, is_training):  #d_out = d_out//2 = 16//2 = 8
        batch_size = tf.shape(feature_set)[0]
        num_points = tf.shape(feature_set)[1]
        num_neigh = tf.shape(feature_set)[2]
        d = feature_set.get_shape()[3].value   #16
        f_reshaped = tf.reshape(feature_set, shape=[-1, num_neigh, d])  #(BxN,K,16)
        att_activation = tf.layers.dense(f_reshaped, d, activation=None, use_bias=False, name=name + 'fc')
        att_scores = tf.nn.softmax(att_activation, axis=1)  
        f_agg = f_reshaped * att_scores
        f_agg = tf.reduce_sum(f_agg, axis=1) #(BxN,16)
        f_agg = tf.reshape(f_agg, [batch_size, num_points, 1, d])  #(B,N,1,16)
        f_agg = helper_tf_util.conv2d(f_agg, d_out, [1, 1], name + 'mlp', [1, 1], 'VALID', True, is_training) #(B,N,1,8)
        return f_agg

提取B、N、K、d,将近邻点特征变形为(BxN,K,d),经过一个简单的MLP后,利用softmax对K个近邻点分别打分,将特征与注意力得分相乘,再reduce_sum将所有近邻点的特征全部融合,重要的特征占大头,再经过share_MLP进行维度变形得到一个中心点的局部特征。

Dilated Residual Block(扩张残差块)

由于采用了Ran’do’m_sampling,必然会导致有用信息的丢失,那我们要做的是设计一个模块,即使某些点被丢失了,输入点云的几何结构也能够保留。这就需要我们扩大每个点的接收场,也就是使每个点所包含的局部点的特征范围更大。

特征提取 目标跟踪 特征提取模块_2d_07

  • 如图所示,将多个LocSE和Attentive Pooling单元通过跳连接堆叠在一起,作为扩张残差块。
  • 为了进一步说明扩张残差块的功能,图4显示了红色3D点在第一次LocSE / Attentive Pooling操作之后观察到K个相邻点,然后在第二次之后能够从最多K^2个相邻点接收信息。
  • 换种更白话的方式,第一次中心点只能观察到周围近邻的5个点作为中心点的局部信息,而第二次操作过后,就将3个中心点的局部信息全部融合在一起了,相当于中间红点的局部特征区域,这就有效的扩大了点的接受域并通过特征传播扩大有效邻域的方法。

Dilated Residual Block代码解析

1.dialted_res_block

def dilated_res_block(self, feature, xyz, neigh_idx, d_out, name, is_training):
        f_pc = helper_tf_util.conv2d(feature, d_out // 2, [1, 1], name + 'mlp1', [1, 1], 'VALID', True, is_training)
        f_pc = self.building_block(xyz, f_pc, neigh_idx, d_out, name + 'LFA', is_training)
        f_pc = helper_tf_util.conv2d(f_pc, d_out * 2, [1, 1], name + 'mlp2', [1, 1], 'VALID', True, is_training,
                                     activation_fn=None)
        shortcut = helper_tf_util.conv2d(feature, d_out * 2, [1, 1], name + 'shortcut', [1, 1], 'VALID',
                                         activation_fn=None, bn=True, is_training=is_training)
        return tf.nn.leaky_relu(f_pc + shortcut)

feature为原始提取出的中心点特征(包括xyz和color),经过building_block后已经将经过两次LocSE和Attentive Pooling的特征提取完成为f_pc,f_pc和原始feature各经过一层MLP后求和lrelu激活。

2.buliding_block

def building_block(self, xyz, feature, neigh_idx, d_out, name, is_training):
        d_in = feature.get_shape()[-1].value
        f_xyz = self.relative_pos_encoding(xyz, neigh_idx)
        f_xyz = helper_tf_util.conv2d(f_xyz, d_in, [1, 1], name + 'mlp1', [1, 1], 'VALID', True, is_training)
        f_neighbours = self.gather_neighbour(tf.squeeze(feature, axis=2), neigh_idx)
        f_concat = tf.concat([f_neighbours, f_xyz], axis=-1)
        f_pc_agg = self.att_pooling(f_concat, d_out // 2, name + 'att_pooling_1', is_training)

        f_xyz = helper_tf_util.conv2d(f_xyz, d_out // 2, [1, 1], name + 'mlp2', [1, 1], 'VALID', True, is_training)
        f_neighbours = self.gather_neighbour(tf.squeeze(f_pc_agg, axis=2), neigh_idx)
        f_concat = tf.concat([f_neighbours, f_xyz], axis=-1)
        f_pc_agg = self.att_pooling(f_concat, d_out, name + 'att_pooling_2', is_training)
        return f_pc_agg

执行两次LocSE和Attentive Pooling操作