点云分割标注直接加速！交互式4D分割Interactive4D

写在前面 & 笔者的个人理解

交互式分割在促进未来LiDAR数据集的注释过程中起着重要作用。现有的方法在每次激光雷达扫描时顺序分割单个物体，在整个序列中重复这一过程，这是多余且无效的。在这项工作中，我们提出了交互式4D分割，这是一种新的范式，允许同时分割多个LiDAR扫描上的多个目标，以及交互式4D，这是第一个交互式4D分割模型，通过利用LiDAR数据的顺序特性，在一次迭代中分割叠加的连续LiDAR打印上的多目标。在执行交互式分割时，我们的模型利用了整个时空体积，从而实现了更高效的分割。在4D卷上操作时，它可以随时间直接提供一致的实例ID，并简化跟踪注释。此外，我们还表明，点击模拟对于在LiDAR点云上成功进行模型训练至关重要。为此我们设计了一种更适合激光雷达数据特性的点击模拟策略。为了证明其准确性和有效性，我们在多个LiDAR数据集上评估了Interactive4D，其中Interactive4D在很大程度上达到了新的最先进水平。

总结来说，本文的贡献是：

激光雷达全景分割和跟踪。LiDAR全景分割（LPS）统一了LiDAR点云的语义和实例分割。最近，它已被扩展到4D激光雷达全景分割（4D-LPS）的子任务跟踪，该分割结合了语义、实例分割和跟踪。两种LPS方法都遵循类似的算法范式。它们之间的根本区别在于，LPS方法在单次激光雷达扫描上运行，而4D-LPS方法主要在叠加的连续激光雷达扫描下运行以完成跟踪。根据它是在单次扫描还是叠加的连续扫描上运行，假设用户提供了预测掩模的语义标签，Interactive4D可以作为LPS或4D-LPS方法。它通过整合用户输入来执行分割和跟踪，能够通过细化点击来改善结果。随后，我们证明了Interactive4D在LPS和4D-LPS任务中以最小的用户输入都优于最先进的结果，并通过额外的用户输入进一步改进了它们。

交互式3D分割。2D交互式分割已经建立得很好，然而，采用它来生成3D标签会由于视场、视角和校准误差的差异而导致不完美。为此，InterObject3D解决了室内点云的交互式分割问题，重点是单目标交互式分割。后来，AGILE3D提出了室内点云的多目标交互式分割，显著提高了效率。本文探索了LiDAR点云的多目标交互式分割，并进一步将多目标LiDAR交互式分割扩展到4D设置，旨在最大限度地提高效率。最近的一些工作研究了室外LiDAR点云的3D交互式分割。CRSNet专注于仅交互式分割物体，并遵循LiDAR数据中的单物体范式。ClickFormer是一项并行工作，它交互式地分割事物，并通过在扫描过程中填充额外的增强点击来解决LiDAR数据中目标的比例差异，同样遵循单目标范式。相比之下，Interactive4D旨在处理4D设置中事物的多目标交互式LiDAR分割，通过在空间和时间上全面利用上下文来最大限度地提高效率。

受基于注意力的交互式分割模型成功的启发，我们添加了关键的技术修改，以实现此类模型在LiDAR点云中的全部潜力，并引入了交互式4D，我们的交互式4D分割模型，如图2所示。为了清楚起见，我们使用矩阵表示法来呈现整个过程。

细化：该模块由L个连续的点击关注层组成，这些层细化了点击查询Q和体素特征F。在每一层中，Q通过交叉注意力来关注F。然后，Q使用self-att。最后，F交叉注意Q以细化特征表示。这种渐进式的改进在L层中重复进行，从而得到最终的Q和F。

训练损失如下所示：

单击“模拟策略”。（图2）交互式分割模型依赖于标注输入来迭代改进预测，但在训练过程中让人类参与是不切实际的。相反，合成点击是基于预测和GT进行模拟的。仿真策略应该：（1）将模型的学习集中在误差区域，以减少交互来提高准确性，以及（2）尽量减少训练和实际使用之间的差距。交互式3D分割模型中采用了两种主要类型的点击模拟。受2D模拟的启发，在密集数据下运行的模型采用了边界相关（BD）点击策略。该方法使用以下度量选择离边界最远的点：

近期的方法通过采用完全随机点击来缓解这个问题，大大减少了所需的计算。然而，这两种方法仍然存在两个关键局限性：（1）偏向较大目标：在多目标交互式分割中，必须首先识别错误区域，因为错误可能存在于各种目标中。BD选择通过用max操作切换等式（iv）中的arg-max来隐式地确定区域的误差大小。这种方法倾向于将点击偏向于较大的物体（例如建筑物），而忽略较小的物体（如自行车）（图3左）。同样的问题也适用于随机点击策略，因为随机分布自然会忽略较小的目标，使其在训练过程中代表性不足。（2）非信息性初始点击：在密集数据中，选择离边界最远的点是有效的，因为它通常会捕获错误区域的“中心”。然而，在稀疏的LiDAR点云中，由于周围的空白空间，这通常会导致错误区域边缘附近的点击错误（图3右）。这是因为误差区域外的点决定了边界。完全随机点击也面临着类似的问题，因为选择不是集中在特定的错误区域，而是不加选择地针对整个错误集。

为了解决上述缺点，我们提出了一种新的点击选择策略，将该过程分为两个单独的步骤：（1）尺度不变误差区域选择（SI）：为了应对较大目标的过度优先级，我们提出一种基于IoU的度量来确定最大误差区域，确保尺度不变性：

这种方法优先考虑覆盖目标大部分的错误区域，特别是那些IoU较低的区域，以防止较小的目标被忽视。这使得训练过程中的点击分布更加平衡，使模型能够学习更全面的特征表示。（2）错误区域内的增强点击选择：与之前依赖数据库的工作类似，我们的目标是为初始点击选择地面真实掩模的“中心”，因为这通常会捕捉到区域的关键特征。为了确保在稀疏域中进行信息选择，我们将中心定义为最接近目标质心的点，通常在实体分割开始时捕获最具代表性的区域。然而，对于细化点击——误差区域在点云中变得很小且分散——质心选择的有效性降低，真实用户很难遵循。为了解决这个问题，我们建议在误差区域内切换到随机点选择以进行细化点击。与[15,46]不同，我们只在识别出错误区域后才执行随机选择。随机性的注入通过学习不同的特征使模型对用户行为更加鲁棒。

我们的方法简化并解耦了决策过程。由于在训练过程中多次调用点击模拟器，它加速了训练并显著降低了内存需求。与限制目标数量或只关注事物以管理计算成本的方法不同，我们的方法避免了这些权衡。这实现了更快的训练、整体分割和4D数据的可扩展性，其中点的数量显著增加。图3显示了我们提出的策略修改的总体效果。

本文引入了交互式4D分割，这是一种新的范式，用户可以在多个扫描中同时分割多个目标，以及交互式4D，这是遵循这一范式的第一种交互式4D分割方法。交互式4D比以前的方法更有效，仅限于单个目标和单个扫描。除了我们适用于稀疏LiDAR扫描的新点击模拟策略外，它还显示了出色的精度结果，并大幅达到了最先进的性能。我们希望Interactive4D能够减少未来LiDAR数据集所需的标注工作。

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/toutiao/35952.html

点云分割标注直接加速！ 交互式4D分割Interactive4D

写在前面 & 笔者的个人理解

相关推荐

联系我们

点云分割标注直接加速！交互式4D分割Interactive4D