S3E：用于协作SLAM的大规模多模态数据集-电子发烧友网

0. 引言

多机器人协作在搜索救援、工业自动化、智慧农业等领域发展迅猛，而协同SLAM(C-SLAM)是实现多机器人协作的核心技术。现有的EuRoc、KITTI等数据集虽然在单机SLAM领域发挥了重要作用，但却很难去评价多机协同的轨迹和建图精度。近日，中山大学团队开发了一种用于协作SLAM的大规模多模态数据集，由3个无人车沿四种轨迹采集，包含7个室外场景和5个室内场景。这是第一个使用各种室内和室外环境的激光雷达、视觉和惯性数据的C-SLAM数据集，研究机器人协作的小伙伴一定不要错过！

2. 摘要

随着使用一组机器人协作完成任务的要求越来越高，研究界对协作同步定位和地图绘制越来越感兴趣。不幸的是，现有的数据集在它们捕获的协作轨迹的规模和变化方面是有限的，尽管不同主体之间的交互轨迹的一般化对于协作任务的整体可行性是至关重要的。为了帮助将研究社区的贡献与现实世界的多主体协调SLAM问题结合起来，我们引入了S3E，这是一个由无人驾驶地面车辆车队沿着四个设计的协作轨迹范例捕获的新的大规模多模态数据集。S3E由7个室外和5个室内场景组成，每个场景都超过200秒，由同步和校准良好的高质量双目相机、激光雷达和高频IMU数据组成。至关重要的是，我们的努力在数据集大小、场景可变性和复杂性方面超过了以前的尝试。它的平均记录时间是开创性的EuRoC数据集的4倍。我们还提供仔细的数据集分析以及协作SLAM和单个对应方的基线。

3. 数据集介绍

3.1 数据采集车

如图1所示是用于采集S3E数据集的无人车，每个无人车上都有2个高分辨率彩色相机、1个16线激光雷达、1个9轴IMU以及1个双天线RTK。表1所示是无人车所使用传感器的具体参数。表1 传感器设备参数

无人车所使用的平台是Agilex Scout Mini，它是一款四轮驱动、最高车速10km/h的全地形高速遥控移动平台。在具体的数据采集过程中，作者使用Velodyne VLP-16 Puck来记录360°点云数据。使用两台HikRobot MV-CS050-10GC GigE相机采集双目视觉数据，其中双目相机的基线为360mm，图像通过全局快门扫描捕获，并从原始图像降采样到1224x1024。此外，还使用9轴Xsens MTi-30-2A8G4 IMU记录三个加速度计和三个陀螺仪。为了进行验证和测试，作者还使用Femtomes Nano-D RTK配备双天线在GNSS可用区域捕获轨迹真值，真值采集频率为1 Hz。无人车平台上所有传感器的安装位置如图2所示，采集到的S3E数据集样例如图3所示。

图2 传感器布局和坐标系

图3 S3E数据集的数据示例，每行都显示了不同平台同时捕捉到的双目图像和点云。

3.2 传感器同步

在多传感器融合中，时间同步和传感器校准至关重要。因此，作者在此方面也做了很多的工作。 (1) 时间同步：如图4所示，S3E的同步系统使用Altera EP4CE10板作为触发器，Intel NUC11TNKv7作为主机。对于不同机器人间的同步，作者把这个问题分成两种情况来讨论。首先，应用GNSS时间作为室外场景中的全局时间源来校准机器人的计时器。之后，在无GNSS系统中(室内场景)，所有机器人运行时间校准程序，通过无线网络从PTP服务器获取外部全局时间数据。对于内部同步，触发单元周期性地产生脉冲来触发激光雷达、双目摄像机和IMU。值得注意的是，FPGA产生1 Hz脉冲来触发激光雷达，然后激光雷达返回10 Hz数据，并在接收到触发信号后刷新内部计数器寄存器。摄像机和IMU在收到触发脉冲后立即返回数据。 (2) 传感器校准：在图2所示的传感器布局中，所有的坐标系都遵循右手定则。作者使用标准棋盘校准来运行相机的内部校准。对于激光雷达和IMU，由厂家进行内部传感器校准。之后进行双目相机联合标定和激光雷达-相机联合标定。此外，在利用Allan标准差对IMU噪声建模后，作者还进行了相机和IMU的联合标定。

图4 基于FPGA的同步系统架构

3.3 轨迹范例

如图5所示，在S3E数据集中，作者设计了遵循四种不同的机器人内/机器人间规范的闭环轨迹。第一种轨迹是C-SLAM应用中的典型情况，即机器人编队同时绕目标运行，主要用于对目标进行稠密三维重建。第二个轨迹模拟区域搜索和救援任务，每个机器人在不同的区域搜索，并在交互过程中与其他机器人共享信息。这种情况要求C-SLAM算法在小的公共区域内具有可靠的机器人内部闭环能力和高效的机器人之间闭环能力。第三条轨迹集中于仅具有机器人间环路闭合的场景，所有的机器人都从不同的地方开始，并在路径中的一些会合点前进，最后在同一个地方相遇。第四条轨迹中，机器人从不同的地方开始，终点是同一个地点。这种情况在C-SLAM中非常困难，因为所有的机器人只在终点相遇，几乎没有为回环提供任何信息。图6显示了室外环境中S3E数据集的轨迹，它包含校园内五个有代表性的功能区域，即广场、图书馆、学院、操场和宿舍。

图5 四种轨迹范例

图6 S3E数据集的室外轨迹，Alpha、Bob和Carol在室外环境中的轨迹用橙色、紫色和青色标注。 S3E数据集的室外和室内分布情况如表2所示，与其他主流SLAM数据集的对比如表3所示。S3E数据集的平均时间为459.1s，这对解决C-SLAM的长期评估问题具有较大帮助。值得注意的是，对于每个设计的轨迹，该数据集至少包含一个序列。此外，Dormitory为第三类和第四类的混合轨迹，Laboratory_1为第二类和第四类的混合轨迹。表2 S3E数据集分析

表3 与一些流行的SLAM数据集的对比

4. 实验

4.1 基线

如表4所示，作者在S3E数据集上提供了四个单机器人SLAM和三个C-SLAM基线，评价指标为ATE，均是目前的主流SLAM算法。其中前者包括ORB-SLAM3、VINS-Fusion、LIO-SAM以及LVI-SAM。后者包括COVINS、DiSCo-SLAM以及DCL-SLAM。作者采用了三种方法来生成轨迹真值：在GNSS可用区域，由双天线RTK设备记录的厘米级定位真值。对于无GNSS的场景，用RTK设备记录建筑物外轨道的起点和终点。并利用运动捕捉设备来记录室内情况下的起点和终点。表4 室外环境下单SLAM和C-SLAM的基准ATE。α、β和γ分别代表ALPHA、BOB和CAROL

4.2 结果对比

对于单机器人SLAM，基于激光雷达的方法通常优于基于视觉的方法。在S3E中，大多数基于视觉的方法在转弯时无法跟踪帧，因此，基于LiDAR的C-SLAM超过了基于视觉的C-SLAM。同时，C-SLAM在成功检测到回环时，可以状态估计的鲁棒性和准确性。例如DCL-SLAM相比其前端LIO-SAM，平均ATE降低了0.42。在Playground_1序列中，部署单LIO-SAM时，同心圆Alpha和Bob均无法跟踪帧，单通过DCL-SLAM可以成功跟踪，并且精度实现了大幅提升。在Square_1中，COVINS以7.09的ATE超过了单SLAM，Carol在ORB-SLAM3失败时通过协作实现了1.75 ATE。如图7所示，红色圆圈表示C-SLAM成功检测到回环。在左侧，DiSCo-SLAM和DCL-SLAM在简单的情况下取得成功，因为不同观测之间的大量重叠保证了后端优化的冗余特性。与DCL-SLAM相比，COVINS在两个机器人同向移动的端点处成功检测到不同机器人之间的回环，但在两个机器人相对移动的中点处未能匹配到Bob和Carol之间的特征。这也是DCL-SLAM优于COVINS的原因之一。结果表明，先进的C-SLAM系统可以在具有相当大重叠度的轨迹间表现良好。

图7 C-SLAM的定性结果

5. 结论

近期，中山大学开发了一种由三个无人车记录的大规模C-SLAM数据集，它包含激光雷达-视觉-IMU数据。S3E数据集包含7个室外场景和5个室内场景，并进行了时间同步和传感器校准。此外，S3E数据集中包含了多个回环检测，并评估了当前最先进的C-SLAM及其单机器人前端比较器的性能。多机协同是机器人领域的一个重要发展趋势，而目前多机数据集还较少，S3E很大程度上填补了这方面的空白。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
206

文章
27052

浏览量
201435
计时器

计时器

+关注

关注
1

文章
395

浏览量
32157
数据集

数据集

+关注

关注
4

文章
1179

浏览量
24356

原文标题：S3E：用于协作SLAM的大规模多模态数据集

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

OpenHarmony实战开发-如何实现模态转场

模态转场是新的界面覆盖在旧的界面上，旧的界面不消失的一种转场方式。表1 模态转场接口接口说明使用场景 bindContentCover 弹出全屏的模态组件。用于自定义全屏的

发表于 04-28 14:47

【书籍评测活动NO.30】大规模语言模型：从理论到实践

大模型实践和理论研究的过程中，历时8个月完成《大规模语言模型：从理论到实践》一书的撰写。希望这本书能够帮助读者快速入门大模型的研究和应用，并解决相关技术问题。本书一经上市，便摘得京东新书日榜销售

发表于 03-11 15:16

从基本原理到应用的SLAM技术深度解析

LSD-SLAM 即 Large-Scale Direct SLAM，兼容单目相机和双目相机。LSD-SLAM是一种基于光流跟踪的直接法SLAM，但是实现了半稠密建图，建图

发表于 02-26 09:41 •1955次阅读

从基本原理到应用的<b class='flag-5'>SLAM</b>技术深度解析

大规模神经网络优化：超参最佳实践与规模律

从理论分析入手把握大规模神经网络优化的规律，可以指导实践中的超参数选择。反过来，实践中的超参数选择也可以指导理论分析。本篇文章聚焦于大语言模型，介绍从 GPT 以来大家普遍使用的训练超参数的变化

发表于 12-10 21:45 •596次阅读

WiFi 6下的大规模部署策略

随着数字化时代的快速发展，我们正处于一个多设备、高密度连接的时代。在这个背景下，WiFi 6（802.11ax）作为一项新的无线通信标准，被广泛认为是满足未来大规模连接需求的关键技术。本文将深入研究WiFi 6在大规模部署中的关键策略，以确保网络的高效性、可靠性和安全性。

发表于 11-02 16:33 •215次阅读

用于大规模MIMO的开放式RAN直接射频采样无线收发器架构

电子发烧友网站提供《用于大规模MIMO的开放式RAN直接射频采样无线收发器架构.pdf》资料免费下载

发表于 09-14 14:26 •0次下载

<b class='flag-5'>用于</b><b class='flag-5'>大规模</b>MIMO的开放式RAN直接射频采样无线收发器架构

超大规模数据中心的优势和面临的挑战

从本质上来说，数据中心是为大规模运行而设计的，通常容纳数十个(如果不是数百个)物理服务器和虚拟机。超大规模数据中心本质上是一个更高的级别，它可以支持数千台服务器和数百万个虚拟机。超大规模数据

发表于 09-08 08:29 •577次阅读

视觉SLAM是什么？视觉SLAM的工作原理视觉SLAM框架解读

近年来，SLAM技术取得了惊人的发展，领先一步的激光SLAM已成熟的应用于各大场景中，视觉SLAM虽在落地应用上不及激光SLAM，但也是目前

发表于 09-05 09:31 •1812次阅读

适用于任意数据模态的自监督学习数据增强技术

本文提出了一种适用于任意数据模态的自监督学习数据增强技术。自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习算法尽管在概念上是通用的，但是在具体操作上是

发表于 09-04 10:07 •788次阅读

大规模储能用低成本氢-钠二次气体电池

氢气二次电池由于具有出色的倍率性能、低的过电势及优异的循环稳定性，有望被应用于大规模储能。

发表于 08-27 17:31 •935次阅读

keras制作mnist数据集的流程

第5讲讲解了keras制作mnist数据集的流程，进一步的，有时候我们需要构建自己的数据集。以flower分类为例，见参考3（这里直接用别

发表于 08-18 06:38

BigCode背后的大规模数据去重方法有哪些？

本文面向对大规模文档去重感兴趣，且对散列 (hashing) 、图 (graph) 及文本处理有一定了解的读者。

发表于 08-02 10:27 •537次阅读

ARM946E-S技术参考手册

ARM946E-S是一个可合成的宏单元，结合了ARM处理器。它是ARM9Thumb系列高性能32位片上系统处理器解决方案的一员。 ARM946E-S具有紧密耦合的SRAM存储器、指令和数据缓存

发表于 08-02 09:41

适用于Kintex超大规模FPGA标准

该参考设计使用MAX10 InTune™负载点（PoL）控制器提供输入电压为8.13V至2.1V、输出电压为80.2V、输出电流为15303A的电源电路。该电路旨在为 Xilinx® Kintex 超大规模™ FPGA 上的 VCC1V8 电源轨供电。

发表于 06-08 11:31 •341次阅读

ImageBind：跨模态之王，将6种模态全部绑定！

最近，很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此，视频 - 音频嵌入无法直接

发表于 05-11 09:30 •680次阅读