MiX Knowledge

地月空间自主绝对跟踪的基于信息的轨迹规划

分类： 机器人技术, 信息论, 系统与控制, 系统与控制, 信息论

作者： Trevor N. Wolf, Brandon A. Jones

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17435v1

摘要： 月球行动的复兴需要地月导航和空间态势感知（SSA）方面的进步。与这些任务相关的挑战引起了人们对几乎不需要地面干预的自主规划、导航和跟踪技术的兴趣。这项研究介绍了一种用于低推力移动观测器的轨迹规划工具，旨在通过卫星间相对测量最大限度地提高导航和跟踪性能。我们根据增强观察者/目标状态和收集的相关测量集之间的互信息，为在观察期间收集的信息制定表达式。然后，我们为移动观察者开发一个最佳轨迹设计问题，平衡信息增益和控制工作，并用顺序凸规划（SCP）方法解决这个问题。所开发的方法在涉及地月区域的航天器的场景中进行了演示，展示了改进自主导航和跟踪的潜力。

使用 VLM 进行开放词汇时间动作本地化

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17422v1

摘要： 视频动作定位旨在从长视频中查找特定动作的时间点。尽管现有的基于学习的方法已经取得了成功，但这些方法需要对视频进行注释，这会带来相当大的劳动力成本。本文提出了一种基于新兴视觉语言模型（VLM）的免学习、开放词汇方法。挑战源于这样一个事实：VLM 既不是为处理长视频而设计的，也不是为查找操作而定制的。我们通过扩展迭代视觉提示技术来克服这些问题。具体来说，我们将视频帧采样到带有帧索引标签的串联图像中，使 VLM 猜测被认为最接近动作开始/结束的帧。通过缩小采样时间窗口来迭代此过程会导致找到动作的开始和结束的特定帧。我们证明这种采样技术可以产生合理的结果，说明 VLM 用于理解视频的实际扩展。

EMPOWER：具有在线基础和执行的具体多角色开放词汇规划

分类： 机器人技术, 人工智能

作者： Francesco Argenziano, Michele Brienza, Vincenzo Suriani, Daniele Nardi, Domenico D. Bloisi

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17379v1

摘要： 现实生活中机器人的任务规划面临着巨大的挑战。这些挑战源于三个主要问题：难以确定实现目标的基本步骤顺序；高层行动和低层命令之间缺乏标准化映射；考虑到机器人硬件资源有限，保持低计算开销的挑战。我们推出了 EMPOWER，这是一个专为开放词汇在线基础和实体代理规划而设计的框架，旨在解决这些问题。通过利用高效的预训练基础模型和多角色机制，EMPOWER 在基础规划和执行方面取得了显着改进。定量结果凸显了我们方法的有效性，使用 TIAGo 机器人在六个不同的现实场景中实现了 0.73 的平均成功率。

增强现实无国界：实现无地图精准定位

分类： 机器人技术

作者： Albert Gassol Puigjaner, Irvin Aloise, Patrik Schmuck

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17373v1

摘要： 视觉定位对于计算机视觉和增强现实 (AR) 应用至关重要，其中确定相机或设备的位置和方向对于与物理环境准确交互至关重要。传统方法依赖于使用运动结构 (SfM) 或同步定位与建图 (SLAM) 构建的详细 3D 地图，这对于动态或大规模环境而言计算成本高昂且不切实际。我们引入了 MARLOC，这是一种用于 AR 应用的新型定位框架，它使用图像序列内已知的相对变换来执行序列内三角测量，生成用于姿态估计和细化的 3D-2D 对应关系。 MARLOC 无需预先构建 SfM 地图，可提供适合动态户外环境的准确高效的定位。使用基准数据集和真实实验进行的评估证明了 MARLOC 最先进的性能和稳健性。通过将 MARLOC 集成到 AR 设备中，我们强调了其在现实户外场景中实现精确定位的能力，展示了其在 AR 应用中增强视觉定位的实际有效性和潜力。

双向解码：通过闭环重采样改进动作分块

分类： 机器人技术, 人工智能, 机器学习

作者： Yuejiang Liu, Jubayer Ibn Hamid, Annie Xie, Yoonho Lee, Maximilian Du, Chelsea Finn

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17355v1

摘要： 无需中间重新规划即可预测和执行一系列动作（称为动作分块），越来越多地用于机器人从人类演示中进行的学习。然而，它对学习策略的影响仍然令人费解：一些研究强调了它对于实现强劲绩效的重要性，而另一些研究则观察到了有害影响。在本文中，我们首先通过分析学习者和演示者之间的差异来剖析动作组块的作用。我们发现，较长的动作块使策略能够通过考虑块内更多过去的状态和动作来更好地捕获时间依赖性。然而，这种优势的代价是由于对最近状态的观察较少而加剧了随机环境中的错误。为了解决这个问题，我们提出了双向解码（BID），这是一种将动作分块与闭环操作连接起来的测试时推理算法。 BID 在每个时间步对多个预测进行采样，并根据两个标准搜索最佳预测：(i) 后向一致性，有利于与先前决策一致的样本，(ii) 前向对比度，有利于接近更强策略输出的样本，远离政策较弱的国家。通过耦合动作块内部和动作块之间的决策，BID 增强了扩展序列的时间一致性，同时在随机环境中实现自适应重新规划。实验结果表明，在七个模拟基准和两个现实世界任务中，BID 大大优于两个最先进的生成策略的传统闭环操作。

优化交互空间：扩大多个便携式动作捕捉设备的捕捉体积

分类： 机器人技术

作者： Muhammad Hilman Fatoni, Christopher Herneth, Junnan Li, Fajar Budiman, Amartya Ganguly, Sami Haddadin

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17287v1

摘要： Leap Motion Controller (LMC) 等无标记运动捕捉设备已广泛用于跟踪手、手腕和前臂位置，作为基于标记的运动捕捉 (MMC) 的替代方案。然而，之前的研究强调了 LMC 在可靠记录手部运动学方面的表现不佳。在本研究中，我们采用四个 LMC 设备来优化它们的集体跟踪体积，旨在提高手部运动学的准确性和精度。通过蒙特卡罗模拟，我们确定了四个 LMC 设备的优化布局，并随后进行了涵盖 10 个受试者的 1560 次试验的可靠性和有效性实验。组合跟踪体积针对 MMC 系统进行了验证，特别是对于涉及手腕、食指和拇指弯曲的运动运动。利用一台计算机中的计算资源，与初始配置的-0.07 $\pm$ 0.40 相比，我们的优化配置结果具有更好的可见性，值为 0.05 $\pm$ 0.55。多个 Leap Motion 控制器 (LMC) 已被证明可以增加捕获体积的交互空间，但仍然无法从动态运动中提供令人满意的测量结果。

NanoMVG：基于快速制导摄像头和 4D 毫米波雷达的以 USV 为中心的低功耗多任务视觉接地

分类： 计算机视觉和模式识别, 机器人技术

作者： Runwei Guan, Jianan Liu, Liye Jia, Haocheng Zhao, Shanliang Yao, Xiaohui Zhu, Ka Lok Man, Eng Gee Lim, Jeremy Smith, Yutao Yue

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17207v1

摘要： 最近，视觉接地和多传感器设置已被纳入地面自动驾驶系统和无人水面车辆（USV）的感知系统中，但使用多传感器的现代基于学习的视觉接地模型的高度复杂性阻碍了此类模型的部署现实生活中的 USV。为此，我们设计了一种名为 NanoMVG 的低功耗多任务模型，用于水道具体感知，引导摄像头和 4D 毫米波雷达通过自然语言定位特定物体。 NanoMVG 可以同时执行盒级和掩模级视觉接地任务。与其他视觉接地模型相比，NanoMVG 在 WaterVG 数据集上实现了极具竞争力的性能，尤其是在恶劣环境下，并且具有超低功耗和长续航能力。

使用身体和手势与四足机器人进行非语言交互和界面：设计和用户体验评估

分类： 机器人技术

作者： Soohyun Shin, Trevor Evetts, Hunter Saylor, Hyunji Kim, Soojin Woo, Wonhwha Rhee, Seong-Woo Kim

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17066v1

摘要： 近年来，四足机器人因其在机动性方面的实际优势而引起了广泛关注，特别是在崎岖地形导航和爬楼梯时。随着这些机器人越来越多地融入建筑和医疗保健等各个行业，研究人员越来越注重开发直观的交互方法，例如语音和手势，而不需要键盘或操纵杆等单独的设备。本文旨在研究一种与具有熟悉形状因数的四足机器人舒适且高效的交互方法。为此，我们进行了两项初步研究，以观察个体如何在自然和受控环境中自然地与四足机器人互动，随后进行了原型实验，以使用 Unitree Go1 Pro 四足机器人检查人类对基于身体和基于手部的手势控制的偏好机器人。我们使用用户体验问卷评估了 13 名参与者的用户体验，并测量了完成特定任务所需的时间。我们的初步结果表明，人类自然地偏好通过手势和身体姿势而不是语音与机器人进行交流。此外，参与者在使用身体姿势与机器人交互时表示满意度更高，完成任务的速度更快。这与大多数四足机器人基于手势的控制技术都是基于手的事实相矛盾。该视频可在 https://youtu.be/rysv1p1zvp4 上观看。

通过模拟到真实的特权训练用软手腕插入机器人物体

分类： 机器人技术

作者： Yuni Fuchioka, Cristian C. Beltran-Hernandez, Hai Nguyen, Masashi Hamaya

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17061v1

摘要： 这项研究使用具有柔软手腕的机器人来解决非结构化环境下接触丰富的对象插入任务，从而实现安全的接触交互。对于非结构化环境，我们假设物体抓取和孔位姿存在不确定性，并且软腕位姿无法直接测量。最近的方法采用学习方法和力/扭矩传感器来进行接触定位；然而，它们需要在现实世界中收集数据。这项研究提出了一种使用特权训练策略的模拟到真实的方法。该方法有两个步骤。 1) 训练教师策略以使用传感器输入和地面实况特权信息（例如钉姿势）完成任务，然后 2) 使用教师策略推出产生的数据训练学生编码器，以估计传感器历史记录中的特权信息。我们在抓取和孔位姿不确定的情况下进行了模拟真实实验。这导致圆形钉插入的成功率分别为 0、+5 和 -5 度钉未对准，并且起始位置从默认位置随机移动 $\pm$ 10 毫米位置。此外，我们还使用训练期间从未见过的方形钉子测试了所提出的方法。额外的模拟评估表明，与仅使用模拟传感器数据进行训练相比，使用特权策略可以提高成功率。我们的结果证明了对软机器人使用模拟到真实的特权训练的优势，这有可能减轻机器人装配的人类工程工作。

机器人控制和推理的生成建模视角

分类： 机器人技术

作者： Takuma Yoneda

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17041v1

摘要： 随着语音识别和图像分类的初步成功，基于学习的神经网络方法（通常称为深度学习）已经扩展到各个领域。神经网络的一种原始形式充当从一个向量到另一个向量的确定性映射，由可训练权重参数化。这非常适合点估计，其中模型学习解决感兴趣的任务所需的一对一映射（例如，将前置摄像头视图映射到转向角度）。尽管学习这种确定性的一对一映射是有效的，但在某些情况下，对 \emph{multimodal} 数据分布进行建模（即学习一对多关系）是有帮助的甚至是必要的。在本论文中，我们采用生成建模的视角来研究机器人问题。生成模型从多模态分布中学习并生成样本，而不是执行点估计。我们将探讨这种观点为机器人技术的三个主题提供的优势。

MakeWay：使用 LiDAR 进行主动室内导航的对象感知成本图

分类： 机器人技术

作者： Binbin Xu, Allen Tao, Hugues Thomas, Jian Zhang, Timothy D. Barfoot

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17034v1

摘要： 在本文中，我们介绍了一种基于激光雷达的机器人导航系统，该系统基于新型对象感知可供性成本图。利用 3D 对象检测网络，我们的系统识别 LiDAR 关键帧中感兴趣的对象，使用迭代最近点 (ICP) 算法细化其 3D 姿态，并通过卡尔曼滤波器和匈牙利数据关联算法跟踪它们。然后，它使用新的关联检测更新现有对象姿势，并为不匹配的检测创建新的对象映射。使用维护的对象级映射系统，我们的系统创建可供性驱动的对象成本图，以便在路径规划中主动避免碰撞。此外，我们通过引入自动标记技术来解决室内语义 LiDAR 数据的稀缺问题。该方法利用 CAD 模型数据库进行准确的地面实况注释，包括 LiDAR 序列中每个对象的边界框、位置、方向和逐点语义。我们在模拟和现实世界的机器人平台上进行了广泛的评估，强调了通过使用对象可供性成本图主动回避对象的有效性，从而提高了机器人导航的安全性和效率。该系统可以在船上实时运行，我们打算发布我们的代码和数据供公众使用。

通过深度强化学习实现视觉里程计的高效相机曝光控制

分类： 机器人技术, 计算机视觉和模式识别

作者： Shuyang Zhang, Jinhao He, Yilong Zhu, Jin Wu, Jie Yuan

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.17005v1

摘要： 图像质量下降会损害视觉里程计 (VO) 系统的稳定性，尤其是在光照变化显着的环境中。这项研究采用深度强化学习（DRL）框架来训练曝光控制代理，旨在提高挑战性条件下的成像性能。开发了轻量级图像模拟器来促进训练过程，实现图像曝光和序列轨迹的多样化。这种设置可以实现完全离线训练，无需与相机硬件和真实环境直接交互。设计了不同级别的奖励函数来增强 VO 系统，为 DRL 智能体配备不同的智能。大量实验表明，我们的曝光控制代理实现了卓越的效率（CPU 上每帧的平均推理持续时间为 1.58 毫秒），并且比传统的反馈控制方案响应更快。通过选择适当的奖励函数，代理可以智能地理解运动趋势并预测未来的照明变化。这种预测能力使 VO 系统能够提供更稳定、更精确的里程计结果。代码和数据集可在 https://github.com/ShuyangUni/drl_exposure_ctrl 获取。

从“制造”到 Mukokuseki：探索机器人国家认同的视觉感知

分类： 机器人技术, 计算机与社会, 人机交互

作者： Katie Seaborn, Haruki Kotani, Peter Pennefather

发布时间： 2024-08-30

链接： http://arxiv.org/abs/2408.16949v1

摘要： 人们将人类特征融入到社交机器人的设计中，这是一个具有社会文化影响的视觉过程。其中一个因素可能是国籍，这是一种复杂的社会特征，与种族、文化和其他可以嵌入机器人视觉设计中的身份因素相关。在社会认同理论（SIT）的指导下，我们探索了“mukokuseki”的概念，这是一种视觉设计特征，其定义是日本文化出口中缺乏民族和种族认同的视觉线索。在一项两阶段分类研究 (n=212) 中，美国 (n=110) 和日本 (n=92) 参与者对随机选择的来自美国和日本的 9 种机器人刺激以及跨国 Pepper 进行了评分。我们发现了自制效应和两种无齿效应的证据。我们为可以与不同背景的人互动的 Mukokuseki 机器人的视觉设计提供建议。我们的研究结果对机器人和社会身份、机器人出口的可行性以及机器人的国际使用具有影响。

FlowRetrieval：用于少样本模仿学习的流引导数据检索

分类： 机器人技术, 机器学习

作者： Li-Heng Lin, Yuchen Cui, Amber Xie, Tianyu Hua, Dorsa Sadigh

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16944v1

摘要： 少镜头模仿学习仅依赖于少量特定于任务的演示来有效地针对给定的下游任务调整策略。基于检索的方法有望在学习政策时检索相关的过去经验以增强目标数据。然而，现有的数据检索方法陷入两个极端：它们要么依赖于先前数据中视觉上相似场景的精确行为的存在，但这种假设是不切实际的；或者他们基于任务的高级语言描述的语义相似性进行检索，这可能无法提供有关跨任务共享的低级行为或动作的信息，而这通常是检索政策学习相关数据的更重要因素。在这项工作中，我们研究了如何利用大量跨任务数据中的运动相似性来改进目标任务的小样本模仿学习。我们的主要见解是，运动相似数据携带了有关动作和对象交互的影响的丰富信息，可以在几次镜头适应过程中利用这些信息。我们提出了 FlowRetrieval，一种利用光流表示的方法，从先前的数据中提取与目标任务相似的运动，并指导学习可以最大程度地从此类数据中受益的策略。我们的结果表明 FlowRetrieval 在模拟和现实世界领域显着优于现有方法，比基于最佳检索的现有方法平均成功率高 27%。在使用真正的 Franka Emika 机器人进行的 Pen-in-Cup 任务中，FlowRetrieval 的性能是从所有先验数据和目标数据中学习的基线模仿学习技术的 3.7 倍。网站：https://flow-retrieval.github.io

使用可靠性驱动的缝合线重建进行自主图像抓取机器人缝合

分类： 机器人技术

作者： Neelay Joglekar, Fei Liu, Florian Richter, Michael C. Yip

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16938v1

摘要： 机器人辅助手术期间的自动缝合减轻了手术外科医生的负担，使他们能够专注于做出更高级别的决策，而不是在众多复杂的外科手术中感到疲劳。准确的缝合线重建和抓取是缝合的重要先决条件，特别是避免与手术工具缠结和执行复杂的缝合线操作。然而，此类方法必须对内窥镜图像中的严重噪声和线程特征稀疏性导致的严重感知退化具有鲁棒性。我们开发了一种重建算法，利用二次规划优化将平滑样条拟合到线程观测值，满足从测量的观测噪声估计的可靠性范围。此外，我们制定了一种抓取策略，可以生成最大限度地提高成功抓取概率的夹具轨迹。我们的完整图像到抓取流程经过 400 多次抓取试验的严格评估，展现出最先进的准确性。我们表明，这种策略可以应用于自主缝合针操作的各种技术，以通用的方式实现自主手术。

机器人仓储操作：大规模邻域搜索的学习然后优化方法

分类： 机器人技术, 机器学习, 优化与控制

作者： Cynthia Barnhart, Alexandre Jacquillat, Alexandria Schmid

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16890v1

摘要： 机器人技术的快速部署需要专用的优化算法来管理大量的自主代理。本文通过优化订单工作站分配、项目吊舱分配和工作站订单履行时间表，支持仓储中机器人从零件到拣选员的操作。该模型最大限度地提高了吞吐量，同时管理工作站的人力工作量和设施的拥堵。我们通过大规模邻域搜索来解决这个问题，并采用一种新颖的“学习然后优化”方法来生成子问题。该算法依靠离线机器学习程序来根据子问题特征预测客观改进，并依靠在线优化模型在每次迭代时生成新的子问题。通过与 Amazon Robotics 合作，我们证明我们的模型和算法可以为实际问题生成比最先进的方法更强大的解决方案。特别是，我们的解决方案通过协调机器人任务以供操作员一次挑选多个物品，并通过协调机器人路线以避免设施拥堵，从而提高了机器人车队的利用率。

移动机器人学习多智能体多机管理

分类： 机器人技术, 机器学习

作者： Abdalwhab Abdalwhab, Giovanni Beltrame, Samira Ebrahimi Kahou, David St-Onge

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16875v1

摘要： 机器人技术可以帮助解决制造业日益严重的工人短缺挑战。因此，机器管理是协作机器人可以解决的一项任务，也可以极大地提高生产力。然而，该领域部署的现有机器人系统依赖于固定的单臂设置，而移动机器人可以提供更大的灵活性和可扩展性。在这项工作中，我们引入了基于多智能体强化学习（MARL）技术的移动机器人的多智能体多机器护理学习框架，并设计了合适的观察和奖励。此外，还开发了基于注意力的编码机制并将其集成到多智能体近端策略优化（MAPPO）算法中，以提高其在机器管理场景中的性能。在这个新的具有挑战性的场景中，我们的模型 (AB-MAPPO) 在任务成功、安全性和资源利用率方面优于 MAPPO。此外，我们提供了广泛的消融研究来支持我们的各种设计决策。

CalTag：使用反向散射标签对毫米波雷达和激光雷达进行稳健校准

分类： 机器人技术, 信号处理

作者： Junyi Xu, Kshitiz Bansal, Dinesh Bharadia

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16867v1

摘要： 机器人自动化的兴起需要使用高质量的感知系统，通常是通过使用多个传感器。成功部署的多传感器系统的一个关键方面是使用通常称为基准的已知物体进行校准。在这项工作中，我们提出了一种用于毫米波雷达的新型基准系统，称为\name。 \name 解决了在极其混乱的环境中传统的基于角反射器的校准方法的局限性。 \name利用毫米波反向散射技术实现比角反射器更可靠的校准，从而增强多传感器感知系统的整体性能。我们比较了几种现实环境中的性能，并展示了通过使用 \name 作为角反射器上的雷达基准所实现的改进。

测量智能机器人的透明度

分类： 机器人技术, 人机交互

作者： Georgios Angelopoulos, Dimitri Lacroix, Ricarda Wullenkord, Alessandra Rossi, Silvia Rossi, Friederike Eyssel

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16865v1

摘要： 随着机器人越来越多地融入我们的日常生活，让它们变得透明的需求变得前所未有的迫切。然而，尽管机器人透明度在人机交互中很重要，但迄今为止一直缺乏标准化的衡量标准。本文通过提出第一个衡量机器人系统感知透明度的综合量表来解决这一差距，该量表有英语、德语和意大利语版本。我们的方法将透明度概念化为多维结构，包括可解释性、易读性、可预测性和元理解。拟议的量表是经过严格的三阶段流程的产物，涉及 1,223 名参与者。首先，我们生成了量表的项目，其次，我们进行了探索性因子分析，第三，验证性因子分析用于验证新开发的 TOROS 量表的因子结构。最终量表包含 26 个项目，并包含三个因素：难以辨认性、可解释性和可预测性。 TOROS 在三个跨国样本中表现出较高的跨语言可靠性、因素间相关性、模型拟合度、内部一致性和收敛效度。这种经过经验验证的工具可以评估机器人的透明度，并有助于从理论上理解这种复杂的结构。通过提供标准化测量，我们促进人机交互方面的一致和可比研究，其中 TOROS 可以作为基准。

用于安排机器人任务的训练和基准测试算法的框架

分类： 机器人技术

作者： Wojciech Dudek, Daniel Giełdowski, Tomasz Winiarski

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16844v1

摘要： 服务机器人在人类等外源因素所居住的不断变化的环境中工作。在服务机器人领域，许多不确定性是由外源行为以及物体和机器人本身的不准确定位造成的。这使得机器人任务调度问题变得异常具有挑战性。在本文中，我们提出了一个基准测试系统，用于系统评估调度机器人任务的算法的性能。机器人环境包含房间地图、家具、可移动物体和移动的人；系统定义了算法的接口、要执行的任务和评估方法。该系统由多个工具组成，可简化测试场景的生成，以训练基于人工智能的调度算法和统计测试。为了进行基准测试，选择了一组场景，并评估了几种调度算法的性能。该系统源代码的发布是为了服务社区对服务机器人的机器人任务调度算法进行调整和比较评估。

具有方向可控性的 3D 全身抓取合成

分类： 计算机视觉和模式识别, 机器人技术

作者： Georgios Paschalidis, Romana Wilschut, Dimitrije Antić, Omid Taheri, Dimitrios Tzionas

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16770v1

摘要： 合成可真实抓取物体的 3D 整体对于动画、混合现实和机器人技术非常有用。这是具有挑战性的，因为手和身体需要看起来自然。彼此、抓取的物体以及本地场景（即支撑物体的容器）。只有最近的工作才通过分而治之的方法来解决这个问题。它首先生成“引导”右手抓握，然后搜索与此匹配的物体。然而，引导手合成缺乏可控性和容器意识，因此它可能有一个令人难以置信的方向（即，身体在不穿透容器的情况下无法匹配它），并且需要通过主要的后处理进行修正。此外，搜身需要详尽的采样并且成本高昂。这些都是很强的限制。我们使用一种名为 CWGrasp 的新颖方法来解决这些问题。我们的关键思想是“尽早”而不是“太晚”执行基于几何的推理，为推理提供了丰富的“控制”信号。为此，CWGrasp 首先从通过对象的光线投射和碰撞检查构建的概率模型中采样合理的到达方向向量（稍后用于手臂和手）。然后，它生成一个具有所需手臂方向的伸手体，以及一个具有与手臂方向一致的所需手掌方向的“引导”抓握手。最终，CWGrasp 完善了身体以匹配“引导”手，同时合理地接触场景。值得注意的是，生成已经兼容的“部分”极大地简化了“整体”。此外，CWGrasp 独特地解决了右手和左手抓握的问题。我们对 GRAB 和 ReplicaGrasp 数据集进行评估。 CWGrasp 在运行时间和预算较低的情况下优于基准，而所有组件都有助于提高性能。代码和模型将被发布。

耳迷走神经刺激增强远程飞行员培训和操作

分类： 神经元和认知, 人机交互, 机器人技术

作者： William J. Tyler

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16755v1

摘要： 无人机行业的快速增长，特别是小型无人机系统 (sUAS) 和无人机 (UAV) 的使用，需要为远程飞行员开发先进的培训协议。远程飞行员必须发展技术和认知技能的结合，以管理现代无人机操作的复杂性。本文探讨了神经技术的整合，特别是耳迷走神经刺激（aVNS），作为增强远程飞行员培训和表现的方法。科学文献表明 aVNS 可以安全地改善注意力、学习和记忆等认知功能。它也被证明对于管理压力反应很有用。为了实现小型无人机/无人机的安全高效运行，飞行员在压力下保持高度警惕和决策至关重要。通过调节交感神经压力和皮质唤醒，aVNS 可以在训练前增强认知能力，帮助在训练期间保持注意力并改善训练后的压力恢复。此外，aVNS 已证明具有增强多任务处理和认知控制的潜力。这可能会降低冲动决策或认知错误的风险，从而在复杂的小型无人机操作期间帮助远程飞行员。本文主张将 aVNS 纳入远程飞行员培训计划，认为它可以在提高认知准备度、技能和知识获取以及操作安全性和效率方面提供显着的好处。未来的研究应侧重于优化无人机飞行员的 aVNS 协议，同时评估现实场景中工业安全和劳动力准备情况的长期效益。

用于超节能、设备端机器人定位的紧凑型神经拟态系统

分类： 机器人技术

作者： Adam D. Hines, Michael Milford, Tobias Fischer

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16754v1

摘要： 神经形态计算提供了一条革命性的途径，可以克服在边缘部署机器人定位和导航系统时面临的计算和能源挑战。视觉位置识别是导航的关键组成部分，通常受到传统系统高资源需求的阻碍，使其不适合仍需要执行复杂的远程任务的小型机器人平台。尽管神经形态方法具有提高效率的潜力，但实时边缘部署仍然受到生物现实网络的复杂性和有限的可扩展性的限制。在这里，我们演示了一种神经形态定位系统，该系统使用小至 180 KB 和 44k 参数的模型，在长达 8 公里的遍历中执行准确的地点识别，同时消耗的能量不到传统方法所需的 1%。我们的神经形态系统位置编码 (LENS) 在单个 SPECK(TM) 芯片中集成了尖峰神经网络、基于事件的动态视觉传感器和神经形态处理器，从而能够在六足机器人上实现实时、节能的定位。 LENS 代表了第一个能够大规模在设备上部署的完全神经拟态定位系统，为节能机器人位置识别树立了新基准。

使用几何技术的双足运动

分类： 机器人技术

作者： Antonio Losada Gonzalez, Manuel Perez Cota

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16726v1

摘要： 本文描述了一种完全基于几何方法的逆运动学分辨率的双足步行算法，从而从基础上解释了所有数学概念，以阐明这种解决方案的原因。为此，有必要简化问题并进行内容分发的教学工作。一般来说，与该主题相关的文章使用矩阵系统来求解正运动学和逆运动学，并使用解耦或雅可比计算等复杂技术。通过简化步行过程，仅使用几何技术以简单的方式提出了其分辨率。

RoboMNIST：使用 WiFi 传感、视频和音频进行多机器人活动识别的多模式数据集

分类： 机器人技术, 系统与控制, 信号处理, 系统与控制

作者： Kian Behzad, Rojin Zandi, Elaheh Motamedi, Hojjat Salehinejad, Milad Siami

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16703v1

摘要： 我们引入了一种新颖的多机器人活动识别（MRAR）数据集，使用两个集成 WiFi 通道状态信息（CSI）、视频和音频数据的机械臂。该多模式数据集利用机会信号，利用现有 WiFi 基础设施提供详细的室内环境感测，无需额外部署传感器。使用两个 Franka Emika 机械臂收集数据，并辅以三个摄像头、三个用于收集 CSI 的 WiFi 嗅探器以及三个捕获不同但互补的音频数据流的麦克风。 CSI、视觉和听觉数据的结合可以增强 MRAR 的稳健性和准确性。这个全面的数据集可以全面了解机器人环境，促进模仿人类感知和交互的先进自主操作。通过重新利用无处不在的 WiFi 信号进行环境传感，该数据集为推进机器人感知和自主系统提供了巨大的潜力。它为在动态环境中发展复杂的决策和适应能力提供了宝贵的资源。

使用机器学习优化仓库机器人的自动拣选系统

分类： 机器人技术, 人工智能

作者： Keqin Li, Jin Wang, Xubo Wu, Xirui Peng, Runmian Chang, Xiaoyu Deng, Yiwen Kang, Yue Yang, Fanghao Ni, Bo Hong

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16633v1

摘要： 随着全球电子商务的快速增长，物流行业对自动化的需求不断增加。本研究主要针对仓库中的自动化拣选系统，利用深度学习和强化学习技术来提高拣选效率和准确性，同时降低系统故障率。通过实证分析，我们证明了这些技术在提高机器人拣选性能和复杂环境适应性方面的有效性。结果表明，集成机器学习模型显着优于传统方法，有效解决高峰订单处理的挑战，减少操作错误，提高整体物流效率。此外，通过分析环境因素，本研究进一步优化系统设计，以确保在变化条件下高效稳定运行。该研究不仅为物流自动化提供了创新的解决方案，也为未来的技术发展和应用提供了理论和实证基础。

从视觉识别地形物理参数——迈向物理参数感知的运动和导航

分类： 机器人技术, 机器学习

作者： Jiaqi Chen, Jonas Frey, Ruyi Zhou, Takahiro Miki, Georg Martius, Marco Hutter

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16567v1

摘要： 识别周围环境的物理特性对于机器人的运动和导航以应对非几何危险（例如湿滑和可变形的地形）至关重要。对于机器人来说，在接触之前预测这些极端的物理特性将大有裨益。然而，从视觉估计环境物理参数仍然是一个开放的挑战。动物可以利用他们之前的经验和对所见所感的了解来实现这一点。在这项工作中，我们提出了一种基于视觉的环境物理参数估计的跨模态自监督学习框架，为未来的物理属性感知运动和导航铺平了道路。我们弥合了经过模拟训练的现有政策与通过视觉识别物理地形参数之间的差距。我们建议在模拟中训练物理解码器，以根据多模态输入预测摩擦力和刚度。经过训练的网络允许以自监督的方式用物理参数标记真实世界的图像，以在部署过程中进一步训练视觉网络，从而可以从图像数据中密集地预测摩擦力和刚度。我们使用四足 ANYmal 机器人在模拟和现实世界中验证我们的物理解码器，其性能优于现有的基线方法。我们表明，我们的视觉网络可以预测室内和室外实验中的物理特性，同时允许快速适应新环境。

DroneWiS：小型无人机系统在真实大风条件下的自动模拟测试

分类： 软件工程, 机器人技术

作者： Bohan Zhang, Ankit Agrawal

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16559v1

摘要： 小型无人机系统 (sUAS) 的不断发展需要先进的测试方法来确保其在现实世界中安全可靠的运行。为了突破现实环境中小型无人机模拟测试的界限，我们之前开发了 DroneReqValidator (DRV) 平台，允许开发人员在地球数字孪生中自动进行模拟测试。在本文中，我们介绍了 DRV 2.0，它引入了一个名为 DroneWiS（无人机风模拟）的新颖组件。 DroneWiS 允许小型无人机系统开发人员自动模拟真实的大风条件并测试小型无人机系统的抗风能力。与当前最先进的模拟工具（例如 Gazebo 和 AirSim）仅模拟基本风况不同，DroneWiS 利用计算流体动力学 (CFD) 来计算由风与环境中物体相互作用而产生的独特风流，例如如建筑物和不平坦的地形。这种模拟功能可以让开发人员更深入地了解小型无人机在具有挑战性和现实的大风条件下的导航能力。 DroneWiS 为 sUAS 开发人员提供了强大的工具来测试、调试和提高 sUAS 在现实世界中的可靠性和安全性。工作演示请访问 https://youtu.be/khBHEBST8Wc

基于无人机的人体探测器选择和融合，用于生成地理定位显着图

分类： 计算机视觉和模式识别, 机器人技术

作者： Piotr Rudol, Patrick Doherty, Mariusz Wzorek, Chattrakul Sombattheera

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16501v1

摘要： 在软实时中可靠地检测和地理定位不同类别的对象的问题在许多应用领域中至关重要，例如使用无人机（UAV）执行的搜索和救援。这项研究解决了基于系统上下文视觉的探测器选择、分配和执行的互补问题，此外还融合了无人机团队的探测结果，以便及时准确、可靠地对感兴趣的物体进行地理定位。在离线步骤中，首先从系统角度对基于视觉的探测器进行独立于应用的评估。基于此评估，在执行任务之前会自动选择每个平台最合适的在线目标检测算法，同时考虑到许多实际系统考虑因素，例如可用的通信链路、使用的视频压缩和可用的计算资源。使用构建显着位置地图的方法融合检测结果，该方法利用新颖的传感器模型对正面和负面观察进行基于视觉的检测。还提供了一些模拟和真实飞行实验，验证了所提出的方法。

通过图卷积网络和 Transformer 架构中的优化参数集成识别人类活动的功能

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Mohammad Belal, Taimur Hassan, Abdelfatah Hassan, Nael Alsheikh, Noureldin Elhendawi, Irfan Hussain

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16442v1

摘要： 人类活动识别是利用计算机视觉、机器视觉和深度学习技术对人类行为进行分类的一个主要研究领域。深度学习领域已经取得了重大进展，其架构在捕捉人类动态方面非常有效。本研究强调特征融合对活动识别准确性的影响。该技术解决了传统模型的局限性，传统模型由于理解空间和时间特征的能力有限而在识别活动方面面临困难。该技术采用从四个公开可用的数据集获得的感官数据：HuGaDB、PKU-MMD、LARa 和 TUG。使用这些数据集评估了两个深度学习模型，特别是 Transformer 模型和参数优化图卷积网络 (PO-GCN) 的准确性和 F1 分数。特征融合技术集成了两个模型的最终层特征并将其输入到分类器中。经验证据表明 PO-GCN 在活动识别方面优于标准模型。 HuGaDB 的准确性提高了 2.3%，F1 分数提高了 2.2%。 TUG 显示准确度提高了 5%，F1 分数提高了 0.5%。另一方面，LARa 和 PKU-MMD 的准确率较低，分别为 64% 和 69%。这表明特征的集成增强了 Transformer 模型和 PO-GCN 的性能。

3D 中非预制物体运输的时间优化轨迹规划

分类： 机器人技术

作者： Lingyun Chen, Haoyu Yu, Abdeldjallil Naceri, Abdalla Swikir, Sami Haddadin

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16420v1

摘要： 非抓握物体运输提供了一种增强机器人在物体操纵任务中的性能的方法，特别是对于不稳定的物体。有效的轨迹规划需要同时考虑机器人运动约束和物体稳定性。在这里，我们引入了物体稳定性的物理模型，并提出了一种新颖的轨迹规划方法，用于沿 3D 空间中的任意直线进行非综合运输。使用 7 自由度 Franka Panda 机器人进行的验证证实，通过托盘旋转集成提高了运输速度，同时确保了物体稳定性和机器人运动约束。

EasyChauffeur：Waymax 上提升简单性和效率的基准

分类： 机器人技术

作者： Lingyu Xiao, Jiang-Jiang Liu, Xiaoqing Ye, Wankou Yang, Jingdong Wang

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16375v1

摘要： 基于深度学习的驾驶规划器的最新进展主要集中在复杂的网络工程上，但效果有限。本文与传统方法不同，探讨了三个基本但尚未充分研究的方面：培训政策、数据效率和评估稳健性。我们推出了 EasyChauffeur，它是一个可重复且有效的规划器，适用于 GPU 加速模拟器 Waymax 上的模仿学习 (IL) 和强化学习 (RL)。值得注意的是，我们的研究结果表明，结合策略强化学习可以显着提高性能和数据效率。为了进一步提高这种效率，我们提出了 SNE-Sampling，这是一种有选择地从编码器的潜在空间中采样数据的新方法，大大提高了 EasyChauffeur 的 RL 性能。此外，我们还发现当前评估方法的缺陷，由于自我车辆初始状态的微小变化导致性能显着下降，因此无法准确评估不同规划器的稳健性。作为回应，我们提出了自我转变，这是一种用于评估规划者稳健性的新评估设置。我们的研究结果主张从主要关注网络架构转向采用涵盖培训策略、数据效率和稳健评估方法的整体方法。

具有轻量级 DRL 策略的高效多代理导航

分类： 机器人技术, 系统与控制, 系统与控制

作者： Xingrong Diao, Jiankun Wang

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16370v1

摘要： 在本文中，我们提出了一种基于深度强化学习（DRL）的多智能体系统的端到端防撞策略，在现实应用中展示了令人鼓舞的结果。特别是，我们的策略根据原始 LiDAR 观测来计算代理的控制命令。此外，所提出的基本模型的参数数量为140,000个，参数文件的大小为3.5 MB，这使得机器人可以仅从CPU计算动作。我们提出了一个基于物理模拟器的多智能体训练平台，以进一步弥合模拟与现实世界之间的差距。该策略是在密集且混乱的训练环境中基于基于策略梯度的强化学习算法进行训练的。引入了一种新颖的奖励函数来解决代理在某些常见场景中选择次优动作的问题。尽管用于训练的数据完全来自模拟平台，但该策略可以成功转移并部署到现实世界的机器人中。最后，我们的政策可以有效应对故意障碍并避免碰撞。该网站位于 \url{https://sites.google.com/view/xingrong2024efficient/%E9%A6%96%E9%A1%B5}。

通过瞬时加速度计更新的精确基于滤波器的视觉惯性外力估计器

分类： 机器人技术

作者： Junlin Song, Antoine Richard, Miguel Olivares-Mendez

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16354v1

摘要： 准确的干扰估计对于可靠的机器人物理交互至关重要。为了以低成本和无传感器的方式（无力传感器）估计环境干扰，文献中提出了各种紧耦合视觉惯性外力估计器。然而，现有的解决方案可能会受到频率相对较低的预积分的影响。在本文中，设计了一种新颖的估计器，通过高频瞬时加速度计更新来克服这个问题。

BEVal：自动驾驶 BEV 细分模型的跨数据集评估研究

分类： 计算机视觉和模式识别, 机器人技术

作者： Manuel Alejandro Diaz-Zapata, Wenqian Liu, Robin Baruffa, Christian Laugier

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16322v1

摘要： 当前自动驾驶语义鸟瞰图分割的研究仅侧重于使用单个数据集（通常是 nuScenes）优化神经网络模型。这种做法导致开发高度专业化的模型，这些模型在面对不同的环境或传感器设置时可能会失败，这一问题称为域转移。在本文中，我们对最先进的 BEV 分割模型进行了全面的跨数据集评估，以评估它们在不同训练和测试数据集和设置以及不同语义类别中的性能。我们研究了不同传感器（例如摄像头和激光雷达）对模型泛化到不同条件和场景的能力的影响。此外，我们还进行了多数据集训练实验，与单数据集训练相比，提高了模型的 BEV 分割性能。我们的工作解决了在跨数据集验证下评估 BEV 细分模型的差距。我们的研究结果强调了增强模型通用性和适应性的重要性，以确保自动驾驶应用的纯电动汽车细分方法更加稳健和可靠。

通过加性高斯过程进行高维控制系统的安全贝叶斯优化

分类： 机器人技术, 人工智能

作者： Hongxuan Wang, Xiaocong Li, Adrish Bhaumik, Prahlad Vadakkepat

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16307v1

摘要： 控制器调整和优化一直是机器人和机电系统中最基本的问题之一。传统的方法通常是基于模型的，但其性能很大程度上依赖于系统的精确数学模型。在具有复杂动态的控制应用中，获得精确的模型通常具有挑战性，这导致我们采用数据驱动的方法。虽然许多研究人员已经探索了优化单个控制器，但当涉及多个控制器时，安全有效地获得最佳控制器参数仍然是一个挑战。在本文中，我们提出了一种基于加性高斯过程的高维安全贝叶斯优化方法，以同时安全地优化多个控制器。加法高斯核取代了传统的平方指数核或 Mat'ern 核，提高了高斯处理更新未知函数信息的效率。在永磁同步电机（PMSM）上的实验结果表明，与现有的安全贝叶斯优化算法相比，我们的方法可以在保证安全性的同时更有效地获得最优参数。

通过语言优化进行策略适应：分解任务以进行小样本模仿

分类： 机器人技术, 机器学习

作者： Vivek Myers, Bill Chunyuan Zheng, Oier Mees, Sergey Levine, Kuan Fang

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16228v1

摘要： 即使经过了不同指令集的预训练，学习到的语言条件机器人策略也常常难以有效地适应新的现实世界任务。我们提出了一种新方法，利用视觉语言模型（VLM）提供的任务分解的语义理解来对看不见的任务进行几次适应。我们的方法，通过语言优化进行策略适应（PALO），将一些任务演示与从 VLM 采样的建议语言分解相结合，以快速实现快速非参数适应，避免需要更大的微调数据集。我们在广泛的现实世界实验中评估 PALO，其中包括具有挑战性的看不见的长视野机器人操作任务。我们发现 PALO 能够在现实世界中始终如一地完成长期、多层任务，其性能优于最先进的预先训练的通用政策和可以进行相同演示的方法。

RMMI：使用隐式神经映射增强反应式移动操作的避障功能

分类： 机器人技术

作者： Nicolas Marticorena, Tobias Fischer, Jesse Haviland, Niko Suenderhauf

发布时间： 2024-08-29

链接： http://arxiv.org/abs/2408.16206v1

摘要： 我们介绍 RMMI，这是一种新颖的反应控制框架，适用于在复杂、静态环境中运行的移动机械手。我们的方法利用神经有符号距离场（SDF）来模拟复杂的环境细节，并将这种表示形式作为二次规划（QP）中的不等式约束来协调机器人关节和基础运动。一个关键的贡献是引入了主动防撞成本项，可以最大限度地提高机器人在运动过程中到障碍物的总距离。我们首先在模拟到达任务中评估我们的方法，优于以前依赖将机器人和场景表示为一组原始几何形状的方法。与基线相比，我们将任务成功率总共提高了 25%，其中通过使用主动碰撞成本提高了 10%。我们还在现实世界的平台上展示了我们的方法，展示了它使用直接从传感器数据构建的环境模型在杂乱和有限的空间中达到目标姿势的有效性。有关更多详细信息和实验视频，请访问 https://rmmi.github.io/。

DECAF：基于离散事件的家具组装协作人机框架

分类： 机器人技术

作者： Giulio Giacomuzzo, Matteo Terreran, Siddarth Jain, Diego Romeres

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16125v1

摘要： 本文提出了一种用于协作人机场景的任务规划框架，特别关注组装家具等复杂系统。人类被描述为无法控制的主体，这意味着该主体不受预先建立的动作序列的约束，而是根据自己的偏好行事。同时，任务规划器反应性地计算协作机器人的最佳动作，以在尽可能短的时间内高效地完成整个装配任务。我们将问题形式化为离散事件马尔可夫决策问题（DE-MDP），这是一个综合框架，将各种异步行为、人类想法改变和故障恢复作为随机事件结合起来。尽管理论上可以通过构建所有可能动作的图来解决该问题，但这种方法将受到计算限制的限制。所提出的公式提供了一种利用强化学习来导出机器人最佳策略的替代解决方案。实验在模拟和真实系统中进行，受试者与 7 自由度机械臂合作组装椅子。

碰撞严重程度最小的自动驾驶车辆的路径规划

分类： 机器人技术, 优化与控制, 49M99

作者： Qiannan Wang, Matthias Gerdts

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16076v1

摘要： 本文提出了一种自动驾驶车辆的路径规划算法，评估静态和动态障碍物的碰撞严重程度。碰撞严重程度图是根据评级生成的，量化碰撞的严重程度。设计了两级最优控制问题。第一级的目标是识别碰撞严重程度最低的路径。随后，在第二级，在碰撞严重程度最低的路径中，确定需要最小转向力的路径。最后利用最优控制软件OCPID-DAE1进行数值模拟。该研究重点关注碰撞不可避免的场景。结果证明了该方法在为自动驾驶车辆寻找碰撞严重程度最小的路径方面的有效性和意义。此外，本文还说明了碰撞严重程度的评级如何影响自动驾驶车辆的行为。

去健身房：模拟中运动强化型生物混合机器人的强化学习控制

分类： 机器人技术

作者： Saul Schaffer, Hima Hrithik Pamu, Victoria A. Webster-Wood

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.16069v1

摘要： 动物可以在广泛的操作环境和规模中完成许多令人难以置信的行为壮举，这是当前机器人难以匹敌的。造成这种性能差距的一种解释是构成动物的生物材料（例如肌肉组织）具有非凡的特性。使用活体肌肉组织作为执行器可以赋予机器人系统非常理想的特性，例如自愈、顺应性和生物相容性。与传统的软机器人执行器不同，活体肌肉生物混合执行器表现出独特的适应性，并且随着使用而变得更强。肌肉的力量输出对其使用历史的依赖性赋予肌肉有机体动态适应环境的能力，随着时间的推移在任务上变得更好。虽然肌肉适应性对肌肉生物体有好处，但目前它给生物混合研究人员带来了挑战：如何设计和控制其执行器的力输出随时间变化的机器人？在这里，我们将肌肉适应性融入多肌肉生物混合机器人设计和建模工具中，利用强化学习作为协同设计合作伙伴和系统控制器。作为控制器，我们的学习代理协调分布在格子蠕虫结构上的 42 块肌肉的独立收缩，成功地将其引导向八个不同的目标，同时融入肌肉适应性。作为协同设计工具，我们的代理使用户能够识别哪些肌肉对于完成给定任务很重要。我们的结果表明，自适应代理在最大奖励和训练时间方面优于非自适应代理。总之，这些贡献既可以阐明肌肉执行器的适应性，又可以为自适应、高性能、多肌肉机器人的设计和建模提供信息。

Eagle：探索混合编码器的多模态大语言模型的设计空间

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Min Shi, Fuxiao Liu, Shihao Wang, Shijia Liao, Subhashree Radhakrishnan, De-An Huang, Hongxu Yin, Karan Sapra, Yaser Yacoob, Humphrey Shi, Bryan Catanzaro, Andrew Tao, Jan Kautz, Zhiding Yu, Guilin Liu

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15998v1

摘要： 准确解释复杂视觉信息的能力是多模态大语言模型（MLLM）的一个关键主题。最近的研究表明，增强的视觉感知可显着减少幻觉并提高对分辨率敏感的任务（例如光学字符识别和文档分析）的性能。最近的许多 MLLM 使用视觉编码器的混合来实现这一目标。尽管取得了成功，但缺乏针对关键方面的系统比较和详细消融研究，例如专家选择和多名视觉专家的整合。这项研究结合使用视觉编码器和分辨率，对 MLLM 的设计空间进行了广泛的探索。我们的研究结果揭示了各种现有策略所共有的几个基本原则，从而形成简化而有效的设计方法。我们发现，简单地连接来自一组互补视觉编码器的视觉标记与更复杂的混合架构或策略一样有效。我们还引入了预对齐来弥合视觉编码器和语言标记之间的差距，从而增强模型的一致性。由此产生的 MLLM 系列 Eagle 在主要 MLLM 基准测试中超越了其他领先的开源模型。模型和代码：https://github.com/NVlabs/Eagle

通过下一个标记预测进行上下文模仿学习

分类： 机器人技术, 人工智能

作者： Letian Fu, Huang Huang, Gaurav Datta, Lawrence Yunliang Chen, William Chung-Ho Panitch, Fangchen Liu, Hui Li, Ken Goldberg

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15980v1

摘要： 我们探索如何增强下一个令牌预测模型，以在真实机器人上执行上下文模仿学习，其中机器人通过解释输入阶段提供的上下文信息来执行新任务，而不更新其底层策略参数。我们提出了上下文机器人变压器（ICRT），这是一种因果变压器，可以在不依赖任何语言数据或奖励函数的情况下对感觉运动轨迹进行自回归预测。该公式可以在测试时灵活且无需训练地执行新任务，这是通过通过人类远程操作收集的由图像观察、动作和状态元组组成的新任务的感觉运动轨迹来提示模型来实现的。 Franka Emika 机器人的实验表明，ICRT 可以适应提示指定的新任务，即使在不同于提示和训练数据的环境配置中也是如此。在多任务环境设置中，ICRT 在泛化到未见过的任务方面显着优于机器人领域当前最先进的下一个令牌预测模型。代码、检查点和数据可在 https://icrt.dev/ 上获取

SLAM2REF：利用 3D LiDAR 和参考地图集成推进长期测绘，实现精确的 6-DoF 轨迹估计和地图扩展

分类： 机器人技术

作者： Miguel Arturo Vega Torres, Alexander Braun, André Borrmann

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15948v1

摘要： 本文提出了一种开创性的解决方案，用于将移动 3D LiDAR 和惯性测量单元 (IMU) 数据与现有建筑信息模型或点云集成，这对于在室内、GPS 无法使用的环境中实现精确的长期定位和测绘至关重要。我们提出的框架 SLAM2REF 引入了一种利用参考 3D 地图进行自动对齐和地图扩展的新颖方法。该方法由复杂的多会话锚定技术支持，该技术集成了新颖的描述符和注册方法。现实世界的实验揭示了该框架卓越的稳健性和准确性，超越了当前最先进的方法。我们的开源框架的重要性在于它对弹性地图数据管理的贡献，增强了建筑工地监控、应急响应、灾害管理等不同领域的流程，其中快速更新的数字 3D 地图有助于更好的决策和决策。生产率。此外，它还提供了本地化和地图研究方面的进步。存储库链接：https://github.com/MigVega/SLAM2REF，数据：https://doi.org/10.14459/2024mp1743877。

DemoBot：具有基于视觉的子目标检索的可变形移动操纵

分类： 机器人技术

作者： Yuying Zhang, Wenyan Yang, Joni Pajarinen

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15919v1

摘要： 模仿学习 (IL) 算法通常将经验提炼为参数行为策略，以模仿专家演示。尽管它们很有效，但以前的方法经常在数据效率和将当前状态与专家演示准确对齐方面遇到困难，特别是在以部分观察和动态对象变形为特征的可变形移动操纵任务中。在本文中，我们介绍了 \textbf{DeMoBot}，这是一种新颖的 IL 方法，可以直接从演示中检索观察结果，以指导机器人执行 \textbf{De} 可形成的 \textbf{Mo} 胆汁操作任务。 DeMoBot 利用视觉基础模型根据视觉相似性识别相关专家数据，并使用轨迹相似性和前向可达性约束将当前轨迹与演示轨迹进行匹配，以选择合适的子目标。一旦目标确定，运动生成策略将引导机器人进入下一个状态，直到任务完成。我们在多个模拟和现实环境中使用 Spot 机器人评估了 DemoBot，证明了其有效性和通用性。仅进行了 20 次演示，DeMoBot 就显着优于基准，在模拟中窗帘打开成功率达到 50%，间隙覆盖成功率达到 85%。

Gen-Swarms：使深度生成模型适应无人机群

分类： 机器人技术, 计算机视觉和模式识别

作者： Carlos Plou, Pablo Pueyo, Ruben Martinez-Cantin, Mac Schwager, Ana C. Murillo, Eduardo Montijano

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15899v1

摘要： Gen-Swarms 是一种创新方法，利用深度生成模型的功能并将其与反应式导航算法相结合，以自动创建无人机表演。深度生成模型（尤其是扩散模型）的进步在生成高质量 2D 图像方面表现出了显着的有效性。在此成功的基础上，各种工作已将扩散模型扩展到 3D 点云生成。相比之下，已经提出了诸如流匹配之类的替代生成模型，提供了从噪声到有意义的输出的简单直观的过渡。然而，流匹配模型在 3D 点云生成中的应用在很大程度上仍未得到探索。 Gen-Swarms 采用这些模型来自动生成无人机表演。现有的 3D 点云生成模型创建的点轨迹对于无人机群来说是不切实际的。相比之下，我们的方法不仅可以生成准确的 3D 形状，还可以引导群体运动，产生平滑的轨迹，并通过纳入采样过程的反应式导航算法来考虑潜在的碰撞。例如，当给定“飞机”等文本类别时，Gen-Swarms 可以快速、连续地生成 3D 飞机形状的多种变化。我们的实验表明，这种方法特别适合无人机表演，提供可行的轨迹，创建有代表性的最终形状，并显着提高无人机表演生成的整体性能。

BIM-SLAM：将 BIM 模型集成到多会话 SLAM 中，使用 3D LiDAR 进行终身测绘

分类： 机器人技术

作者： Miguel Arturo Vega Torres, Alexander Braun, André Borrmann

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15870v1

摘要： 虽然 3D LiDAR 传感器技术每天都变得更加先进和便宜，但 AEC 行业数字化的发展使得 3D 建筑信息模型（BIM 模型）现在可用于大部分建筑环境。这两个事实提出了一个问题：3D 模型如何在室内、GPS 无法使用的环境中支持 3D LiDAR 长期 SLAM。本文提出了一种利用 BIM 模型通过连续 LiDAR 测量创建更新的室内环境地图的方法。会话数据（基于姿势图的地图和描述符）最初是从 BIM 模型生成的。然后，使用多会话锚定将真实世界数据与模型中的会话数据对齐，同时最大限度地减少真实世界数据的漂移。最后，在表面表示中识别、分组和重建 BIM 模型中不存在的新元素，从而在 BIM 模型旁边实现更好的可视化。该框架能够创建与 BIM 模型一致的连贯地图，不需要事先了解机器人的初始姿态，也不需要位于地图内部。

FlowAct：具有连续感知流和模块化动作子系统的主动多模式人机交互系统

分类： 机器人技术

作者： Timothée Dhaussy, Bassam Jabaian, Fabrice Lefèvre

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15864v1

摘要： 在人机交互系统背景下，自主系统的发展需要环境的持续感知与在环境中导航或交互的潜在动作之间的协同作用。我们提出 Flowact，一种主动式多模式人机交互架构，作为机器人传感器到执行器的异步无限循环，并由两个控制器（环境状态跟踪 (EST) 和行动规划器）组织。 EST 不断收集并发布操作环境的表示，确保感知数据的稳定流动。这种持续的感知流对于我们先进的行动规划器至关重要，它编排了一系列模块化行动子系统，例如运动和说话模块，根据不断发展的环境叙事来管理它们的启动或停止。 EST 采用多种感官方式的融合来构建丰富的实时环境表示，并将其分发给行动规划器。该规划器使用决策框架来动态协调行动模块，使它们能够主动、一致地响应环境的变化。通过一系列现实世界的实验，我们展示了该系统在维持连续感知-行动循环方面的功效，大大增强了自主主动代理的响应能力和适应性。动作子系统的模块化架构有助于轻松扩展并适应广泛的任务和场景。

通过结合结构和维度综合来实现人机协作的优化并行机器人

分类： 机器人技术, 系统与控制, 系统与控制

作者： Aran Mohammad, Thomas Seel, Moritz Schappler

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15831v1

摘要： 并联机器人 (PR) 由于其较低的移动质量和较高的速度，为人机协作 (HRC) 提供了潜力。然而，平行的腿链增加了碰撞和夹紧的风险。在这项工作中，这些危险通过运动学和运动静力学模型进行描述，通过粒子群优化中的组合结构和维度综合将它们作为目标函数最小化。除了运动链内部和运动链之间夹紧的风险之外，反向驱动能力也被量化，以在理论上保证通过电机电流的可检测性。另一个与 HRC 相关的目标函数是在操作空间坐标中制定的质量矩阵的最大特征值，以考虑碰撞效应。多目标优化导致不同的帕累托最优 PR 结构。结果表明，优化导致 HRC 标准显着改善，并且六角结构 (6-RUS) 在目标函数方面更受青睐，因为其接头结构更简单。

用于遮挡感知 3D 人体姿势估计的多视图姿势融合

分类： 计算机视觉和模式识别, 机器人技术

作者： Laura Bragagnolo, Matteo Terreran, Davide Allegro, Stefano Ghidoni

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15810v1

摘要： 稳健的 3D 人体姿势估计对于确保安全有效的人机协作至关重要。然而，由于强烈的遮挡和有限的相机视角，在这些场景中准确的人类感知尤其具有挑战性。当前的 3D 人体姿势估计方法在这种情况下相当脆弱。在这项工作中，我们提出了一种在人机协作背景下进行稳健的 3D 人体姿势估计的新方法。我们不依赖嘈杂的 2D 特征三角测量，而是在绝对单目方法提供的 3D 骨架上执行多视图融合。然后通过重投影误差优化，引入肢体长度对称约束，获得准确的 3D 姿态估计。我们在公共数据集 Human3.6M 和新版本 Human3.6M-Occlusiond 上评估我们的方法，派生在相机视图上添加合成遮挡，目的是在严重遮挡下测试姿势估计算法。我们进一步在真实的人机协作工作单元上验证了我们的方法，其中我们大大超越了当前的 3D 人体姿势估计方法。我们的方法优于最先进的多视图人体姿势估计技术，并在处理具有强遮挡的挑战性场景方面表现出卓越的能力，为真正的人机协作设置提供了可靠且有效的解决方案。

海上自主水面船舶天文导航系统视场概念设计

分类： 机器人技术

作者： Kouki Wakita, Fuyuki Hane, Takeshi Sekiguchi, Shigehito Shimizu, Shinji Mitani, Youhei Akimoto, Atsuo Maki

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15765v1

摘要： 为了了解水面舰艇天文自动导航系统的合适视场（FOV）大小，我们研究了星位测量精度和成功识别恒星的概率相对于FOV的变化，重点研究了可观测星数的减少。恒星星等以及海洋环境中物理覆盖恒星的存在。结果表明，虽然较大的视场会降低恒星位置的测量精度，但它增加了可观测物体的数量，从而提高了基于子图同构的方法识别恒星的概率。研究还发现，虽然至少需要观察四个物体才能准确识别，但四个物体可能不足以实现更宽的视场。另一方面，从天文导航系统的角度来看，测量精度的降低会导致定位精度的降低。因此，研究发现，天体自动导航系统在保证所需定位精度的前提下，需要最大化视场角。此外，人们发现，需要结合四个以上观测到的天体的算法才能在更宽的视场上实现高精度的恒星识别。

解决农业环境中循环检测的挑战

分类： 机器人技术, 计算机视觉和模式识别

作者： Nicolás Soncini, Javier Civera, Taihú Pire

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15761v2

摘要： 虽然视觉 SLAM 系统已得到充分研究，并在室内和城市环境中取得了令人印象深刻的成果，但对自然、室外和开放场地环境的探索却少得多，并且仍然存在相关的研究挑战。视觉导航和本地测绘在旷野环境中表现出了较好的性能。然而，全局一致的映射和长期定位仍然依赖于环路检测和闭合的鲁棒性，而这方面的文献很少。在这项工作中，我们提出了一种新颖的方法，为开放领域中的鲁棒循环检测铺平道路，特别是在农业环境中，基于局部特征搜索和立体几何细化，并具有相对姿态估计的最后阶段。我们的方法始终能够实现良好的循环检测，中位误差为 15 厘米。我们的目标是将开放领域描述为循环检测的新颖环境，了解处理它们时出现的局限性和问题。

全身接触丰富操作中的显式接触优化

分类： 机器人技术

作者： Victor Leve, João Moura, Namiko Saito, Steve Tonneau, Sethu Vijayakumar

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15726v1

摘要： 人类可以利用身体表面任何地方的接触来操纵大型和重型物体、通常够不到的物体或同时操纵多个物体。然而，在机器人上实现这种利用整个身体表面进行接触的操作仍然极具挑战性。这可以被标记为全身接触丰富操纵（WBCRM）问题。除了由于接触模式的组合而导致的富接触操纵问题的高维性之外，允许在身体表面的任何位置创建接触会增加复杂性，这阻碍了在合理时间内规划操纵。我们通过将平面 WBCRM 的接触和运动规划制定为分层连续优化问题来解决这个计算问题。为了实现这一公式，我们提出了一种新颖的机器人表面连续显式表示，我们相信这是未来使用 WBCRM 持续优化进行研究的基础。我们的结果证明了收敛性、规划时间和可行性的显着改进 - 平均而言，在考虑的场景中找到解决方案的迭代次数减少了 99%，时间减少了 96%，而无需求助于容易失败的轨迹细化步骤。

针对人类机器人交互的基于 UWB 的仅范围姿势识别的 ML 方法进行基准测试

分类： 机器人技术

作者： Salma Salimi, Sahar Salimpour, Jorge Peña Queralta, Wallace Moreira Bessa, Tomi Westerlund

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15717v1

摘要： 人体姿势估计涉及使用来自图像、视频或运动和惯性传感器等来源的输入数据来检测和跟踪各个身体部位的位置。本文提出了一种新的人体姿势估计方法，使用机器学习算法来预测人体姿势，并使用超宽带 (UWB) 节点将其转换为机器人运动命令，作为运动传感器的替代方案。该研究利用在人体上实施的五个 UWB 传感器来实现静止姿势的分类和更强大的姿势识别。这种方法可确保对各种主体进行有效的姿势识别。这些范围测量值用作姿势预测模型的输入特征，并对其准确性进行实施和比较。为此，采用包括 K 最近邻 (KNN)、支持向量机 (SVM) 和深度多层感知器 (MLP) 神经网络在内的机器学习算法来预测相应的姿势并进行比较。我们展示了所提出的实时控制不同移动/空中机器人的方法，并在 ROS 2 节点中实现推理。实验结果证明了该方法的有效性，成功预测了人体姿势和相应的机器人运动，并且具有高精度。

有条件自动驾驶的接管请求时间预算定量模型

分类： 系统与控制, 计算机视觉和模式识别, 人机交互, 机器人技术, 系统与控制

作者： Foghor Tanshi, Dirk Söffker

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15682v1

摘要： 在有条件自动化中，自动驾驶系统承担完全控制权，仅在危急情况下向人类驾驶员发出接管请求以恢复驾驶。之前的研究表明，司机在接到接管请求后恢复驾驶所需的时间预算会因情况和不同的接管变量而异。然而，尚未提供全面的通用方法来提前估计驾驶员接管所需的时间预算。在本论文中，使用平均横向位移等性能指标，研究了有或没有视觉图像辅助的固定（7 秒）和可变时间预算（6 秒、5 秒和 4 秒）在三种接管场景中的适用性。结果表明，根据两个研究场景的特点，7 秒适用于它们。利用所获得的结果和接管变量之间的已知关系，提出了用于估计接管请求时间预算的数学公式。所提出的公式综合了个人刺激响应时间、驾驶体验、场景特定要求，并提高了接管操作的安全性。此外，视觉图像导致接管时间增加，这必然会增加时间预算。因此，可视化信息（如适用）的时间需求（例如视觉图像）应包含在时间预算中。

NeuroVE：利用尖峰神经网络进行受大脑启发的线性角速度估计

分类： 机器人技术

作者： Xiao Li, Xieyuanli Chen, Ruibin Guo, Yujie Wu, Zongtan Zhou, Fangwen Yu, Huimin Lu

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15663v1

摘要： 基于视觉的自我速度估计是机器人状态估计中的一个基本问题。然而，基于帧的相机的限制，包括运动模糊和动态设置中帧速率不足，很容易导致传统速度估计技术的失败。哺乳动物在攻击性运动中表现出一种准确估计自身速度的非凡能力。因此，将这种功能集成到机器人中显示出应对这些挑战的巨大前景。在本文中，我们提出了一种受大脑启发的线角速度估计框架，称为 NeuroVE。 NeuroVE 框架采用事件相机来捕获运动信息，并实现尖峰神经网络 (SNN) 来模拟大脑空间细胞的速度估计功能。我们将速度估计表述为时间序列预测问题。为此，我们设计了星形胶质细胞泄漏积分与激发（ALIF）神经元模型来编码连续值。此外，我们还开发了星形胶质细胞尖峰长短期记忆（ASLSTM）结构，该结构显着提高了时间序列预测能力，从而能够准确估计自我速度。模拟和现实实验的结果表明，与其他基于 SNN 的方法相比，NeuroVE 的准确率提高了大约 60%。

TeFF：跟踪增强型无遗忘少样本 3D LiDAR 语义分割

分类： 计算机视觉和模式识别, 机器人技术

作者： Junbao Zhou, Jilin Mei, Pengze Wu, Liang Chen, Fangzhou Zhao, Xijun Zhao, Yu Hu

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15657v1

摘要： 在自动驾驶中，3D LiDAR 在了解车辆周围环境方面发挥着至关重要的作用。然而，新出现的、未注释的对象给语义分割带来了小样本学习问题。本文通过利用 LiDAR 数据的时间连续性来解决当前少样本语义分割的局限性。我们的方法采用跟踪模型从一系列 LiDAR 帧生成伪地面实况，显着增强了数据集，增强了模型学习新类别的能力。然而，这种方法引入了偏向新数据的数据不平衡，从而带来了灾难性遗忘的新挑战。为了缓解这个问题，我们采用了 LoRA，这是一种减少可训练参数数量的技术，从而保留模型在基类上的性能，同时提高其对新类的适应性。这项工作代表了自动驾驶少镜头 3D LiDAR 语义分割方面向前迈出了重要一步。我们的代码可以在 https://github.com/junbao-zhou/Track-no-forgetting 获取。

学习自动驾驶赛车中速度估计的动力学模型

分类： 机器人技术

作者： Jan Węgrzynowski, Grzegorz Czechmanowski, Piotr Kicki, Krzysztof Walas

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15610v1

摘要： 速度估计在自动驾驶赛车中非常重要。尽管如此，现有解决方案的特点是精度有限，特别是在激进驾驶或对看不见的路况泛化能力较差的情况下。为了解决这些问题，我们建议使用无迹卡尔曼滤波器（UKF）和学习动态模型，该模型直接针对状态估计任务进行优化。此外，我们建议通过在线估计的摩擦系数来辅助该模型，这提高了估计精度并能够零样本适应新的路况。为了使用所提出的动力学模型评估基于 UKF 的速度估计器，我们引入了由 F1TENTH 汽车执行的攻击性机动的公开数据集，侧滑角达到 40{\deg}。使用该数据集，我们表明通过 UKF 学习动态模型可以提高估计性能，并且所提出的解决方案在标称场景中比最先进的基于学习的状态估计器高出 17%。此外，由于使用了所提出的基于学习的轮胎动力学模型和在线摩擦估计，我们展示了所提出的方法对新路面的前所未见的零样本适应能力。

ES-PTAM：基于事件的立体并行跟踪和映射

分类： 机器人技术, 计算机视觉和模式识别, 信号处理

作者： Suman Ghosh, Valentina Cavinato, Guillermo Gallego

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15605v1

摘要： 视觉里程计 (VO) 和 SLAM 是移动机器人空间感知的基本组成部分。尽管该领域取得了巨大进步，但当前的 VO/SLAM 系统仍受到传感器能力的限制。事件相机是新型视觉传感器，具有克服标准相机局限性的优势，使机器人能够将其操作范围扩展到具有挑战性的场景，例如高速运动和高动态范围照明。我们通过结合两个想法提出了一种新颖的基于事件的立体 VO 系统：通过最大化光线密度融合来估计深度的无对应映射模块和通过最大化边缘图对齐来估计相机姿势的跟踪模块。我们在五个真实世界数据集上全面评估该系统，涵盖各种相机类型（制造商和空间分辨率）和场景（驾驶、飞行无人机、手持式、自我中心等）。定量和定性结果表明，我们的方法在大多数测试序列中都优于现有技术，例如，在 RPG 数据集上轨迹误差减少了 45%，在 DSEC 数据集上减少了 61%，在 TUM-VIE 上减少了 21%数据集。为了造福社区并促进基于事件的感知系统的研究，我们发布源代码和结果：https://github.com/tub-rip/ES-PTAM

关于视觉稳定对基于帧和事件的感知的好处

分类： 机器人技术, 计算机视觉和模式识别, 图像和视频处理

作者： Juan Pablo Rodriguez-Gomez, Jose Ramiro Martinez-de Dios, Anibal Ollero, Guillermo Gallego

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15602v1

摘要： 基于视觉的感知系统通常会在不同的机器人应用中面临较大的方向变化。在这种情况下，由于处理在挑战性运动下捕获的数据的固有复杂性，它们的性能可能会受到影响。由于机器人有效载荷的限制，集成机械稳定器来补偿相机旋转并不总是可能的。本文提出了一种基于处理的稳定方法来补偿相机在事件和帧（即图像）上的旋转运动。假设相机的姿态可用，我们评估稳定性在两种感知应用中的好处：特征跟踪和估计相机自我运动的平移分量。使用来自众所周知的基于事件的视觉数据集的合成数据和序列来执行验证。实验表明，稳定性可以将特征跟踪和相机自我运动估计准确度分别提高 27.37% 和 34.82%。同时，稳定性可以将计算相机线速度的处理时间减少至少 25%。代码可在 https://github.com/tub-rip/visual_stabilization 获取

AeroVerse：用于模拟、预训练、微调和评估航空航天具体世界模型的 UAV-Agent 基准套件

分类： 机器人技术, 人工智能

作者： Fanglong Yao, Yuanchang Yue, Youzhi Liu, Xian Sun, Kun Fu

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15511v1

摘要： 航空航天体现智能旨在赋能无人机和其他航空航天平台，实现自主感知、认知和行动，以及以自我为中心的与人类和环境的主动交互。航天体现世界模型是实现无人机自主智能的有效手段，是实现航天体现智能的必由之路。然而，现有的具体世界模型主要关注室内场景中的地面智能体，而对无人机智能体的研究尚未探索。为了解决这一差距，我们构建了第一个大规模现实世界图像文本预训练数据集 AerialAgent-Ego10k，以第一人称视角展示城市无人机。我们还创建了一个虚拟图像-文本-姿势对齐数据集 CyberAgent Ego500k，以促进航空航天具体世界模型的预训练。我们首次明确定义了航空航天场景感知、空间推理、导航探索、任务规划和运动决策5个下游任务，并构建了相应的指令数据集，即SkyAgent-Scene3k、SkyAgent-Reason3k、SkyAgent- Nav3k、SkyAgent-Plan3k 和 SkyAgent-Act3k，用于微调航空航天体现世界模型。同时，我们开发了基于GPT-4的下游任务评估指标SkyAgentEval，以全面、灵活、客观地评估结果，揭示2D/3D视觉语言模型在无人机代理任务中的潜力和局限性。此外，我们将超过 10 个 2D/3D 视觉语言模型、2 个预训练数据集、5 个微调数据集、10 多个评估指标和一个模拟器集成到基准套件中，即 AeroVerse，并将发布到社区推动航天体现智能探索与发展。

Feelit：将兼容的形状显示器与基于视觉的触觉传感器相结合，实现实时遥感

分类： 机器人技术

作者： Oscar Yu, Yu She

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15480v1

摘要： 远程感知，即触觉反馈或触摸的传输，是远程操作领域的一个重要方面。高质量的遥感反馈使用户能够远程操纵物体，并提高操作员和机器人之间的人机界面质量，使复杂的操纵任务成为可能。然而，远程操作遥感领域的进展尚未充分利用现代基于视觉的触觉传感器提供的高分辨率 3D 数据。现有的远程感知解决方案缺乏一个或多个形式或功能领域，例如保真度或硬件占用空间。在本文中，我们展示了一种低成本遥感设备的设计，该设备可以通过物理 3D 表面重建和剪切位移来利用来自基于视觉的触觉传感器的实时高分辨率触觉信息。我们展示了我们的设备 Feelit，它结合使用基于引脚的形状显示器和顺应机制来完成此任务。基于引脚的形状显示器采用一系列 24 个伺服电机和微型 Bowden 电缆，使该设备在 15x10 毫米的显示器占地面积中具有 6x4 引脚的分辨率。每个销钉可在 200 毫秒内驱动最多 3 毫米，同时提供 80 N 的力和 1.5 um 的深度分辨率。剪切位移和旋转是通过柔顺机构设计实现的，允许至少 1 毫米的横向位移和 10 度的旋转。这种实时 3D 触觉重建是通过使用基于视觉的触觉传感器 GelSight [1] 以及对深度数据和标记跟踪进行采样以生成执行器命令的算法来实现的。通过包括形状识别和相对重量识别在内的一系列实验，我们表明我们的设备有潜力扩展远程操作空间中的远程感知能力。

与软袋执行器集成的直肠模拟器的电源、控制和数据采集系统

分类： 机器人技术

作者： Zebing Mao, Sota Suzuki, Ardi Wiranata, Junji Ohgi, Shoko Miyagawa

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15473v1

摘要： 大便失禁 (FI) 是一个严重的健康问题，其根本原因有多种。该领域的研究受到社会耻辱和缺乏有效复制模型的限制。为了应对这些挑战，我们开发了一种复杂的直肠模拟器，它将电源、控制和数据采集系统与软袋执行器集成在一起。该系统包括四个关键子系统：机械、电气、气动、控制和数据采集。机械子系统采用铝框架、木板等常用材料和紧凑的结构部件，方便电气和控制部件的安装和调节。电气子系统为调节器和传感器供电。气动系统为执行器提供压缩空气，从而能够模拟 FI。控制和数据采集子系统收集压力数据并调节执行器运动。这种综合方法使机器人能够准确地复制人类排便，管理各种粪便类型，包括液体、固体和极其固体的粪便。这项创新增强了我们对排便的理解，并具有推进与排便相关的生活质量设备的潜力。

模拟人体直肠排便过程的仿生圆形软执行器

分类： 机器人技术

作者： Zebing Mao, Sota Suzuki, Ardi Wiranata, Yanqiu Zheng, Shoko Miyagawa

发布时间： 2024-08-28

链接： http://arxiv.org/abs/2408.15467v1

摘要： 软体机器人在医疗领域有着广泛的应用，特别是在康复训练、辅助抓取和人工器官等领域。尽管在模拟消化系统的各个组成部分方面取得了重大进展，但由于社会的耻辱，直肠在很大程度上被忽视了。本研究旨在通过开发软圆形肌肉执行器（CMA）和直肠模型来复制排便过程来解决这一差距。直肠和执行器均使用软材料制造，以实现无缝集成和连接。我们设计、制造和测试了三种类型的 CMA，并将它们与模拟结果进行了比较。采用气动系统控制执行器，并使用海藻酸钠和氯化钙合成模拟粪便。实验结果表明，第三种驱动器在面积收缩和压力产生方面表现出优越的性能。排便过程的成功模拟凸显了这些软体执行器在生物医学应用中的潜力，为软体机器人领域的进一步研究和开发奠定了基础。

懒惰的后继一代的寻路

分类： 人工智能, 机器人技术

作者： Keisuke Okumura

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15443v1

摘要： 我们研究一个寻路问题，其中仅给出位置（即顶点），并且边由回答两个位置的连通性的预言机隐式定义。尽管其结构简单，但由于为搜索算法带来了巨大的分支因子，因此对于大量位置来说，这个问题就变得不那么简单了。限制后继者的数量（例如最近邻居的数量）可以减少搜索工作，但会损害完整性。相反，我们提出了一种新颖的 LaCAS* 算法，该算法不会立即生成所有后继者，而是随着搜索的进行逐渐生成后继者。该方案通过 k-d 树上的 k-近邻搜索来实现。 LaCAS* 是一个完整的、随时的算法，最终会收敛到最优值。广泛的评估证明了 LaCAS* 的功效，例如，可以快速解决传统方法无法解决的复杂寻路实例。

适用于自动驾驶赛车的快速模块化自主软件

分类： 机器人技术, 人工智能, 软件工程

作者： Andrew Saba, Aderotimi Adetunji, Adam Johnson, Aadi Kothari, Matthew Sivaprakasam, Joshua Spisak, Prem Bharatia, Arjun Chauhan, Brendan Duff Jr., Noah Gasparro, Charles King, Ryan Larkin, Brian Mao, Micah Nye, Anjali Parashar, Joseph Attias, Aurimas Balciunas, Austin Brown, Chris Chang, Ming Gao, Cindy Heredia, Andrew Keats, Jose Lavariega, William Muckelroy III, Andre Slavescu, Nickolas Stathas, Nayana Suvarna, Chuan Tian Zhang, Sebastian Scherer, Deva Ramanan

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15425v1

摘要： 自动赛车运动旨在通过软件和传感器复制人类赛车手。与传统赛车运动一样，自动赛车 (ARV) 在多智能体场景中以极高的速度（$\geq 150mph$）达到操控极限。该操作设计领域 (ODD) 给整个自治堆栈带来了独特的挑战。印地自动驾驶挑战赛 (IAC) 是一项国际竞赛，旨在通过 ARV 竞赛推进自动驾驶汽车的开发。虽然 IAC 远没有挑战人类赛车手的能力，但它正在通过促进全规模的 ARV 比赛来推动最先进的技术。本文详细介绍了 MIT-Pitt-RW 团队在 IAC 中进行自动赛车的方法。在这项工作中，我们提出了模块化和快速的代理检测、运动规划和控制方法，以创建自主堆栈。我们还提供软件堆栈在单代理和多代理场景中的性能分析，以便在快节奏的竞争环境中快速部署。我们还介绍了在 Dallara AV-21 平台物理系统上部署时有效和无效的内容，以及解决这些缺点的潜在改进。最后，我们传达经验教训并讨论局限性和未来的改进方向。

自动驾驶的全景感知：一项调查

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Yunge Li, Lanyu Xu

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15388v1

摘要： 全景感知代表了自动驾驶技术的前沿进步，它将多种感知任务统一到一个单一的、有凝聚力的框架中，以促进对车辆周围环境的全面了解。这项调查回顾了典型的全景感知模型的独特输入和架构，并将它们与性能、响应能力和资源利用率进行了比较。它还深入研究了全景感知面临的普遍挑战，并探索了未来研究的潜在轨迹。我们的目标是为自动驾驶研究人员提供全景感知的详细概要，将这项调查定位为不断发展的自动驾驶技术领域的关键参考。

多少才算太多：探索口头路线描述长度对室内导航的影响

分类： 机器人技术, 人机交互

作者： Fathima Nourin N, Pradip Pramanick, Chayan Sarkar

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15367v1

摘要： 在新的室内环境中穿行可能会带来压力。最近，很多地方都部署了机器人来协助游客。此类机器人的功能之一是护送访客到环境中所需的目的地，但这对于每个访客来说既不可扩展，也不是必需的。相反，可以将机器人助手部署在战略位置以提供寻路指令。这不仅提高了用户体验，而且在许多时间紧迫的场景中也很有帮助，例如护送某人到机场的登机口。然而，口头提供路线描述是一个挑战。如果描述过于冗长，人们可能很难回忆起所有信息，而过于简短的描述可能根本没有帮助。本文重点研究有效到达目的地且易于人们记忆的口头路线描述的最佳长度。这项工作提出了一个理论框架，将路线段链接到工作记忆中的块。基于该框架，设计并进行了实验来检验不同长度的路线描述对导航性能的影响。结果揭示了有趣的模式，表明四个路线段的理想长度。这项研究为未来探索室内环境中路线描述长度、工作记忆容量和导航性能之间关系的研究奠定了基础。

就是这样：使用模型预测控制减轻波浪条件下自主无人水面船舶的横摇

分类： 机器人技术, 系统与控制, 系统与控制

作者： Daniel L. Jenkins, Joshua A. Marshall

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15349v1

摘要： 尽管较大的船只可能装备精良来应对波浪条件，但较小的船只通常更容易受到干扰。本文探讨了在波浪条件下无人水面舰艇 (USV) 的非线性模型预测控制 (NMPC) 系统的开发，以最大限度地减少平均横摇。 NMPC 基于一种预测方法，该方法使用有关船舶动力学的信息和假设的波浪模型。该方法能够通过调整成本函数的权重来减轻欠驱动无人水面艇在各种条件下的侧倾。结果显示，在 1.75 米正弦波条件下，使用调谐控制器可将平均侧倾减少 39%。建立了通用且直观的调整策略。这项初步工作是一个概念验证，为利用波浪预测方法在现实场景和现场试验中对 USV 进行实时规划和控制奠定了基础。

SpecGuard：机器人自动驾驶车辆从物理攻击中的规范感知恢复

分类： 机器人技术, 密码学和安全, 系统与控制, 系统与控制

作者： Pritam Dash, Ethan Chan, Karthik Pattabiraman

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15200v1

摘要： 机器人自动驾驶车辆 (RAV) 依靠传感器进行感知，并遵循严格的任务规范（例如高度、速度和地理围栏限制）以安全、及时地运行。物理攻击可能会损坏 RAV 的传感器，导致任务失败。从此类攻击中恢复 RAV 需要强大的控制技术，即使在受到攻击的情况下也能保持符合任务规范，以确保 RAV 的安全和及时运行。我们提出 SpecGuard，这是一种符合任务规范并执行 RAV 安全恢复的技术。 SpecGuard 有两项创新。首先，它介绍了一种结合任务规范并使用深度强化学习（Deep-RL）学习恢复控制策略的方法。我们设计了一个基于合规性的奖励结构，反映了 RAV 的复杂动态，并使 SpecGuard 能够同时满足多个任务规范。其次，SpecGuard 结合了状态重建，这是一种最大限度地减少攻击引起的传感器扰动的技术。这种重建可以实现有效的对抗性训练，并优化恢复控制策略以实现攻击下的鲁棒性。我们在虚拟和真实 RAV 中对 SpecGuard 进行了评估，发现它在不同传感器的攻击下实现了 92% 的恢复成功率，没有任何崩溃或失速。 SpecGuard 的恢复成功率比之前的工作提高了 2 倍，并且在实际 RAV 上产生了约 15% 的性能开销。

基于局部规划器的斯坦利控制在自主遥控赛车系列赛中的评估

分类： 机器人技术, 软件工程

作者： Máté Fazekas, Zalán Demeter, János Tóth, Ármin Bogár-Németh, Gergely Bári

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15152v1

摘要： 本文提出了一种自动遥控赛车的控制技术。所提出的方法不需要预先进行任何地图构建阶段，因为它仅在实际 LiDAR 点云上进行本地路径规划。赛车控制算法必须能够针对实际赛道布局进行优化，以最大限度地缩短单圈时间。在所测试的模型中，通过使用附加控制组件的 Stanley 控制器的改进来保证这一点，以稳定低速和高速范围内的运动，并通过集成自适应前瞻点来诱导行驶距离的急剧和动态转弯减少。所开发的方法在 1/10 尺寸的遥控汽车上进行了测试，并介绍了在真正的 F1Tenth 比赛中从基本解决方案到最佳设置的调整过程。此外，通过与更简单的反应方法进行比较，并与涉及离线地图构建全局最优轨迹计算的更复杂的基于优化的技术进行比较来评估所提出的方法。与后者相比，所提出的方法的性能（参考单圈时间）是，所提出的方法的平均速度仅低 8%。这表明，通过适当的调整，基于局部规划的方法可以与更复杂的基于优化的方法相媲美。因此，与最先进的方法相比，性能差距低于 10%。此外，所提出的技术与真实场景具有显着更高的相似性，因此结果在汽车行业中可能会很有趣。

无悔：研究和改进课程发现的遗憾近似值

分类： 机器学习, 人工智能, 机器人技术

作者： Alexander Rutherford, Michael Beukman, Timon Willi, Bruno Lacerda, Nick Hawes, Jakob Foerster

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15099v2

摘要： 使用哪些数据或环境进行训练以提高下游性能是强化学习中一个长期存在且非常热门的问题。特别是，无监督环境设计（UED）方法最近引起了人们的关注，因为它们的自适应课程使智能体能够对分布内和分布外的任务保持鲁棒性。我们询问，当这些方法应用于受现实世界机器人问题密切启发的新颖环境时，它们本身的鲁棒性有多大。令人惊讶的是，我们发现最先进的 UED 方法要么没有改进域随机化 (DR) 的原始基线，要么需要大量的超参数调整才能实现这一点。我们的分析表明，这是因为它们的底层评分函数无法预测“可学习性”的直观度量，即找到代理有时可以解决的设置，但并非总是如此。基于此，我们直接在具有高可学习性的级别上进行训练并找到。这种简单直观的方法在几个二元结果环境中优于 UED 方法和 DR，包括我们的领域和 Minigrid 的标准 UED 领域。我们进一步引入了一种新的对抗性评估程序，用于直接测量鲁棒性，密切反映条件风险价值。（CVaR）。我们开源所有代码并在此处展示最终策略的可视化：https://github.com/amacrutherford/sampling-for-learnability。

自动赛车的可扩展监管架构

分类： 机器人技术, 软件工程

作者： Zalán Demeter, Péter Bogdán, Ármin Bogár-Németh, Gergely Bári

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15049v1

摘要： 近年来，自动驾驶赛车联盟的数量和重要性以及随之而来的研究数量不断增加。不同系列之间的无缝融合因场景的多样性而受到关注。然而，全尺寸赛车的高成本使其成为一种更容易实现的开发模型，可以在更小的外形尺寸上进行研究并扩大所取得的成果。本文提出了一种专为自动驾驶赛车设计的可扩展架构，强调模块化、对不同配置的适应性以及监督管道并行执行的能力，从而允许使用不同的动态策略。该系统在不同环境下展示了一致的赛车性能，这通过成功参加两项相关比赛得到了证明。结果证实了该架构的可扩展性和多功能性，为开发竞争性自动赛车系统提供了坚实的基础。在现实场景中的成功应用验证了其实际有效性，并凸显了其在自动驾驶赛车技术未来发展中的潜力。

具有概率防撞功能的刚性机器人编队的分布式规划

分类： 机器人技术, 系统与控制, 系统与控制

作者： Jeppe Heini Mikkelsen, Vit Kratky, Roberto Galeazzi, Martin Saska, Matteo Fumagalli

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15046v1

摘要： 本文提出了一种机器人在刚性编队中移动的分布式方法，同时确保机器人之间概率性避免碰撞。通过基本配置的转换来参数化编队。机器人将其所需速度映射到编队参数中相应的所需变化，并应用共识步骤以就所需编队达成一致，并应用约束满足步骤以确保编队内避免碰撞。找到约束集使得碰撞概率保持在上限以下。该方法在模拟和现实实验中的手动遥控场景中得到了演示。

AEROBULL：一种质心位移飞行器，可实现高效的高力交互

分类： 机器人技术

作者： Tong Hui, Esteban Zamora, Simone D'Angelo, Stefan Rucareanu, Matteo Fumagalli

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.15008v1

摘要： 在各个工业领域，使用无人机进行检查和维护任务需要施加大量的力来确保有效的粘附和稳定的接触，这对现有的解决方案提出了重大挑战。本文通过介绍一种新型轻型空中平台（3.12kg）来满足这些工业需求，该平台设计用于在非水平表面上施加高推力。为了提高机动性，所提出的平台采用了具有 5-DoF（自由度）驱动的可倾斜转子。此外，它还具有创新的质量转移机制，可在基于接触的任务执行过程中动态调整系统的 CoM（质量中心）。采用符合标准的 EE（末端执行器）以确保与工作表面的平稳交互。我们详细研究了无人机的整体系统设计、所开发的物理原型的硬件集成以及所提出的控制算法的软件架构。进行了物理实验来验证控制设计并通过推动任务探索所设计平台的力生成能力。无人机总质量为3.12kg，最大推力超过28N，几乎等于重力。此外，实验还说明了通过使用固定 CoM 配置进行基准测试来取代 CoM 的好处。

用于人机交接的手持透明物体的深度恢复

分类： 机器人技术, 计算机视觉和模式识别

作者： Ran Yu, Haixin Yu, Huang Yan, Ziwu Song, Shoujie Li, Wenbo Ding

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.14997v1

摘要： 透明物体在日常生活中很常见，而其独特的光学特性给 RGB-D 相机带来了挑战，后者难以捕捉准确的深度信息。对于辅助机器人来说，准确感知人类持有的透明物体对于有效的人机交互至关重要。本文提出了一种基于从单个 RGB-D 图像创建隐式神经表示函数的手持式透明物体的手部感知深度恢复 (HADR) 方法。所提出的方法引入了手势作为利用语义和几何信息的重要指导。为了训练和评估所提出的方法，我们使用真实到模拟数据生成方案创建了一个名为 TransHand-14K 的高保真合成数据集。实验表明，与现有方法相比，我们的方法具有更好的性能和泛化能力。我们基于所提出的深度恢复方法进一步开发了现实世界中的人机切换系统，展示了其在人机交互中的应用价值。

具有闭式梯度的域解耦物理信息神经网络，用于动态系统的快速模型学习

分类： 系统与控制, 机器学习, 机器人技术, 系统与控制

作者： Henrik Krauss, Tim-Lukas Habich, Max Bartholdt, Thomas Seel, Moritz Schappler

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.14951v2

摘要： 物理信息神经网络 (PINN) 使用物理方程进行训练，还可以通过从数据中学习来合并未建模的效果。用于动力系统控制的 PINN（PINC）因其与非线性状态空间模型的经典数值积分方法相比的预测速度而受到关注，这使得它们适合实时控制应用。我们引入域解耦物理信息神经网络（DD-PINN）来解决 PINC 在处理大型复杂非线性动力系统方面的当前局限性。时域与前馈神经网络解耦以构造 Ansatz 函数，从而允许以封闭形式计算梯度。与依赖于基于图的自动微分的 PINC 相比，这种方法显着减少了训练时间，尤其是对于大型动态系统。此外，DD-PINN 本质上满足初始条件并支持高阶激励输入，从而简化了训练过程并提高了预测精度。对三个系统（非线性质量弹簧阻尼器、五质量链和两连杆机器人）的验证表明 DD-PINN 显着缩短了训练时间。在 PINC 的预测出现偏差的情况下，由于更高的物理损耗减少或使用高阶激励输入，DD-PINN 的预测保持稳定和准确。 DD-PINN 可以快速、准确地学习以前 PINC 无法实现的大型动力系统。

不同信号质量下高速赛车的三维车辆动力学状态估计

分类： 机器人技术

作者： Sven Goblirsch, Marcel Weinmann, Johannes Betz

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.14885v1

摘要： 这项工作旨在提出不同信号质量下的三维车辆动态状态估计。很少有研究人员研究三维道路几何形状对状态估计的影响，因此忽略了道路倾斜和倾斜。特别是考虑到高速度和加速度，文献没有讨论这些影响。因此，我们比较二维和三维状态估计方案以概述道路几何形状的影响。我们使用带有点质量运动模型的扩展卡尔曼滤波器，并通过参考角的附加公式对其进行扩展。此外，虚拟速度测量显着改善了道路角度和车辆侧滑角的估计。我们强调了车辆运动控制算法稳定估计的重要性，并展示了信号质量下降和全球导航卫星系统丢失的挑战。所提出的自适应协方差有助于平滑估计并实现稳定的控制器行为。所开发的状态估计已部署在各个赛道上的高速自动赛车上。我们的研究结果表明，我们的方法优于最先进的车辆动力学状态估计器和工业级惯性导航系统。需要进一步研究来调查不同赛道条件和其他车辆类型下的性能。

Robo-GS：具有混合表示的物理一致的机械臂时空模型

分类： 机器人技术, 数值分析, 数值分析, 优化与控制

作者： Haozhe Lou, Yurong Liu, Yike Pan, Yiran Geng, Jianteng Chen, Wenlong Ma, Chenglong Li, Lin Wang, Hengzhen Feng, Lu Shi, Liyi Luo, Yongliang Shi

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.14873v1

摘要： Real2Sim2Real 在机器人手臂控制和强化学习中发挥着关键作用，但由于机器人及其操纵的物体具有复杂的物理特性，弥合这一差距仍然是一个重大挑战。现有方法缺乏全面的解决方案来准确地重建具有空间表示及其相关物理属性的现实世界对象。我们提出了具有混合表示模型的 Real2Sim 管道，该模型集成了网格几何、3D 高斯内核和物理属性，以增强机械臂的数字资产表示。这种混合表示是通过高斯网格像素绑定技术实现的，该技术在网格顶点和高斯模型之间建立同构映射。这实现了完全可微分的渲染管道，可以通过数值解算器进行优化，通过高斯溅射实现高保真渲染，并有助于使用基于网格的方法对机械臂与其环境的交互进行物理上合理的模拟。代码、完整演示和数据集将在我们的网站 https://robostudioapp.com 上公开提供

通过机器人流程自动化优化结构化数据处理

分类： 人工智能, 机器人技术

作者： Vivek Bhardwaj, Ajit Noonia, Sandeep Chaurasia, Mukesh Kumar, Abdulnaser Rashid, Mohamed Tahar Ben Othman

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.14791v1

摘要： 机器人流程自动化 (RPA) 已成为数据提取领域的一项颠覆性技术，彻底改变了组织处理和分析大量文档（例如发票、采购订单和付款通知）的方式。本研究调查了 RPA 在结构化数据提取中的使用，并评估了其相对于手动流程的优势。通过将人类执行的任务与 RPA 软件机器人执行的任务进行比较，我们评估从发票中提取数据的效率和准确性，重点关注 RPA 系统的有效性。通过涉及不同数量发票的四种不同场景，我们通过比较手动流程和 RPA 流程之间的错误率来衡量任务完成所需的时间和精力方面的效率以及准确性。我们的研究结果突显了 RPA 所实现的显着效率提升，在所有情况下，与手动工作相比，机器人完成任务的时间显着缩短。此外，RPA 系统始终实现完美的准确性，降低错误风险并提高流程可靠性。这些结果强调了 RPA 在优化运营效率、降低人力成本和提高整体业务绩效方面的变革潜力。

Points2Plans：从点云到具有可组合关系动态的长期计划

分类： 机器人技术

作者： Yixuan Huang, Christopher Agia, Jimmy Wu, Tucker Hermans, Jeannette Bohg

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.14769v1

摘要： 我们提出了 Points2Plans，这是一个具有关系动力学模型的可组合规划框架，使机器人能够从部分视图点云解决长视野操作任务。给定语言指令和场景点云，我们的框架启动分层规划程序，其中语言模型生成高级计划，基于采样的规划器为根据高级排序的操作基元生成满足约束的连续参数。级计划。我们方法的关键是使用关系动力学模型作为状态和动作的连续和符号表示之间的统一接口，从而促进从高维感知输入（例如点云）进行语言驱动的规划。以前的关系动力学模型需要对与预期测试场景相一致的多步骤操作场景的数据集进行训练，而 Points2Plans 仅使用单步模拟训练数据，同时在现实世界评估期间将零样本推广到可变数量的步骤。我们在模拟和现实环境中评估涉及几何推理、多对象交互和遮挡对象推理的任务的方法。结果表明，Points2Plans 对现实世界中未见过的长期任务提供了强大的泛化能力，它解决了超过 85% 的评估任务，而下一个最佳基线只能解决 50%。我们在移动操纵器平台上运行的方法的定性演示可在sites.google.com/stanford.edu/points2plans 上找到。

三指夹具灵巧机器人操作的强化学习方法基准测试

分类： 机器人技术, 人工智能, 机器学习

作者： Elizabeth Cutler, Yuning Xing, Tony Cui, Brendan Zhou, Koen van Rijnsoever, Ben Hart, David Valencia, Lee Violet C. Ong, Trevor Gee, Minas Liarokapis, Henry Williams

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.14747v1

摘要： 强化学习 (RL) 培训主要在经济高效且受控的模拟环境中进行。然而，将这些经过训练的模型转移到现实世界的任务中通常会带来不可避免的挑战。这项研究探索了在受控但现实的现实环境中直接训练强化学习算法，以执行灵巧的操作。介绍了三种 RL 算法在实际现实环境中针对复杂的手动操作任务进行训练的基准测试结果。我们的研究不仅证明了强化学习训练在真实场景中的实用性，促进直接的现实应用，而且还提供了对相关挑战和考虑因素的见解。此外，我们还分享了所采用的实验方法的经验，目的是增强和吸引其他研究人员和从业者参与这个充满活力的机器人领域。

用于机器人探索的主动语义映射和位姿图谱分析

分类： 机器人技术

作者： Rongge Zhang, Haechan Mark Bong, Giovanni Beltrame

发布时间： 2024-08-27

链接： http://arxiv.org/abs/2408.14726v1

摘要： 在未知和非结构化环境中进行探索是机器人应用的关键要求。尽管 SLAM 和探索通常是分开研究的，但机器人的探索行为本质上会受到其同时定位和建图 (SLAM) 子系统性能的影响。在本文中，我们将探索表述为主动映射问题，并用语义信息对其进行扩展。我们引入了一种新颖的主动度量语义 SLAM 方法，利用信息论和谱图理论的最新研究进展：我们将语义互信息和 SLAM 子系统的底层姿态图的连接度量相结合。我们使用生成的效用函数来评估不同的轨迹，以在探索过程中选择最有利的策略。探索和 SLAM 指标在实验中进行了分析。在 Habitat 数据集上运行我们的算法，我们表明，在保持接近最先进的探索方法的效率的同时，我们的方法有效地提高了度量语义 SLAM 的性能，平均地图误差降低了 21%，并且平均语义分类准确率提高 9%。

推进人形运动：通过去噪世界模型学习掌握具有挑战性的地形

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Xinyang Gu, Yen-Jen Wang, Xiang Zhu, Chengming Shi, Yanjiang Guo, Yichen Liu, Jianyu Chen

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14472v1

摘要： 人形机器人具有类似人类的骨骼结构，特别适合在以人为中心的环境中执行任务。然而，这种结构伴随着运动控制器设计的额外挑战，特别是在复杂的现实环境中。因此，现有的人形机器人仅限于相对简单的地形，无论是基于模型的控制还是无模型的强化学习。在这项工作中，我们介绍了去噪世界模型学习（DWL），这是一种用于人形运动控制的端到端强化学习框架，它演示了世界上第一个人形机器人能够掌握现实世界中具有挑战性的地形，例如雪地和倾斜的土地。野外，上下楼梯，以及极其不平坦的地形。所有场景都运行相同的学习神经网络，具有零样本模拟到真实的传输，表明该方法具有卓越的鲁棒性和泛化能力。

GR-MG：通过多模式目标条件策略利用部分注释的数据

分类： 机器人技术, 人工智能

作者： Peiyan Li, Hongtao Wu, Yan Huang, Chilam Cheang, Liang Wang, Tao Kong

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14368v1

摘要： 机器人社区始终致力于通过灵活的自然语言指令实现通用的机器人操作。主要挑战之一是获取带有动作和文本的完整注释的机器人数据既耗时又费力。然而，部分注释的数据，例如没有动作标签的人类活动视频和没有语言标签的机器人游戏数据，更容易收集。我们能否利用这些数据来增强机器人的泛化能力？在本文中，我们提出了 GR-MG，这是一种支持对语言指令和目标图像进行调节的新方法。在训练期间，GR-MG 从文本和目标图像上的轨迹和条件对目标图像进行采样，或者在文本不可用时仅在图像上采样。在推理过程中，仅提供文本，GR-MG 通过基于扩散的图像编辑模型以及文本和生成图像的条件生成目标图像。这种方法使 GR-MG 能够利用大量部分注释的数据，同时仍然使用语言来灵活地指定任务。为了生成准确的目标图像，我们提出了一种新颖的进度引导目标图像生成模型，该模型将任务进度信息注入到生成过程中，显着提高了保真度和性能。在模拟实验中，GR-MG将连续5个任务的平均完成数量从3.35提高到4.04。在真实的机器人实验中，GR-MG 能够执行 47 种不同的任务，并将简单设置和泛化设置下的成功率分别从 62.5% 提高到 75.0% 和 42.4% 提高到 57.6%。代码和检查点将在项目页面上提供：https://gr-mg.github.io/。

动态变化环境中单足漏斗的模型预测跑酷控制

分类： 机器人技术

作者： Maximilian Albracht, Shivesh Kumar, Shubham Vyas, Frank Kirchner

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14362v1

摘要： 腿式机器人的一大优势是它们能够在特别困难和障碍的地形上操作，这需要动态、稳健和精确的运动。对障碍路线的研究为腿式机器人面临的挑战提供了宝贵的见解，并提供了一个受控环境来评估和增强它们的能力。用单腿漏斗穿越它会带来复杂的挑战，例如规划接触和处理飞行阶段，这需要一个复杂的控制器。引入了一种新颖的模型预测跑酷控制器，它通过混合整数运动规划找到通过实时变化的障碍物的最佳路径。然后通过采用具有前馈扭矩的 PD 控制方案的状态机来执行该优化路径，从而确保稳健且准确的性能。

日常生活活动中上肢的功能运动学和动力学要求：关于假肢必要关节能力的建议

分类： 机器人技术, J.2

作者： Christopher Herneth, Amartya Ganguly, Sami Haddadin

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14361v1

摘要： 由于截肢者始终拒绝使用假肢，遗弃假肢仍然是一个尚未解决的挑战。当前的假肢设计通常无法平衡类人性能与可接受的设备重量，这凸显了针对现代任务量身定制优化设计的必要性。本研究旨在提供执行日常生活活动 (ADL) 所必需的关节运动学和动力学的综合数据集，从而为功能更强大、用户友好的假肢装置的设计提供信息。使用执行 24 个 ADL 的 12 名受试者的运动捕捉数据计算盂肱关节（旋转）、肘关节、桡尺关节和腕关节的功能所需的运动范围 (ROM)、速度和扭矩。我们的方法包括计算上肢不同质量和惯性特性的关节扭矩，同时通过扳手与受试者手的相互作用来考虑实验对象的操纵引起的扭矩。与个体 ADL 相关的关节扭矩与肢体和物体质量以及质量分布成线性比例，允许它们推广到未使用线性回归器 (LRM) 明确模拟肢体和物体动力学，表现出确定系数 R = 0.99 pm 0.01。为了举例说明数据驱动假肢设计的应用，我们优化了两个串行和两个差分关节配置的腕轴方向。通过利用尺骨偏差和腕部屈曲/伸展关节之间的高扭矩相关性，优化的轴将峰值功率需求降低了 22％至 38％。这项研究提供了对上肢假肢功能要求的重要见解，为数据驱动的假肢设计提供了宝贵的基础，解决了用户的关键问题并提高了设备的采用率。

具有真实机器人动力学和自动化仓库相互依赖任务的多代理路径查找

分类： 机器人技术, 人工智能, 多代理系统

作者： Vassilissa Lehoux-Lebacque, Tomi Silander, Christelle Loiodice, Seungjoon Lee, Albert Wang, Sofia Michel

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14527v1

摘要： 多智能体路径查找（MAPF）是自动化仓库和工厂中机器人部署的一个重要优化问题。尽管关于这个主题的工作量很大，但大多数方法都对环境和代理进行了大量简化，这使得生成的算法对于现实生活场景来说不切实际。在本文中，我们考虑了仓库中在线订单交付的现实问题，其中一组机器人将属于每个订单的产品从货架运送到工作站。这创建了一系列相互依赖的取货和送货任务，相关的 MAPF 问题包括计算完成这些任务的真实无碰撞机器人轨迹。为了解决这个 MAPF 问题，我们提出了标准优先规划算法的扩展来处理相互依赖的任务（交错优先规划）和新颖的 Via-Point Star (VP*) 算法来计算最佳的符合动力学的机器人轨迹访问一系列目标位置，同时避开移动障碍物。我们证明了我们方法的完整性，并在模拟和真实仓库中对其进行评估。

部分可观测性下的等变强化学习

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Hai Nguyen, Andrea Baisero, David Klee, Dian Wang, Robert Platt, Christopher Amato

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14336v1

摘要： 结合归纳偏差是一种很有前景的方法，可以通过样本高效的解决方案来应对具有挑战性的机器人学习领域。本文确定了部分可观察的领域，其中对称性可以成为有效学习的有用归纳偏差。具体来说，通过将特定组对称性的等方差编码到神经网络中，我们的演员批评家强化学习代理可以重用过去针对相关场景的解决方案。因此，我们的等变代理在样本效率和最终性能方面显着优于非等变方法，这通过模拟和真实硬件中的一系列机器人任务的实验得到证明。

通过视觉增强统一力-阻抗控制对未知刚性 3D 曲率进行视觉-触觉探索

分类： 机器人技术

作者： Kübra Karacan, Anran Zhang, Hamid Sadeghian, Fan Wu, Sami Haddadin

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14219v1

摘要： 尽管扭矩控制触觉机器人最近取得了进展，但将它们集成到制造环境中仍然具有挑战性，特别是在复杂的环境中。简化非专家的机器人技能编程对于增加制造业中的机器人部署至关重要。这项工作提出了一种创新方法，视觉增强统一力阻抗控制（VA-UFIC），旨在对未知的 3D 曲率进行直观的视觉触觉探索。 VA-UFIC 通过无缝集成视觉和触觉数据而脱颖而出，能够探索三个维度的各种接触形状，包括点接触、具有凹凸曲率的平面接触以及涉及接触损失的场景。我们方法的关键组成部分是一个强大的在线接触对准监控系统，该系统考虑了触觉误差、局部表面曲率和方向，有助于在探索过程中自适应调整机器人刚度和力调节。我们在控制框架中引入虚拟能量罐，以确保安全性和稳定性，有效解决视觉触觉探索中固有的安全问题。使用 Franka Emika 研究机器人进行的评估证明了 VA-UFIC 在探索未知 3D 曲率同时遵守任意定义的力运动策略方面的功效。通过无缝集成视觉和触觉传感，VA-UFIC 为直观探索复杂环境提供了一条有前途的途径，其潜在应用涵盖制造、检查等领域。

互联自动化车辆和机器人群小型测试台调查

分类： 机器人技术, 多代理系统

作者： Armin Mokhtarian, Jianye Xu, Patrick Scheffe, Maximilian Kloock, Simon Schäfer, Heeseung Bang, Viet-Anh Le, Sangeet Ulhas, Johannes Betz, Sean Wilson, Spring Berman, Liam Paull, Amanda Prorok, Bassam Alrifaee

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14199v1

摘要： 互联自动化车辆和机器人群在提高运输和制造行业的安全性、效率和可持续性方面具有变革潜力。这些技术的广泛测试和验证对于它们在现实世界中的部署至关重要。虽然模拟对于初始测试至关重要，但它们在捕捉现实世界交互的复杂动态方面通常存在局限性。这一限制凸显了小规模测试平台的重要性。这些测试台为测试和验证算法提供了一个现实的、经济有效的、受控的环境，充当模拟和全面实验之间的重要中介。这项工作有助于研究人员努力确定适合他们实验的现有小型测试平台，并为那些想要构建自己的测试平台的人提供见解。此外，它还对这些测试平台的当前状况进行了全面调查。我们根据众所周知的感知-计划-行动范式得出了测试平台的 62 个特征，并提供了一个在线表格，比较了基于这些特征的 22 个小规模测试平台。该在线表格托管在我们指定的公共网页 www.cpm-remote.de/testbeds 上，我们邀请测试床创建者和开发人员为其做出贡献。我们在本文中仔细研究了九个测试台，展示了如何使用派生特征来呈现测试台。此外，我们讨论了我们确定的有关小规模测试平台的三个持续挑战，即小规模到全面的过渡、可持续性以及电力和资源管理。

DynamicRouteGPT：基于大语言模型的实时多车辆动态导航框架

分类： 人工智能, 机器人技术

作者： Ziai Zhou, Bin Zhou, Hao Liu

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14185v1

摘要： 复杂交通环境中的实时动态路径规划面临挑战，例如变化的交通量和信号等待时间。 Dijkstra 和 A* 等传统静态路由算法计算最短路径，但在动态条件下经常失败。最近的强化学习（RL）方法提供了改进，但往往侧重于局部最优，存在死胡同或边界问题的风险。本文提出了一种基于因果推理的实时动态路径规划新方法，平衡全局和局部最优性。我们首先使用静态 Dijkstra 算法来计算全局最优基线路径。然后，分布式控制策略引导车辆沿着这条路径行驶。在十字路口，DynamicRouteGPT 会考虑实时交通、驾驶偏好和意外事件，对本地路径选择进行实时决策。 DynamicRouteGPT 集成了马尔可夫链、贝叶斯推理和 Llama3 8B 等大规模预训练语言模型，提供高效的路径规划解决方案。它可以根据交通场景和驾驶员偏好动态调整，无需预先训练，在整个道路网络中具有广泛的适用性。一项关键的创新是构建用于反事实推理的因果图，优化路径决策。实验结果表明，我们的方法在多车辆实时动态路径规划方面实现了最先进的性能，同时提供可解释的路径选择，为复杂的交通环境提供了新颖且高效的解决方案。

使用深度强化学习实现基于实体的碰撞避免的机器人导航

分类： 机器人技术, 人工智能, 机器学习

作者： Yury Kolomeytsev, Dmitry Golembiovsky

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14183v1

摘要： 动态环境中的高效导航对于自主机器人与各种环境实体（包括移动主体和静态障碍物）交互至关重要。在这项研究中，我们提出了一种新颖的方法，可以根据特定的安全要求增强机器人与不同类型的代理和障碍物的交互。此方法使用有关实体类型的信息，改进碰撞避免并确保更安全的导航。我们引入了一种新的奖励函数，可以惩罚机器人与不同实体（例如成人、骑自行车的人、儿童和静态障碍物）的碰撞，并另外鼓励机器人接近目标。它还会对机器人靠近实体进行惩罚，安全距离也取决于实体类型。此外，我们提出了一种用于训练和测试的优化算法，可显着加快训练、验证和测试步骤，并支持在复杂环境中进行训练。使用模拟进行的综合实验表明，我们的方法始终优于传统的导航和防撞方法，包括最先进的技术。总而言之，这项工作有助于提高自主机器人在动态、拥挤环境中导航系统的安全性和效率。

CHIGLU：用于步进电动四足机器人的模块化硬件$\unicode{x2014}$设计、分析、制造和验证

分类： 机器人技术, 系统与控制, 系统与控制

作者： Abid Shahriar, Monim Hasan Anik

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14125v1

摘要： 生物工程机器人因其在不平坦表面上的机动能力而得到快速发展。这一进步为试验各种电机的多功能电气系统开发铺平了道路。在本研究论文中，我们提出了一种作为主系统的多功能印刷电路板（PCB）的设计、制造和分析，该系统允许通过堆叠低成本步进电机控制器和广泛使用的微控制器单元来控制十二个步进电机。该设计背后的主要动机是提供紧凑且高效的硬件解决方案，用于控制四足机器人的多个步进电机，同时满足所需的功率预算。研究重点是硬件架构、可堆叠设计、功耗预算规划和全面分析。此外，还进行PDN（配电网络）分析模拟，以确保电压和电流密度在预期参数范围内。此外，硬件设计还深入探讨了可制造性设计 (DFM)。将控制器堆叠在开发板上的能力可以深入了解开发板上的组件交换可行性。这项研究的结果为仿生机器人多轴应用的步进电机控制系统的进步做出了重大贡献，提供了方便的外形尺寸和可靠的性能。

具有鲁棒锚定标定功能的模块化网状超宽带辅助惯性导航

分类： 机器人技术, 系统与控制, 系统与控制

作者： Roland Jung, Luca Santoro, Davide Brunelli, Daniele Fontanelli, Stephan Weiss

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14081v1

摘要： 本文介绍了一种基于滤波器的通用状态估计框架，该框架支持两种基于互协方差分解的状态解耦策略。这些策略降低了计算复杂性，并本质上支持真正的模块化——这是处理和处理一组时变设备之间的网格范围测量的必要条件。为了在估计框架中利用这些测量结果，需要新检测到的固定设备（锚）的位置以及测距设备之间的成对偏差。在这项工作中，提出了一种针对新锚点的自主校准程序，该程序利用来自多个标签以及已知锚点的范围测量。为了提高鲁棒性，引入了异常值拒绝方法。执行校准后，传感器融合框架获得锚点位置的初始信念和成对偏差字典，以便融合从紧密耦合的新锚点获得的距离测量值。过滤器和校准框架的有效性已通过对记录的数据集和实际实验的评估得到验证。

弥合学习计划、运动原语和安全强化学习之间的差距

分类： 机器人技术, 机器学习

作者： Piotr Kicki, Davide Tateo, Puze Liu, Jonas Guenster, Jan Peters, Krzysztof Walas

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14063v1

摘要： 运动动力学约束下的轨迹规划是高级机器人应用的基础，这些应用需要在复杂环境中灵巧、反应和快速的技能。这些约束可能代表任务、安全或执行器限制，对于确保机器人平台的正常运行和防止意外行为至关重要。运动动力学规划的最新进展表明，学习规划技术可以在复杂的约束下生成复杂的反应运动。然而，这些技术需要对机器人和整个任务进行分析建模，当系统极其复杂或构建准确的任务模型令人望而却步时，这是一个限制性假设。本文通过将学习计划方法与强化学习相结合来解决这一局限性，从而实现了运动基元黑盒学习和优化的新颖集成。我们根据最先进的安全强化学习方法评估了我们的方法，表明我们的技术，特别是在利用任务结构时，在具有挑战性的场景（例如计划在机器人空气曲棍球中击球）中优于基线方法。这项工作展示了我们的集成方法在提高复杂运动动力学约束下操作的机器人的性能和安全性方面的潜力。

多机器人系统中的协作感知：家庭清洁和仓库运营案例研究

分类： 机器人技术, 计算机视觉和模式识别

作者： Bharath Rajiv Nair

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14039v1

摘要： 本文探讨了协作感知（CP）的范式，其中环境中的多个机器人和传感器共享并集成传感器数据以构建周围环境的综合表示。通过聚合来自各种传感器的数据并利用先进的算法，协作感知框架提高了任务效率、覆盖范围和安全性。两个案例研究展示了多机器人系统中协作感知的好处。第一个案例研究说明了使用 CP 与清洁机器人团队一起完成家庭清洁任务的好处和优势。第二个案例研究对在仓库环境中运行的自主移动机器人的 CP 与独立感知 (SP) 的性能进行了比较分析。案例研究验证了 CP 在增强多机器人协调、任务完成和整体系统性能方面的有效性，以及它对其他应用程序操作的影响潜力。未来的研究将侧重于优化框架并通过实证测试验证其性能。

重新混合：优化大规模模仿学习的数据混合

分类： 机器人技术, 机器学习

作者： Joey Hejna, Chethan Bhateja, Yichen Jian, Karl Pertsch, Dorsa Sadigh

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14037v1

摘要： 越来越多的模仿学习数据集正在被收集，目的是训练机器人基础模型。然而，尽管数据选择在视觉和自然语言处理中至关重要，但机器人技术中很少有人质疑这些模型实际上应该使用哪些数据进行训练。在这项工作中，我们研究如何权衡机器人数据集的不同子集或“域”以进行机器人基础模型预训练。具体来说，我们使用分布式鲁棒优化（DRO）来最大化所有可能的下游域的最坏情况性能。我们的方法 Re-Mix 解决了将 DRO 应用于机器人数据集时出现的广泛挑战，包括不同数据集的动作空间和动态变化。 Re-Mix 采用早期停止、动作标准化和离散化来解决这些问题。通过对最大的开源机器人操作数据集 Open X-Embodiment 数据集的广泛实验，我们证明数据管理可以对下游性能产生巨大影响。具体来说，在用于训练现有通用机器人策略（特别是 RT-X 模型）的数据集上，通过 Re-Mix 学习的域权重平均优于统一权重 38%，并且优于人类选择的权重 32%。

FAST-LIVO2：快速、直接的激光雷达惯性视觉里程计

分类： 机器人技术, 计算机视觉和模式识别

作者： Chunran Zheng, Wei Xu, Zuhao Zou, Tong Hua, Chongjian Yuan, Dongjiao He, Bingyang Zhou, Zheng Liu, Jiarong Lin, Fangcheng Zhu, Yunfan Ren, Rong Wang, Fanle Meng, Fu Zhang

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14035v2

摘要： 本文提出了 FAST-LIVO2：一种快速、直接的 LiDAR-惯性-视觉里程计框架，可在 SLAM 任务中实现准确且稳健的状态估计，并在实时机载机器人应用中提供巨大潜力。 FAST-LIVO2 通过 ESIKF 有效融合 IMU、LiDAR 和图像测量。为了解决异构激光雷达和图像测量之间的尺寸不匹配问题，我们在卡尔曼滤波器中使用顺序更新策略。为了提高效率，我们对视觉和 LiDAR 融合使用直接方法，其中 LiDAR 模块在不提取边缘或平面特征的情况下注册原始点，而视觉模块在不提取 ORB 或 FAST 角特征的情况下最大限度地减少直接光度误差。视觉和 LiDAR 测量的融合基于单个统一体素图，其中 LiDAR 模块构建用于注册新 LiDAR 扫描的几何结构，视觉模块将图像块附加到 LiDAR 点。为了提高图像对齐的准确性，我们使用体素图中 LiDAR 点的平面先验（甚至细化平面先验），并在新图像对齐后动态更新参考补丁。此外，为了增强图像对齐的鲁棒性，FAST-LIVO2采用按需光线投射操作并实时估计图像曝光时间。最后，我们详细介绍了FAST-LIVO2的三个应用：无人机机载导航展示了系统实时机载导航的计算效率，机载测绘展示了系统的测绘精度，3D模型渲染（基于网格和基于NeRF）强调了适用性我们为后续渲染任务重建的密集地图。我们在 GitHub 上开源我们的代码、数据集和应用程序，以使机器人社区受益。

优化 TD3 以实现 7 自由度机械臂抓取：通过探索增强型对比学习克服次优性

分类： 机器人技术, 人工智能

作者： Wen-Han Hsieh, Jen-Yuan Chang

发布时间： 2024-08-26

链接： http://arxiv.org/abs/2408.14009v1

摘要： 在基于行动批评家的强化学习算法中，例如双延迟深度确定性策略梯度 (TD3)，在控制 7 自由度机械臂时，对空间空间的探索不足可能会导致策略不理想。为了解决这个问题，我们提出了一种新颖的探索增强对比学习（EECL）模块，该模块通过为遇到新状态提供额外的奖励来改进探索。我们的模块将先前探索的状态存储在缓冲区中，并通过在 K 维树 (KDTree) 框架内使用欧几里德距离将它们与历史数据进行比较来识别新状态。当代理探索新状态时，会分配探索奖励。然后将这些奖励集成到 TD3 算法中，确保 Q 学习过程包含这些信号，从而促进更有效的策略优化。我们在 robosuite panda lift 任务上评估了我们的方法，证明它在测试环境中的效率和收敛速度方面均显着优于基线 TD3。

Multi-finger Manipulation via Trajectory Optimization with Differentiable Rolling and Geometric Constraints

分类： 机器人技术

作者： Fan Yang, Thomas Power, Sergio Aguilera Marinovic, Soshi Iba, Rana Soltani Zarrin, Dmitry Berenson

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13229v1

摘要： Parameterizing finger rolling and finger-object contacts in a differentiable manner is important for formulating dexterous manipulation as a trajectory optimization problem. In contrast to previous methods which often assume simplified geometries of the robot and object or do not explicitly model finger rolling, we propose a method to further extend the capabilities of dexterous manipulation by accounting for non-trivial geometries of both the robot and the object. By integrating the object's Signed Distance Field (SDF) with a sampling method, our method estimates contact and rolling-related variables and includes those in a trajectory optimization framework. This formulation naturally allows for the emergence of finger-rolling behaviors, enabling the robot to locally adjust the contact points. Our method is tested in a peg alignment task and a screwdriver turning task, where it outperforms the baselines in terms of achieving desired object configurations and avoiding dropping the object. We also successfully apply our method to a real-world screwdriver turning task, demonstrating its robustness to the sim2real gap.

Do Mistakes Matter? Comparing Trust Responses of Different Age Groups to Errors Made by Physically Assistive Robots

分类： 机器人技术

作者： Sasha Wald, Kavya Puthuveetil, Zackory Erickson

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13153v1

摘要： Trust is a key factor in ensuring acceptable human-robot interaction, especially in settings where robots may be assisting with critical activities of daily living. When practically deployed, robots are bound to make occasional mistakes, yet the degree to which these errors will impact a care recipient's trust in the robot, especially in performing physically assistive tasks, remains an open question. To investigate this, we conducted experiments where participants interacted with physically assistive robots which would occasionally make intentional mistakes while performing two different tasks: bathing and feeding. Our study considered the error response of two populations: younger adults at a university (median age 26) and older adults at an independent living facility (median age 83). We observed that the impact of errors on a users' trust in the robot depends on both their age and the task that the robot is performing. We also found that older adults tend to evaluate the robot on factors unrelated to the robot's performance, making their trust in the system more resilient to errors when compared to younger adults. Code and supplementary materials are available on our project webpage.

ShapeICP: Iterative Category-level Object Pose and Shape Estimation from Depth

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Yihao Zhang, John J. Leonard

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13147v1

摘要： Category-level object pose and shape estimation from a single depth image has recently drawn research attention due to its wide applications in robotics and self-driving. The task is particularly challenging because the three unknowns, object pose, object shape, and model-to-measurement correspondences, are compounded together but only a single view of depth measurements is provided. The vast majority of the prior work heavily relies on data-driven approaches to obtain solutions to at least one of the unknowns and typically two, running with the risk of failing to generalize to unseen domains. The shape representations used in the prior work also mainly focus on point cloud and signed distance field (SDF). In stark contrast to the prior work, we approach the problem using an iterative estimation method that does not require learning from any pose-annotated data. In addition, we adopt a novel mesh-based object active shape model that has not been explored by the previous literature. Our algorithm, named ShapeICP, has its foundation in the iterative closest point (ICP) algorithm but is equipped with additional features for the category-level pose and shape estimation task. The results show that even without using any pose-annotated data, ShapeICP surpasses many data-driven approaches that rely on the pose data for training, opening up new solution space for researchers to consider.

Complete Autonomous Robotic Nasopharyngeal Swab System with Evaluation on a Stochastically Moving Phantom Head

分类： 机器人技术

作者： Peter Q. Lee, John S. Zelek, Katja Mombaur

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13100v1

摘要： The application of autonomous robotics to close-contact healthcare tasks has a clear role for the future due to its potential to reduce infection risks to staff and improve clinical efficiency. Nasopharyngeal (NP) swab sample collection for diagnosing upper-respiratory illnesses is one type of close contact task that is interesting for robotics due to the dexterity requirements and the unobservability of the nasal cavity. We propose a control system that performs the test using a collaborative manipulator arm with an instrumented end-effector to take visual and force measurements, under the scenario that the patient is unrestrained and the tools are general enough to be applied to other close contact tasks. The system employs a visual servo controller to align the swab with the nostrils. A compliant joint velocity controller inserts the swab along a trajectory optimized through a simulation environment, that also reacts to measured forces applied to the swab. Additional subsystems include a fuzzy logic system for detecting when the swab reaches the nasopharynx and a method for detaching the swab and aborting the procedure if safety criteria is violated. The system is evaluated using a second robotic arm that holds a nasal cavity phantom and simulates the natural head motions that could occur during the procedure. Through extensive experiments, we identify controller configurations capable of effectively performing the NP swab test even with significant head motion, which demonstrates the safety and reliability of the system.

cc-DRL: a Convex Combined Deep Reinforcement Learning Flight Control Design for a Morphing Quadrotor

分类： 机器人技术, 人工智能, 机器学习, 系统与控制, 系统与控制

作者： Tao Yang, Huai-Ning Wu, Jun-Wei Wang

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13054v1

摘要： In comparison to common quadrotors, the shape change of morphing quadrotors endows it with a more better flight performance but also results in more complex flight dynamics. Generally, it is extremely difficult or even impossible for morphing quadrotors to establish an accurate mathematical model describing their complex flight dynamics. To figure out the issue of flight control design for morphing quadrotors, this paper resorts to a combination of model-free control techniques (e.g., deep reinforcement learning, DRL) and convex combination (CC) technique, and proposes a convex-combined-DRL (cc-DRL) flight control algorithm for position and attitude of a class of morphing quadrotors, where the shape change is realized by the length variation of four arm rods. In the proposed cc-DRL flight control algorithm, proximal policy optimization algorithm that is a model-free DRL algorithm is utilized to off-line train the corresponding optimal flight control laws for some selected representative arm length modes and hereby a cc-DRL flight control scheme is constructed by the convex combination technique. Finally, simulation results are presented to show the effectiveness and merit of the proposed flight control algorithm.

Identification and validation of the dynamic model of a tendon-driven anthropomorphic finger

分类： 机器人技术

作者： Junnan Li, Lingyun Chen, Johannes Ringwald, Edmundo Pozo Fortunic, Amartya Ganguly, Sami Haddadin

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13044v1

摘要： This study addresses the absence of an identification framework to quantify a comprehensive dynamic model of human and anthropomorphic tendon-driven fingers, which is necessary to investigate the physiological properties of human fingers and improve the control of robotic hands. First, a generalized dynamic model was formulated, which takes into account the inherent properties of such a mechanical system. This includes rigid-body dynamics, coupling matrix, joint viscoelasticity, and tendon friction. Then, we propose a methodology comprising a series of experiments, for step-wise identification and validation of this dynamic model. Moreover, an experimental setup was designed and constructed that features actuation modules and peripheral sensors to facilitate the identification process. To verify the proposed methodology, a 3D-printed robotic finger based on the index finger design of the Dexmart hand was developed, and the proposed experiments were executed to identify and validate its dynamic model. This study could be extended to explore the identification of cadaver hands, aiming for a consistent dataset from a single cadaver specimen to improve the development of musculoskeletal hand models.

Robust Iterative Value Conversion: Deep Reinforcement Learning for Neurochip-driven Edge Robots

分类： 机器人技术

作者： Yuki Kadokawa, Tomohito Kodera, Yoshihisa Tsurumine, Shinya Nishimura, Takamitsu Matsubara

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.13018v1

摘要： A neurochip is a device that reproduces the signal processing mechanisms of brain neurons and calculates Spiking Neural Networks (SNNs) with low power consumption and at high speed. Thus, neurochips are attracting attention from edge robot applications, which suffer from limited battery capacity. This paper aims to achieve deep reinforcement learning (DRL) that acquires SNN policies suitable for neurochip implementation. Since DRL requires a complex function approximation, we focus on conversion techniques from Floating Point NN (FPNN) because it is one of the most feasible SNN techniques. However, DRL requires conversions to SNNs for every policy update to collect the learning samples for a DRL-learning cycle, which updates the FPNN policy and collects the SNN policy samples. Accumulative conversion errors can significantly degrade the performance of the SNN policies. We propose Robust Iterative Value Conversion (RIVC) as a DRL that incorporates conversion error reduction and robustness to conversion errors. To reduce them, FPNN is optimized with the same number of quantization bits as an SNN. The FPNN output is not significantly changed by quantization. To robustify the conversion error, an FPNN policy that is applied with quantization is updated to increase the gap between the probability of selecting the optimal action and other actions. This step prevents unexpected replacements of the policy's optimal actions. We verified RIVC's effectiveness on a neurochip-driven robot. The results showed that RIVC consumed 1/15 times less power and increased the calculation speed by five times more than an edge CPU (quad-core ARM Cortex-A72). The previous framework with no countermeasures against conversion errors failed to train the policies. Videos from our experiments are available: https://youtu.be/Q5Z0-BvK1Tc.

Informational Embodiment: Computational role of information structure in codes and robots

分类： 机器人技术, 人工智能, 信息论, 信息论

作者： Alexandre Pitti, Kohei Nakajima, Yasuo Kuniyoshi

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12950v1

摘要： The body morphology plays an important role in the way information is perceived and processed by an agent. We address an information theory (IT) account on how the precision of sensors, the accuracy of motors, their placement, the body geometry, shape the information structure in robots and computational codes. As an original idea, we envision the robot's body as a physical communication channel through which information is conveyed, in and out, despite intrinsic noise and material limitations. Following this, entropy, a measure of information and uncertainty, can be used to maximize the efficiency of robot design and of algorithmic codes per se. This is known as the principle of Entropy Maximization (PEM) introduced in biology by Barlow in 1969. The Shannon's source coding theorem provides then a framework to compare different types of bodies in terms of sensorimotor information. In line with PME, we introduce a special class of efficient codes used in IT that reached the Shannon limits in terms of information capacity for error correction and robustness against noise, and parsimony. These efficient codes, which exploit insightfully quantization and randomness, permit to deal with uncertainty, redundancy and compacity. These features can be used for perception and control in intelligent systems. In various examples and closing discussions, we reflect on the broader implications of our framework that we called Informational Embodiment to motor theory and bio-inspired robotics, touching upon concepts like motor synergies, reservoir computing, and morphological computation. These insights can contribute to a deeper understanding of how information theory intersects with the embodiment of intelligence in both natural and artificial systems.

SIMPNet: Spatial-Informed Motion Planning Network

分类： 机器人技术, 系统与控制, 系统与控制

作者： Davood Soleymanzadeh, Xiao Liang, Minghui Zheng

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12831v1

摘要： Current robotic manipulators require fast and efficient motion-planning algorithms to operate in cluttered environments. State-of-the-art sampling-based motion planners struggle to scale to high-dimensional configuration spaces and are inefficient in complex environments. This inefficiency arises because these planners utilize either uniform or hand-crafted sampling heuristics within the configuration space. To address these challenges, we present the Spatial-informed Motion Planning Network (SIMPNet). SIMPNet consists of a stochastic graph neural network (GNN)-based sampling heuristic for informed sampling within the configuration space. The sampling heuristic of SIMPNet encodes the workspace embedding into the configuration space through a cross-attention mechanism. It encodes the manipulator's kinematic structure into a graph, which is used to generate informed samples within the framework of sampling-based motion planning algorithms. We have evaluated the performance of SIMPNet using a UR5e robotic manipulator operating within simple and complex workspaces, comparing it against baseline state-of-the-art motion planners. The evaluation results show the effectiveness and advantages of the proposed planner compared to the baseline planners.

Towards Human-Robot Teaming through Augmented Reality and Gaze-Based Attention Control

分类： 机器人技术, 人机交互

作者： Yousra Shleibik, Elijah Alabi, Christopher Reardon

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12823v1

摘要： Robots are now increasingly integrated into various real world applications and domains. In these new domains, robots are mostly employed to improve, in some ways, the work done by humans. So, the need for effective Human-Robot Teaming (HRT) capabilities grows. These capabilities usually involve the dynamic collaboration between humans and robots at different levels of involvement, leveraging the strengths of both to efficiently navigate complex situations. Crucial to this collaboration is the ability of robotic systems to adjust their level of autonomy to match the needs of the task and the human team members. This paper introduces a system designed to control attention using HRT through the use of ground robots and augmented reality (AR) technology. Traditional methods of controlling attention, such as pointing, touch, and voice commands, sometimes fall short in precision and subtlety. Our system overcomes these limitations by employing AR headsets to display virtual visual markers. These markers act as dynamic cues to attract and shift human attention seamlessly, irrespective of the robot's physical location.

Courteous MPC for Autonomous Driving with CBF-inspired Risk Assessment

分类： 机器人技术, 系统与控制, 系统与控制

作者： Yanze Zhang, Yiwei Lyu, Sude E. Demir, Xingyu Zhou, Yupeng Yang, Junmin Wang, Wenhao Luo

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12822v1

摘要： With more autonomous vehicles (AVs) sharing roadways with human-driven vehicles (HVs), ensuring safe and courteous maneuvers that respect HVs' behavior becomes increasingly important. To promote both safety and courtesy in AV's behavior, an extension of Control Barrier Functions (CBFs)-inspired risk evaluation framework is proposed in this paper by considering both noisy observed positions and velocities of surrounding vehicles. The perceived risk by the ego vehicle can be visualized as a risk map that reflects the understanding of the surrounding environment and thus shows the potential for facilitating safe and courteous driving. By incorporating the risk evaluation framework into the Model Predictive Control (MPC) scheme, we propose a Courteous MPC for ego AV to generate courteous behaviors that 1) reduce the overall risk imposed on other vehicles and 2) respect the hard safety constraints and the original objective for efficiency. We demonstrate the performance of the proposed Courteous MPC via theoretical analysis and simulation experiments.

Environment-Centric Active Inference

分类： 机器人技术, 人工智能

作者： Kanako Esaki, Tadayuki Matsumura, Takeshi Kato, Shunsuke Minusa, Yang Shao, Hiroyuki Mizuno

发布时间： 2024-08-23

链接： http://arxiv.org/abs/2408.12777v1

摘要： To handle unintended changes in the environment by agents, we propose an environment-centric active inference EC-AIF in which the Markov Blanket of active inference is defined starting from the environment. In normal active inference, the Markov Blanket is defined starting from the agent. That is, first the agent was defined as the entity that performs the "action" such as a robot or a person, then the environment was defined as other people or objects that are directly affected by the agent's "action," and the boundary between the agent and the environment was defined as the Markov Blanket. This agent-centric definition does not allow the agent to respond to unintended changes in the environment caused by factors outside of the defined environment. In the proposed EC-AIF, there is no entity corresponding to an agent. The environment includes all observable things, including people and things conventionally considered to be the environment, as well as entities that perform "actions" such as robots and people. Accordingly, all states, including robots and people, are included in inference targets, eliminating unintended changes in the environment. The EC-AIF was applied to a robot arm and validated with an object transport task by the robot arm. The results showed that the robot arm successfully transported objects while responding to changes in the target position of the object and to changes in the orientation of another robot arm.

One-shot Video Imitation via Parameterized Symbolic Abstraction Graphs

分类： 机器人技术, 计算机视觉和模式识别

作者： Jianren Wang, Kangni Liu, Dingkun Guo, Xian Zhou, Christopher G Atkeson

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12674v1

摘要： Learning to manipulate dynamic and deformable objects from a single demonstration video holds great promise in terms of scalability. Previous approaches have predominantly focused on either replaying object relationships or actor trajectories. The former often struggles to generalize across diverse tasks, while the latter suffers from data inefficiency. Moreover, both methodologies encounter challenges in capturing invisible physical attributes, such as forces. In this paper, we propose to interpret video demonstrations through Parameterized Symbolic Abstraction Graphs (PSAG), where nodes represent objects and edges denote relationships between objects. We further ground geometric constraints through simulation to estimate non-geometric, visually imperceptible attributes. The augmented PSAG is then applied in real robot experiments. Our approach has been validated across a range of tasks, such as Cutting Avocado, Cutting Vegetable, Pouring Liquid, Rolling Dough, and Slicing Pizza. We demonstrate successful generalization to novel objects with distinct visual and physical properties.

Ten Problems in Geobotics

分类： 计算几何, 机器人技术

作者： Mikkel Abrahamsen, Dan Halperin

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12657v1

摘要： Robots sense, move and act in the physical world. It is therefore natural that algorithmic problems in robotics and automation have a geometric component, often central to the problem. Below we review ten challenging problems at the intersection of robotics and computational geometry -- let's call this intersection Geobotics. What is common to most of these problems is that the prevalent algorithmic techniques used in robotics do not seem suitable for solving them, or at least do not suggest quality guarantees for the solution. Solving some of them, even partially, can shed light on less well-understood aspects of computation in robotics.

Automating Deformable Gasket Assembly

分类： 机器人技术, 计算机视觉和模式识别

作者： Simeon Adebola, Tara Sadjadpour, Karim El-Refai, Will Panitch, Zehan Ma, Roy Lin, Tianshuang Qiu, Shreya Ganti, Charlotte Le, Jaimyn Drake, Ken Goldberg

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12593v1

摘要： In Gasket Assembly, a deformable gasket must be aligned and pressed into a narrow channel. This task is common for sealing surfaces in the manufacturing of automobiles, appliances, electronics, and other products. Gasket Assembly is a long-horizon, high-precision task and the gasket must align with the channel and be fully pressed in to achieve a secure fit. To compare approaches, we present 4 methods for Gasket Assembly: one policy from deep imitation learning and three procedural algorithms. We evaluate these methods with 100 physical trials. Results suggest that the Binary+ algorithm succeeds in 10/10 on the straight channel whereas the learned policy based on 250 human teleoperated demonstrations succeeds in 8/10 trials and is significantly slower. Code, CAD models, videos, and data can be found at https://berkeleyautomation.github.io/robot-gasket/

UMAD: University of Macau Anomaly Detection Benchmark Dataset

分类： 机器人技术, 计算机视觉和模式识别

作者： Dong Li, Lineng Chen, Cheng-Zhong Xu, Hui Kong

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12527v1

摘要： Anomaly detection is critical in surveillance systems and patrol robots by identifying anomalous regions in images for early warning. Depending on whether reference data are utilized, anomaly detection can be categorized into anomaly detection with reference and anomaly detection without reference. Currently, anomaly detection without reference, which is closely related to out-of-distribution (OoD) object detection, struggles with learning anomalous patterns due to the difficulty of collecting sufficiently large and diverse anomaly datasets with the inherent rarity and novelty of anomalies. Alternatively, anomaly detection with reference employs the scheme of change detection to identify anomalies by comparing semantic changes between a reference image and a query one. However, there are very few ADr works due to the scarcity of public datasets in this domain. In this paper, we aim to address this gap by introducing the UMAD Benchmark Dataset. To our best knowledge, this is the first benchmark dataset designed specifically for anomaly detection with reference in robotic patrolling scenarios, e.g., where an autonomous robot is employed to detect anomalous objects by comparing a reference and a query video sequences. The reference sequences can be taken by the robot along a specified route when there are no anomalous objects in the scene. The query sequences are captured online by the robot when it is patrolling in the same scene following the same route. Our benchmark dataset is elaborated such that each query image can find a corresponding reference based on accurate robot localization along the same route in the prebuilt 3D map, with which the reference and query images can be geometrically aligned using adaptive warping. Besides the proposed benchmark dataset, we evaluate the baseline models of ADr on this dataset.

Beyond Shortsighted Navigation: Merging Best View Trajectory Planning with Robot Navigation

分类： 机器人技术

作者： Srinath Tankasala, Roberto Martín-Martín, Mitch Pryor

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12513v1

摘要： Gathering visual information effectively to monitor known environments is a key challenge in robotics. To be as efficient as human surveyors, robotic systems must continuously collect observational data required to complete their survey task. Inspection personnel instinctively know to look at relevant equipment that happens to be ``along the way.'' In this paper, we introduce a novel framework for continuous long-horizon viewpoint planning, for ground robots, applied to tasks involving patrolling, monitoring or visual data gathering in known environments. Our approach to Long Horizon Viewpoint Planning (LHVP), enables the robot to autonomously navigate and collect environmental data optimizing for coverage over the horizon of the patrol. Leveraging a quadruped's mobility and sensory capabilities, our LHVP framework plans patrol paths that account for coupling the viewpoint planner for the arm camera with the mobile base's navigation planner. The viewpath optimization algorithm seeks a balance between comprehensive environmental coverage and dynamically feasible movements, thus ensuring prolonged and effective operation in scenarios including monitoring, security surveillance, and disaster response. We validate our approach through simulations and in the real world and show that our LHVP significantly outperforms naive patrolling methods in terms of area coverage generating information-gathering trajectories for the robot arm. Our results indicate a promising direction for the deployment of mobile robots in long-term, autonomous surveying, and environmental data collection tasks, highlighting the potential of intelligent robotic systems in challenging real-world applications.

Integrated Hardware and Software Architecture for Industrial AGV with Manual Override Capability

分类： 机器人技术

作者： Pietro Iob, Mauro Schiavo, Angelo Cenedese

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12499v1

摘要： This paper presents a study on transforming a traditional human-operated vehicle into a fully autonomous device. By leveraging previous research and state-of-the-art technologies, the study addresses autonomy, safety, and operational efficiency in industrial environments. Motivated by the demand for automation in hazardous and complex industries, the autonomous system integrates sensors, actuators, advanced control algorithms, and communication systems to enhance safety, streamline processes, and improve productivity. The paper covers system requirements, hardware architecture, software framework and preliminary results. This research offers insights into designing and implementing autonomous capabilities in human-operated vehicles, with implications for improving safety and efficiency in various industrial sectors.

Smart Fleet Solutions: Simulating Electric AGV Performance in Industrial Settings

分类： 机器人技术

作者： Tommaso Martone, Pietro Iob, Mauro Schiavo, Angelo Cenedese

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12498v1

摘要： This paper explores the potential benefits and challenges of integrating Electric Vehicles (EVs) and Autonomous Ground Vehicles (AGVs) in industrial settings to improve sustainability and operational efficiency. While EVs offer environmental advantages, barriers like high costs and limited range hinder their widespread use. Similarly, AGVs, despite their autonomous capabilities, face challenges in technology integration and reliability. To address these issues, the paper develops a fleet management tool tailored for coordinating electric AGVs in industrial environments. The study focuses on simulating electric AGV performance in a primary aluminum plant to provide insights into their effectiveness and offer recommendations for optimizing fleet performance.

Probabilistic Homotopy Optimization for Dynamic Motion Planning

分类： 机器人技术

作者： Shayan Pardis, Matthew Chignoli, Sangbae Kim

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12490v1

摘要： We present a homotopic approach to solving challenging, optimization-based motion planning problems. The approach uses Homotopy Optimization, which, unlike standard continuation methods for solving homotopy problems, solves a sequence of constrained optimization problems rather than a sequence of nonlinear systems of equations. The insight behind our proposed algorithm is formulating the discovery of this sequence of optimization problems as a search problem in a multidimensional homotopy parameter space. Our proposed algorithm, the Probabilistic Homotopy Optimization algorithm, switches between solve and sample phases, using solutions to easy problems as initial guesses to more challenging problems. We analyze how our algorithm performs in the presence of common challenges to homotopy methods, such as bifurcation, folding, and disconnectedness of the homotopy solution manifold. Finally, we demonstrate its utility via a case study on two dynamic motion planning problems: the cart-pole and the MIT Humanoid.

Robotic Eye-in-hand Visual Servo Axially Aligning Nasopharyngeal Swabs with the Nasal Cavity

分类： 机器人技术, 计算机视觉和模式识别

作者： Peter Q. Lee, John S. Zelek, Katja Mombaur

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12437v1

摘要： The nasopharyngeal (NP) swab test is a method for collecting cultures to diagnose for different types of respiratory illnesses, including COVID-19. Delegating this task to robots would be beneficial in terms of reducing infection risks and bolstering the healthcare system, but a critical component of the NP swab test is having the swab aligned properly with the nasal cavity so that it does not cause excessive discomfort or injury by traveling down the wrong passage. Existing research towards robotic NP swabbing typically assumes the patient's head is held within a fixture. This simplifies the alignment problem, but is also dissimilar to clinical scenarios where patients are typically free-standing. Consequently, our work creates a vision-guided pipeline to allow an instrumented robot arm to properly position and orient NP swabs with respect to the nostrils of free-standing patients. The first component of the pipeline is a precomputed joint lookup table to allow the arm to meet the patient's arbitrary position in the designated workspace, while avoiding joint limits. Our pipeline leverages semantic face models from computer vision to estimate the Euclidean pose of the face with respect to a monocular RGB-D camera placed on the end-effector. These estimates are passed into an unscented Kalman filter on manifolds state estimator and a pose based visual servo control loop to move the swab to the designated pose in front of the nostril. Our pipeline was validated with human trials, featuring a cohort of 25 participants. The system is effective, reaching the nostril for 84% of participants, and our statistical analysis did not find significant demographic biases within the cohort.

Multi Agent Framework for Collective Intelligence Research

分类： 机器人技术

作者： Alexandru Dochian

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12391v1

摘要： This paper presents a scalable decentralized multi agent framework that facilitates the exchange of information between computing units through computer networks. The architectural boundaries imposed by the tool make it suitable for collective intelligence research experiments ranging from agents that exchange hello world messages to virtual drone agents exchanging positions and eventually agents exchanging information via radio with real Crazyflie drones in VU Amsterdam laboratory. The field modulation theory is implemented to construct synthetic local perception maps for agents, which are constructed based on neighbouring agents positions and neighbouring points of interest dictated by the environment. By constraining the experimental setup to a 2D environment with discrete actions, constant velocity and parameters tailored to VU Amsterdam laboratory, UAV Crazyflie drones running hill climbing controller followed collision-free trajectories and bridged sim-to-real gap.

Characterization, Experimental Validation and Pilot User Study of the Vibro-Inertial Bionic Enhancement System (VIBES)

分类： 机器人技术

作者： Alessia S. Ivani, Federica Barontini, Manuel G. Catalano, Giorgio Grioli, Matteo Bianchi, Antonio Bicchi

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12375v1

摘要： This study presents the characterization and validation of the VIBES, a wearable vibrotactile device that provides high-frequency tactile information embedded in a prosthetic socket. A psychophysical characterization involving ten able-bodied participants is performed to compute the Just Noticeable Difference (JND) related to the discrimination of vibrotactile cues delivered on the skin in two forearm positions, with the goal of optimising vibrotactile actuator position to maximise perceptual response. Furthermore, system performance is validated and tested both with ten able-bodied participants and one prosthesis user considering three tasks. More specifically, in the Active Texture Identification, Slippage and Fragile Object Experiments, we investigate if the VIBES could enhance users' roughness discrimination and manual usability and dexterity. Finally, we test the effect of the vibrotactile system on prosthetic embodiment in a Rubber Hand Illusion (RHI) task. Results show the system's effectiveness in conveying contact and texture cues, making it a potential tool to restore sensory feedback and enhance the embodiment in prosthetic users.

Recursive Distributed Collaborative Aided Inertial Navigation

分类： 机器人技术, 系统与控制, 系统与控制

作者： Roland Jung

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12360v1

摘要： In this dissertation, we investigate the issue of robust localization in swarms of heterogeneous mobile agents with multiple and time-varying sensing modalities. Our focus is the development of filter-based and decoupled estimators under the assumption that agents possess communication and processing capabilities. Based on the findings from Distributed Collaborative State Estimation and modular sensor fusion, we propose a novel Kalman filter decoupling paradigm, which is termed Isolated Kalman Filtering (IKF). This paradigm is formally discussed and the treatment of delayed measurement is studied. The impact of approximation made was investigated on different observation graphs and the filter credibility was evaluated on a linear system in a Monte Carlo simulation. Finally, we propose a multi-agent modular sensor fusion approach based on the IKF paradigm, in order to cooperatively estimate the global state of a multi-agent system in a distributed way and fuse information provided by different on-board sensors in a computationally efficient way. As a consequence, this approach can be performed distributed among agents, while (i) communication between agents is only required at the moment of inter-agent joint observations, (ii) one agent acts as interim master to process state corrections isolated, (iii) agents can be added and removed from the swarm, (iv) each agent's full state can vary during mission (each local sensor suite can be truly modular), and (v) delayed and multi-rate sensor updates are supported. Extensive evaluation on realistic simulated and real-world data sets show that the proposed Isolated Kalman Filtering (IKF) paradigm, is applicable for both, truly modular single agent estimation and distributed collaborative multi-agent estimation problems.

Star-shaped Tilted Hexarotor Maneuverability: Analysis of the Role of the Tilt Cant Angles

分类： 系统与控制, 机器人技术, 系统与控制

作者： Marco Perin, Massimiliano Bertoni, Nicolas Viezzer, Giulia Michieletto, Angelo Cenedese

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12294v1

摘要： Star-shaped Tilted Hexarotors are rapidly emerging for applications highly demanding in terms of robustness and maneuverability. To ensure improvement in such features, a careful selection of the tilt angles is mandatory. In this work, we present a rigorous analysis of how the force subspace varies with the tilt cant angles, namely the tilt angles along the vehicle arms, taking into account gravity compensation and torque decoupling to abide by the hovering condition. Novel metrics are introduced to assess the performance of existing tilted platforms, as well as to provide some guidelines for the selection of the tilt cant angle in the design phase.

Tactile-Morph Skills: Energy-Based Control Meets Data-Driven Learning

分类： 机器人技术

作者： Anran Zhang, Kübra Karacan, Hamid Sadeghian, Yansong Wu, Fan Wu, Sami Haddadin

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12285v2

摘要： Robotic manipulation is essential for modernizing factories and automating industrial tasks like polishing, which require advanced tactile abilities. These robots must be easily set up, safely work with humans, learn tasks autonomously, and transfer skills to similar tasks. Addressing these needs, we introduce the tactile-morph skill framework, which integrates unified force-impedance control with data-driven learning. Our system adjusts robot movements and force application based on estimated energy levels for the desired trajectory and force profile, ensuring safety by stopping if energy allocated for the control runs out. Using a Temporal Convolutional Network, we estimate the energy distribution for a given motion and force profile, enabling skill transfer across different tasks and surfaces. Our approach maintains stability and performance even on unfamiliar geometries with similar friction characteristics, demonstrating improved accuracy, zero-shot transferable performance, and enhanced safety in real-world scenarios. This framework promises to enhance robotic capabilities in industrial settings, making intelligent robots more accessible and valuable.

A Safety-Oriented Self-Learning Algorithm for Autonomous Driving: Evolution Starting from a Basic Model

分类： 机器人技术

作者： Shuo Yang, Caojun Wang, Zhenyu Ma, Yanjun Huang, Hong Chen

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12190v1

摘要： Autonomous driving vehicles with self-learning capabilities are expected to evolve in complex environments to improve their ability to cope with different scenarios. However, most self-learning algorithms suffer from low learning efficiency and lacking safety, which limits their applications. This paper proposes a safety-oriented self-learning algorithm for autonomous driving, which focuses on how to achieve evolution from a basic model. Specifically, a basic model based on the transformer encoder is designed to extract and output policy features from a small number of demonstration trajectories. To improve the learning efficiency, a policy mixed approach is developed. The basic model provides initial values to improve exploration efficiency, and the self-learning algorithm enhances the adaptability and generalization of the model, enabling continuous improvement without external intervention. Finally, an actor approximator based on receding horizon optimization is designed considering the constraints of the environmental input to ensure safety. The proposed method is verified in a challenging mixed traffic environment with pedestrians and vehicles. Simulation and real-vehicle test results show that the proposed method can safely and efficiently learn appropriate autonomous driving behaviors. Compared reinforcement learning and behavior cloning methods, it can achieve comprehensive improvement in learning efficiency and performance under the premise of ensuring safety.

A Safe and Efficient Self-evolving Algorithm for Decision-making and Control of Autonomous Driving Systems

分类： 机器人技术, 人工智能

作者： Shuo Yang, Liwen Wang, Yanjun Huang, Hong Chen

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12187v1

摘要： Autonomous vehicles with a self-evolving ability are expected to cope with unknown scenarios in the real-world environment. Take advantage of trial and error mechanism, reinforcement learning is able to self evolve by learning the optimal policy, and it is particularly well suitable for solving decision-making problems. However, reinforcement learning suffers from safety issues and low learning efficiency, especially in the continuous action space. Therefore, the motivation of this paper is to address the above problem by proposing a hybrid Mechanism-Experience-Learning augmented approach. Specifically, to realize the efficient self-evolution, the driving tendency by analogy with human driving experience is proposed to reduce the search space of the autonomous driving problem, while the constrained optimization problem based on a mechanistic model is designed to ensure safety during the self-evolving process. Experimental results show that the proposed method is capable of generating safe and reasonable actions in various complex scenarios, improving the performance of the autonomous driving system. Compared to conventional reinforcement learning, the safety and efficiency of the proposed algorithm are greatly improved. The training process is collision-free, and the training time is equivalent to less than 10 minutes in the real world.

Control-Theoretic Analysis of Shared Control Systems

分类： 机器人技术, 人机交互

作者： Reuben M. Aronson, Elaine Schaertl Short

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12103v1

摘要： Users of shared control systems change their behavior in the presence of assistance, which conflicts with assumpts about user behavior that some assistance methods make. In this paper, we propose an analysis technique to evaluate the user's experience with the assistive systems that bypasses required assumptions: we model the assistance as a dynamical system that can be analyzed using control theory techniques. We analyze the shared autonomy assistance algorithm and make several observations: we identify a problem with runaway goal confidence and propose a system adjustment to mitigate it, we demonstrate that the system inherently limits the possible actions available to the user, and we show that in a simplified setting, the effect of the assistance is to drive the system to the convex hull of the goals and, once there, add a layer of indirection between the user control and the system behavior. We conclude by discussing the possible uses of this analysis for the field.

LLM-enhanced Scene Graph Learning for Household Rearrangement

分类： 机器人技术, 计算机视觉和模式识别

作者： Wenhao Li, Zhiyuan Yu, Qijin She, Zhinan Yu, Yuqing Lan, Chenyang Zhu, Ruizhen Hu, Kai Xu

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12093v1

摘要： The household rearrangement task involves spotting misplaced objects in a scene and accommodate them with proper places. It depends both on common-sense knowledge on the objective side and human user preference on the subjective side. In achieving such task, we propose to mine object functionality with user preference alignment directly from the scene itself, without relying on human intervention. To do so, we work with scene graph representation and propose LLM-enhanced scene graph learning which transforms the input scene graph into an affordance-enhanced graph (AEG) with information-enhanced nodes and newly discovered edges (relations). In AEG, the nodes corresponding to the receptacle objects are augmented with context-induced affordance which encodes what kind of carriable objects can be placed on it. New edges are discovered with newly discovered non-local relations. With AEG, we perform task planning for scene rearrangement by detecting misplaced carriables and determining a proper placement for each of them. We test our method by implementing a tiding robot in simulator and perform evaluation on a new benchmark we build. Extensive evaluations demonstrate that our method achieves state-of-the-art performance on misplacement detection and the following rearrangement planning.

Highly Accurate Robot Calibration Using Adaptive and Momental Bound with Decoupled Weight Decay

分类： 机器人技术

作者： Tinghui Chen, Shuai Li

发布时间： 2024-08-22

链接： http://arxiv.org/abs/2408.12087v1

摘要： Within the context of intelligent manufacturing, industrial robots have a pivotal function. Nonetheless, extended operational periods cause a decline in their absolute positioning accuracy, preventing them from meeting high precision. To address this issue, this paper presents a novel robot algorithm that combines an adaptive and momental bound algorithm with decoupled weight decay (AdaModW), which has three-fold ideas: a) adopting an adaptive moment estimation (Adam) algorithm to achieve a high convergence rate, b) introducing a hyperparameter into the Adam algorithm to define the length of memory, effectively addressing the issue of the abnormal learning rate, and c) interpolating a weight decay coefficient to improve its generalization. Numerous experiments on an HRS-JR680 industrial robot show that the presented algorithm significantly outperforms state-of-the-art algorithms in robot calibration performance. Thus, in light of its reliability, this algorithm provides an efficient way to address robot calibration concerns.

FUSELOC: Fusing Global and Local Descriptors to Disambiguate 2D-3D Matching in Visual Localization

分类： 计算机视觉和模式识别, 机器人技术

作者： Son Tung Nguyen, Alejandro Fontan, Michael Milford, Tobias Fischer

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.12037v1

摘要： Hierarchical methods represent state-of-the-art visual localization, optimizing search efficiency by using global descriptors to focus on relevant map regions. However, this state-of-the-art performance comes at the cost of substantial memory requirements, as all database images must be stored for feature matching. In contrast, direct 2D-3D matching algorithms require significantly less memory but suffer from lower accuracy due to the larger and more ambiguous search space. We address this ambiguity by fusing local and global descriptors using a weighted average operator within a 2D-3D search framework. This fusion rearranges the local descriptor space such that geographically nearby local descriptors are closer in the feature space according to the global descriptors. Therefore, the number of irrelevant competing descriptors decreases, specifically if they are geographically distant, thereby increasing the likelihood of correctly matching a query descriptor. We consistently improve the accuracy over local-only systems and achieve performance close to hierarchical methods while halving memory requirements. Extensive experiments using various state-of-the-art local and global descriptors across four different datasets demonstrate the effectiveness of our approach. For the first time, our approach enables direct matching algorithms to benefit from global descriptors while maintaining memory efficiency. The code for this paper will be published at \href{https://github.com/sontung/descriptor-disambiguation}{github.com/sontung/descriptor-disambiguation}.

Evaluating Gait Symmetry with a Smart Robotic Walker: A Novel Approach to Mobility Assessment

分类： 机器人技术

作者： Mahdi Chalaki, Abed Soleymani, Xingyu Li, Vivian Mushahwar, Mahdi Tavakoli

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.12005v1

摘要： Gait asymmetry, a consequence of various neurological or physical conditions such as aging and stroke, detrimentally impacts bipedal locomotion, causing biomechanical alterations, increasing the risk of falls and reducing quality of life. Addressing this critical issue, this paper introduces a novel diagnostic method for gait symmetry analysis through the use of an assistive robotic Smart Walker equipped with an innovative asymmetry detection scheme. This method analyzes sensor measurements capturing the interaction torque between user and walker. By applying a seasonal-trend decomposition tool, we isolate gait-specific patterns within these data, allowing for the estimation of stride durations and calculation of a symmetry index. Through experiments involving 5 experimenters, we demonstrate the Smart Walker's capability in detecting and quantifying gait asymmetry by achieving an accuracy of 84.9% in identifying asymmetric cases in a controlled testing environment. Further analysis explores the classification of these asymmetries based on their underlying causes, providing valuable insights for gait assessment. The results underscore the potential of the device as a precise, ready-to-use monitoring tool for personalized rehabilitation, facilitating targeted interventions for enhanced patient outcomes.

Optimized Kalman Filter based State Estimation and Height Control in Hopping Robots

分类： 机器人技术

作者： Samuel Burns, Matthew Woodward

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11978v1

摘要： Quadrotor-based multimodal hopping and flying locomotion significantly improves efficiency and operation time as compared to purely flying systems. However, effective control necessitates continuous estimation of the vertical states. A single hopping state estimator has been shown (Kang 2024), in which two vertical states (position, acceleration) are measured and only velocity is estimated using a moving horizon estimation and visual inertial odometry at 200 Hz. This technique requires complex sensors (IMU, lidar, depth camera, contact force sensor), and computationally intensive calculations (12-core, 5 GHz processor), for a maximum hop height of $\sim$0.6 m at 3.65 kg. Here we show a trained Kalman filter based hopping vertical state estimator (HVSE), requiring only vertical acceleration measurements. Our results show the HVSE can estimate more states (position, velocity) with a mean-absolute-error in the hop apex ratio (height error/ground truth) of 12.5%, running $\sim$4.2x faster (840 Hz) on a substantially less powerful processor (dual-core 240 MHz) with over $\sim$6.7x the hopping height (4.02 m) at 20% of the mass (672 g). The presented general HVSE, and training procedure are broadly applicable to jumping, hopping, and legged robots across a wide range of sizes and hopping heights.

Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations

分类： 计算机视觉和模式识别, 机器人技术

作者： Lintong Zhang, Yifu Tao, Jiarong Lin, Fu Zhang, Maurice Fallon

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11966v1

摘要： This paper introduces and assesses a cross-modal global visual localization system that can localize camera images within a color 3D map representation built using both visual and lidar sensing. We present three different state-of-the-art methods for creating the color 3D maps: point clouds, meshes, and neural radiance fields (NeRF). Our system constructs a database of synthetic RGB and depth image pairs from these representations. This database serves as the basis for global localization. We present an automatic approach that builds this database by synthesizing novel images of the scene and exploiting the 3D structure encoded in the different representations. Next, we present a global localization system that relies on the synthetic image database to accurately estimate the 6 DoF camera poses of monocular query images. Our localization approach relies on different learning-based global descriptors and feature detectors which enable robust image retrieval and matching despite the domain gap between (real) query camera images and the synthetic database images. We assess the system's performance through extensive real-world experiments in both indoor and outdoor settings, in order to evaluate the effectiveness of each map representation and the benefits against traditional structure-from-motion localization approaches. Our results show that all three map representations can achieve consistent localization success rates of 55% and higher across various environments. NeRF synthesized images show superior performance, localizing query images at an average success rate of 72%. Furthermore, we demonstrate that our synthesized database enables global localization even when the map creation data and the localization sequence are captured when travelling in opposite directions. Our system, operating in real-time on a mobile laptop equipped with a GPU, achieves a processing rate of 1Hz.

Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation

分类： 机器人技术, 机器学习

作者： Ria Doshi, Homer Walke, Oier Mees, Sudeep Dasari, Sergey Levine

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11812v1

摘要： Modern machine learning systems rely on large datasets to attain broad generalization, and this often poses a challenge in robot learning, where each robotic platform and task might have only a small dataset. By training a single policy across many different kinds of robots, a robot learning method can leverage much broader and more diverse datasets, which in turn can lead to better generalization and robustness. However, training a single policy on multi-robot data is challenging because robots can have widely varying sensors, actuators, and control frequencies. We propose CrossFormer, a scalable and flexible transformer-based policy that can consume data from any embodiment. We train CrossFormer on the largest and most diverse dataset to date, 900K trajectories across 20 different robot embodiments. We demonstrate that the same network weights can control vastly different robots, including single and dual arm manipulation systems, wheeled robots, quadcopters, and quadrupeds. Unlike prior work, our model does not require manual alignment of the observation or action spaces. Extensive experiments in the real world show that our method matches the performance of specialist policies tailored for each embodiment, while also significantly outperforming the prior state of the art in cross-embodiment learning.

EmbodiedSAM: Online Segment Any 3D Thing in Real Time

分类： 计算机视觉和模式识别, 机器人技术

作者： Xiuwei Xu, Huangxing Chen, Linqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11811v1

摘要： Embodied tasks require the agent to fully understand 3D scenes simultaneously with its exploration, so an online, real-time, fine-grained and highly-generalized 3D perception model is desperately needed. Since high-quality 3D data is limited, directly training such a model in 3D is almost infeasible. Meanwhile, vision foundation models (VFM) has revolutionized the field of 2D computer vision with superior performance, which makes the use of VFM to assist embodied 3D perception a promising direction. However, most existing VFM-assisted 3D perception methods are either offline or too slow that cannot be applied in practical embodied tasks. In this paper, we aim to leverage Segment Anything Model (SAM) for real-time 3D instance segmentation in an online setting. This is a challenging problem since future frames are not available in the input streaming RGB-D video, and an instance may be observed in several frames so object matching between frames is required. To address these challenges, we first propose a geometric-aware query lifting module to represent the 2D masks generated by SAM by 3D-aware queries, which is then iteratively refined by a dual-level query decoder. In this way, the 2D masks are transferred to fine-grained shapes on 3D point clouds. Benefit from the query representation for 3D masks, we can compute the similarity matrix between the 3D masks from different views by efficient matrix operation, which enables real-time inference. Experiments on ScanNet, ScanNet200, SceneNN and 3RScan show our method achieves leading performance even compared with offline methods. Our method also demonstrates great generalization ability in several zero-shot dataset transferring experiments and show great potential in open-vocabulary and data-efficient setting. Code and demo are available at https://xuxw98.github.io/ESAM/, with only one RTX 3090 GPU required for training and evaluation.

Informed, Constrained, Aligned: A Field Analysis on Degeneracy-aware Point Cloud Registration in the Wild

分类： 机器人技术

作者： Turcan Tuna, Julian Nubert, Patrick Pfreundschuh, Cesar Cadena, Shehryar Khattak, Marco Hutter

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11809v1

摘要： The ICP registration algorithm has been a preferred method for LiDAR-based robot localization for nearly a decade. However, even in modern SLAM solutions, ICP can degrade and become unreliable in geometrically ill-conditioned environments. Current solutions primarily focus on utilizing additional sources of information, such as external odometry, to either replace the degenerate directions of the optimization solution or add additional constraints in a sensor-fusion setup afterward. In response, this work investigates and compares new and existing degeneracy mitigation methods for robust LiDAR-based localization and analyzes the efficacy of these approaches in degenerate environments for the first time in the literature at this scale. Specifically, this work proposes and investigates i) the incorporation of different types of constraints into the ICP algorithm, ii) the effect of using active or passive degeneracy mitigation techniques, and iii) the choice of utilizing global point cloud registration methods on the ill-conditioned ICP problem in LiDAR degenerate environments. The study results are validated through multiple real-world field and simulated experiments. The analysis shows that active optimization degeneracy mitigation is necessary and advantageous in the absence of reliable external estimate assistance for LiDAR-SLAM. Furthermore, introducing degeneracy-aware hard constraints in the optimization before or during the optimization is shown to perform better in the wild than by including the constraints after. Moreover, with heuristic fine-tuned parameters, soft constraints can provide equal or better results in complex ill-conditioned scenarios. The implementations used in the analysis of this work are made publicly available to the community.

ACE: A Cross-Platform Visual-Exoskeletons System for Low-Cost Dexterous Teleoperation

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Shiqi Yang, Minghuan Liu, Yuzhe Qin, Runyu Ding, Jialong Li, Xuxin Cheng, Ruihan Yang, Sha Yi, Xiaolong Wang

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11805v1

摘要： Learning from demonstrations has shown to be an effective approach to robotic manipulation, especially with the recently collected large-scale robot data with teleoperation systems. Building an efficient teleoperation system across diverse robot platforms has become more crucial than ever. However, there is a notable lack of cost-effective and user-friendly teleoperation systems for different end-effectors, e.g., anthropomorphic robot hands and grippers, that can operate across multiple platforms. To address this issue, we develop ACE, a cross-platform visual-exoskeleton system for low-cost dexterous teleoperation. Our system utilizes a hand-facing camera to capture 3D hand poses and an exoskeleton mounted on a portable base, enabling accurate real-time capture of both finger and wrist poses. Compared to previous systems, which often require hardware customization according to different robots, our single system can generalize to humanoid hands, arm-hands, arm-gripper, and quadruped-gripper systems with high-precision teleoperation. This enables imitation learning for complex manipulation tasks on diverse platforms.

An Advanced Microscopic Energy Consumption Model for Automated Vehicle:Development, Calibration, Verification

分类： 机器人技术, 系统与控制, 系统与控制

作者： Ke Ma, Zhaohui Liang, Hang Zhou, Xiaopeng Li

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11797v1

摘要： The automated vehicle (AV) equipped with the Adaptive Cruise Control (ACC) system is expected to reduce the fuel consumption for the intelligent transportation system. This paper presents the Advanced ACC-Micro (AA-Micro) model, a new energy consumption model based on micro trajectory data, calibrated and verified by empirical data. Utilizing a commercial AV equipped with the ACC system as the test platform, experiments were conducted at the Columbus 151 Speedway, capturing data from multiple ACC and Human-Driven (HV) test runs. The calibrated AA-Micro model integrates features from traditional energy consumption models and demonstrates superior goodness of fit, achieving an impressive 90% accuracy in predicting ACC system energy consumption without overfitting. A comprehensive statistical evaluation of the AA-Micro model's applicability and adaptability in predicting energy consumption and vehicle trajectories indicated strong model consistency and reliability for ACC vehicles, evidenced by minimal variance in RMSE values and uniform RSS distributions. Conversely, significant discrepancies were observed when applying the model to HV data, underscoring the necessity for specialized models to accurately predict energy consumption for HV and ACC systems, potentially due to their distinct energy consumption characteristics.

D-RMGPT: Robot-assisted collaborative tasks driven by large multimodal models

分类： 机器人技术, 人工智能

作者： M. Forlini, M. Babcinschi, G. Palmieri, P. Neto

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11761v1

摘要： Collaborative robots are increasingly popular for assisting humans at work and daily tasks. However, designing and setting up interfaces for human-robot collaboration is challenging, requiring the integration of multiple components, from perception and robot task control to the hardware itself. Frequently, this leads to highly customized solutions that rely on large amounts of costly training data, diverging from the ideal of flexible and general interfaces that empower robots to perceive and adapt to unstructured environments where they can naturally collaborate with humans. To overcome these challenges, this paper presents the Detection-Robot Management GPT (D-RMGPT), a robot-assisted assembly planner based on Large Multimodal Models (LMM). This system can assist inexperienced operators in assembly tasks without requiring any markers or previous training. D-RMGPT is composed of DetGPT-V and R-ManGPT. DetGPT-V, based on GPT-4V(vision), perceives the surrounding environment through one-shot analysis of prompted images of the current assembly stage and the list of components to be assembled. It identifies which components have already been assembled by analysing their features and assembly requirements. R-ManGPT, based on GPT-4, plans the next component to be assembled and generates the robot's discrete actions to deliver it to the human co-worker. Experimental tests on assembling a toy aircraft demonstrated that D-RMGPT is flexible and intuitive to use, achieving an assembly success rate of 83% while reducing the assembly time for inexperienced operators by 33% compared to the manual process. http://robotics-and-ai.github.io/LMMmodels/

Bayesian Optimization Framework for Efficient Fleet Design in Autonomous Multi-Robot Exploration

分类： 机器人技术, 多代理系统

作者： David Molina Concha, Jiping Li, Haoran Yin, Kyeonghyeon Park, Hyun-Rok Lee, Taesik Lee, Dhruv Sirohi, Chi-Guhn Lee

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11751v1

摘要： This study addresses the challenge of fleet design optimization in the context of heterogeneous multi-robot fleets, aiming to obtain feasible designs that balance performance and costs. In the domain of autonomous multi-robot exploration, reinforcement learning agents play a central role, offering adaptability to complex terrains and facilitating collaboration among robots. However, modifying the fleet composition results in changes in the learned behavior, and training multi-robot systems using multi-agent reinforcement learning is expensive. Therefore, an exhaustive evaluation of each potential fleet design is infeasible. To tackle these hurdles, we introduce Bayesian Optimization for Fleet Design (BOFD), a framework leveraging multi-objective Bayesian Optimization to explore fleets on the Pareto front of performance and cost while accounting for uncertainty in the design space. Moreover, we establish a sub-linear bound for cumulative regret, supporting BOFD's robustness and efficacy. Extensive benchmark experiments in synthetic and simulated environments demonstrate the superiority of our framework over state-of-the-art methods, achieving efficient fleet designs with minimal fleet evaluations.

Collaborative Robot Arm Inserting Nasopharyngeal Swabs with Admittance Control

分类： 机器人技术, 系统与控制, 系统与控制

作者： Peter Q. Lee, John S. Zelek, Katja Mombaur

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11688v1

摘要： The nasopharyngeal (NP) swab sample test, commonly used to detect COVID-19 and other respiratory illnesses, involves moving a swab through the nasal cavity to collect samples from the nasopharynx. While typically this is done by human healthcare workers, there is a significant societal interest to enable robots to do this test to reduce exposure to patients and to free up human resources. The task is challenging from the robotics perspective because of the dexterity and safety requirements. While other works have implemented specific hardware solutions, our research differentiates itself by using a ubiquitous rigid robotic arm. This work presents a case study where we investigate the strengths and challenges using compliant control system to accomplish NP swab tests with such a robotic configuration. To accomplish this, we designed a force sensing end-effector that integrates with the proposed torque controlled compliant control loop. We then conducted experiments where the robot inserted NP swabs into a 3D printed nasal cavity phantom. Ultimately, we found that the compliant control system outperformed a basic position controller and shows promise for human use. However, further efforts are needed to ensure the initial alignment with the nostril and to address head motion.

Online state vector reduction during model predictive control with gradient-based trajectory optimisation

分类： 机器人技术

作者： David Russell, Rafael Papallas, Mehmet Dogar

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11665v1

摘要： Non-prehensile manipulation in high-dimensional systems is challenging for a variety of reasons, one of the main reasons is the computationally long planning times that come with a large state space. Trajectory optimisation algorithms have proved their utility in a wide variety of tasks, but, like most methods struggle scaling to the high dimensional systems ubiquitous to non-prehensile manipulation in clutter as well as deformable object manipulation. We reason that, during manipulation, different degrees of freedom will become more or less important to the task over time as the system evolves. We leverage this idea to reduce the number of degrees of freedom considered in a trajectory optimisation problem, to reduce planning times. This idea is particularly relevant in the context of model predictive control (MPC) where the cost landscape of the optimisation problem is constantly evolving. We provide simulation results under asynchronous MPC and show our methods are capable of achieving better overall performance due to the decreased policy lag whilst still being able to optimise trajectories effectively.

Enhanced Visual SLAM for Collision-free Driving with Lightweight Autonomous Cars

分类： 机器人技术, 系统与控制, 系统与控制

作者： Zhihao Lin, Zhen Tian, Qi Zhang, Hanyang Zhuang, Jianglin Lan

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11582v1

摘要： The paper presents a vision-based obstacle avoidance strategy for lightweight self-driving cars that can be run on a CPU-only device using a single RGB-D camera. The method consists of two steps: visual perception and path planning. The visual perception part uses ORBSLAM3 enhanced with optical flow to estimate the car's poses and extract rich texture information from the scene. In the path planning phase, we employ a method combining a control Lyapunov function and control barrier function in the form of quadratic program (CLF-CBF-QP) together with an obstacle shape reconstruction process (SRP) to plan safe and stable trajectories. To validate the performance and robustness of the proposed method, simulation experiments were conducted with a car in various complex indoor environments using the Gazebo simulation environment. Our method can effectively avoid obstacles in the scenes. The proposed algorithm outperforms benchmark algorithms in achieving more stable and shorter trajectories across multiple simulated scenes.

RaNDT SLAM: Radar SLAM Based on Intensity-Augmented Normal Distributions Transform

分类： 机器人技术, 计算机视觉和模式识别, 信号处理

作者： Maximilian Hilger, Nils Mandischer, Burkhard Corves

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11576v1

摘要： Rescue robotics sets high requirements to perception algorithms due to the unstructured and potentially vision-denied environments. Pivoting Frequency-Modulated Continuous Wave radars are an emerging sensing modality for SLAM in this kind of environment. However, the complex noise characteristics of radar SLAM makes, particularly indoor, applications computationally demanding and slow. In this work, we introduce a novel radar SLAM framework, RaNDT SLAM, that operates fast and generates accurate robot trajectories. The method is based on the Normal Distributions Transform augmented by radar intensity measures. Motion estimation is based on fusion of motion model, IMU data, and registration of the intensity-augmented Normal Distributions Transform. We evaluate RaNDT SLAM in a new benchmark dataset and the Oxford Radar RobotCar dataset. The new dataset contains indoor and outdoor environments besides multiple sensing modalities (LiDAR, radar, and IMU).

A Survey of Embodied Learning for Object-Centric Robotic Manipulation

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Ying Zheng, Lei Yao, Yuejiao Su, Yi Zhang, Yi Wang, Sicheng Zhao, Yiyi Zhang, Lap-Pui Chau

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11537v1

摘要： Embodied learning for object-centric robotic manipulation is a rapidly developing and challenging area in embodied AI. It is crucial for advancing next-generation intelligent robots and has garnered significant interest recently. Unlike data-driven machine learning methods, embodied learning focuses on robot learning through physical interaction with the environment and perceptual feedback, making it especially suitable for robotic manipulation. In this paper, we provide a comprehensive survey of the latest advancements in this field and categorize the existing work into three main branches: 1) Embodied perceptual learning, which aims to predict object pose and affordance through various data representations; 2) Embodied policy learning, which focuses on generating optimal robotic decisions using methods such as reinforcement learning and imitation learning; 3) Embodied task-oriented learning, designed to optimize the robot's performance based on the characteristics of different tasks in object grasping and manipulation. In addition, we offer an overview and discussion of public datasets, evaluation metrics, representative applications, current challenges, and potential future research directions. A project associated with this survey has been established at https://github.com/RayYoh/OCRM_survey.

Long-Range Vision-Based UAV-assisted Localization for Unmanned Surface Vehicles

分类： 机器人技术, 人工智能

作者： Waseem Akram, Siyuan Yang, Hailiang Kuang, Xiaoyu He, Muhayy Ud Din, Yihao Dong, Defu Lin, Lakmal Seneviratne, Shaoming He, Irfan Hussain

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11429v1

摘要： The global positioning system (GPS) has become an indispensable navigation method for field operations with unmanned surface vehicles (USVs) in marine environments. However, GPS may not always be available outdoors because it is vulnerable to natural interference and malicious jamming attacks. Thus, an alternative navigation system is required when the use of GPS is restricted or prohibited. To this end, we present a novel method that utilizes an Unmanned Aerial Vehicle (UAV) to assist in localizing USVs in GNSS-restricted marine environments. In our approach, the UAV flies along the shoreline at a consistent altitude, continuously tracking and detecting the USV using a deep learning-based approach on camera images. Subsequently, triangulation techniques are applied to estimate the USV's position relative to the UAV, utilizing geometric information and datalink range from the UAV. We propose adjusting the UAV's camera angle based on the pixel error between the USV and the image center throughout the localization process to enhance accuracy. Additionally, visual measurements are integrated into an Extended Kalman Filter (EKF) for robust state estimation. To validate our proposed method, we utilize a USV equipped with onboard sensors and a UAV equipped with a camera. A heterogeneous robotic interface is established to facilitate communication between the USV and UAV. We demonstrate the efficacy of our approach through a series of experiments conducted during the ``Muhammad Bin Zayed International Robotic Challenge (MBZIRC-2024)'' in real marine environments, incorporating noisy measurements and ocean disturbances. The successful outcomes indicate the potential of our method to complement GPS for USV navigation.

AS-LIO: Spatial Overlap Guided Adaptive Sliding Window LiDAR-Inertial Odometry for Aggressive FOV Variation

分类： 机器人技术

作者： Tianxiang Zhang, Xuanxuan Zhang, Zongbo Liao, Xin Xia, You Li

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11426v1

摘要： LiDAR-Inertial Odometry (LIO) demonstrates outstanding accuracy and stability in general low-speed and smooth motion scenarios. However, in high-speed and intense motion scenarios, such as sharp turns, two primary challenges arise: firstly, due to the limitations of IMU frequency, the error in estimating significantly non-linear motion states escalates; secondly, drastic changes in the Field of View (FOV) may diminish the spatial overlap between LiDAR frame and pointcloud map (or between frames), leading to insufficient data association and constraint degradation. To address these issues, we propose a novel Adaptive Sliding window LIO framework (AS-LIO) guided by the Spatial Overlap Degree (SOD). Initially, we assess the SOD between the LiDAR frames and the registered map, directly evaluating the adverse impact of current FOV variation on pointcloud alignment. Subsequently, we design an adaptive sliding window to manage the continuous LiDAR stream and control state updates, dynamically adjusting the update step according to the SOD. This strategy enables our odometry to adaptively adopt higher update frequency to precisely characterize trajectory during aggressive FOV variation, thus effectively reducing the non-linear error in positioning. Meanwhile, the historical constraints within the sliding window reinforce the frame-to-map data association, ensuring the robustness of state estimation. Experiments show that our AS-LIO framework can quickly perceive and respond to challenging FOV change, outperforming other state-of-the-art LIO frameworks in terms of accuracy and robustness.

Subgoal-based Hierarchical Reinforcement Learning for Multi-Agent Collaboration

分类： 多代理系统, 机器人技术

作者： Cheng Xu, Changtian Zhang, Yuchen Shi, Ran Wang, Shihong Duan, Yadong Wan, Xiaotong Zhang

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11416v1

摘要： Recent advancements in reinforcement learning have made significant impacts across various domains, yet they often struggle in complex multi-agent environments due to issues like algorithm instability, low sampling efficiency, and the challenges of exploration and dimensionality explosion. Hierarchical reinforcement learning (HRL) offers a structured approach to decompose complex tasks into simpler sub-tasks, which is promising for multi-agent settings. This paper advances the field by introducing a hierarchical architecture that autonomously generates effective subgoals without explicit constraints, enhancing both flexibility and stability in training. We propose a dynamic goal generation strategy that adapts based on environmental changes. This method significantly improves the adaptability and sample efficiency of the learning process. Furthermore, we address the critical issue of credit assignment in multi-agent systems by synergizing our hierarchical architecture with a modified QMIX network, thus improving overall strategy coordination and efficiency. Comparative experiments with mainstream reinforcement learning algorithms demonstrate the superior convergence speed and performance of our approach in both single-agent and multi-agent environments, confirming its effectiveness and flexibility in complex scenarios. Our code is open-sourced at: \url{https://github.com/SICC-Group/GMAH}.

Reflex-Based Open-Vocabulary Navigation without Prior Knowledge Using Omnidirectional Camera and Multiple Vision-Language Models

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Kento Kawaharazuka, Yoshiki Obinata, Naoaki Kanazawa, Naoto Tsukamoto, Kei Okada, Masayuki Inaba

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11380v1

摘要： Various robot navigation methods have been developed, but they are mainly based on Simultaneous Localization and Mapping (SLAM), reinforcement learning, etc., which require prior map construction or learning. In this study, we consider the simplest method that does not require any map construction or learning, and execute open-vocabulary navigation of robots without any prior knowledge to do this. We applied an omnidirectional camera and pre-trained vision-language models to the robot. The omnidirectional camera provides a uniform view of the surroundings, thus eliminating the need for complicated exploratory behaviors including trajectory generation. By applying multiple pre-trained vision-language models to this omnidirectional image and incorporating reflective behaviors, we show that navigation becomes simple and does not require any prior setup. Interesting properties and limitations of our method are discussed based on experiments with the mobile robot Fetch.

Deep Reinforcement Learning for Decentralized Multi-Robot Control: A DQN Approach to Robustness and Information Integration

分类： 机器人技术, 多代理系统

作者： Bin Wu, C Steve Suh

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11339v1

摘要： The superiority of Multi-Robot Systems (MRS) in various complex environments is unquestionable. However, in complex situations such as search and rescue, environmental monitoring, and automated production, robots are often required to work collaboratively without a central control unit. This necessitates an efficient and robust decentralized control mechanism to process local information and guide the robots' behavior. In this work, we propose a new decentralized controller design method that utilizes the Deep Q-Network (DQN) algorithm from deep reinforcement learning, aimed at improving the integration of local information and robustness of multi-robot systems. The designed controller allows each robot to make decisions independently based on its local observations while enhancing the overall system's collaborative efficiency and adaptability to dynamic environments through a shared learning mechanism. Through testing in simulated environments, we have demonstrated the effectiveness of this controller in improving task execution efficiency, strengthening system fault tolerance, and enhancing adaptability to the environment. Furthermore, we explored the impact of DQN parameter tuning on system performance, providing insights for further optimization of the controller design. Our research not only showcases the potential application of the DQN algorithm in the decentralized control of multi-robot systems but also offers a new perspective on how to enhance the overall performance and robustness of the system through the integration of local information.

ViIK: Flow-based Vision Inverse Kinematics Solver with Fusing Collision Checking

分类： 机器人技术, 机器学习

作者： Qinglong Meng, Chongkun Xia, Xueqian Wang

发布时间： 2024-08-21

链接： http://arxiv.org/abs/2408.11293v1

摘要： Inverse Kinematics (IK) is to find the robot's configurations that satisfy the target pose of the end effector. In motion planning, diverse configurations were required in case a feasible trajectory was not found. Meanwhile, collision checking (CC), e.g. Oriented bounding box (OBB), Discrete Oriented Polytope (DOP), and Quickhull \cite{quickhull}, needs to be done for each configuration provided by the IK solver to ensure every goal configuration for motion planning is available. This means the classical IK solver and CC algorithm should be executed repeatedly for every configuration. Thus, the preparation time is long when the required number of goal configurations is large, e.g. motion planning in cluster environments. Moreover, structured maps, which might be difficult to obtain, were required by classical collision-checking algorithms. To sidestep such two issues, we propose a flow-based vision method that can output diverse available configurations by fusing inverse kinematics and collision checking, named Vision Inverse Kinematics solver (ViIK). Moreover, ViIK uses RGB images as the perception of environments. ViIK can output 1000 configurations within 40 ms, and the accuracy is about 3 millimeters and 1.5 degrees. The higher accuracy can be obtained by being refined by the classical IK solver within a few iterations. The self-collision rates can be lower than 2%. The collision-with-env rates can be lower than 10% in most scenes. The code is available at: https://github.com/AdamQLMeng/ViIK.

Newton-Raphson Flow for Aggressive Quadrotor Tracking Control

分类： 机器人技术, 系统与控制, 系统与控制

作者： Evanns Morales-Cuadrado, Christian Llanes, Yorai Wardi, Samuel Coogan

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.11197v1

摘要： We apply the Newton-Raphson flow tracking controller to aggressive quadrotor flight and demonstrate that it achieves good tracking performance over a suite of benchmark trajectories, beating the native trajectory tracking controller in the popular PX4 Autopilot. The Newton-Raphson flow tracking controller is a recently proposed integrator-type controller that aims to drive to zero the error between a future predicted system output and the reference trajectory. This controller is computationally lightweight, requiring only an imprecise predictor, and achieves guaranteed asymptotic error bounds under certain conditions. We show that these theoretical advantages are realizable on a quadrotor hardware platform. Our experiments are conducted on a Holybrox x500v2 quadrotor using a Pixhawk 6x flight controller and a Rasbperry Pi 4 companion computer which receives location information from an OptiTrack motion capture system and sends input commands through the ROS2 API for the PX4 software stack.

Optimization of Multi-Agent Flying Sidekick Traveling Salesman Problem over Road Networks

分类： 机器人技术, 人工智能, 多代理系统

作者： Ruixiao Yang, Chuchu Fan

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.11187v1

摘要： The mixed truck-drone delivery systems have attracted increasing attention for last-mile logistics, but real-world complexities demand a shift from single-agent, fully connected graph models to multi-agent systems operating on actual road networks. We introduce the multi-agent flying sidekick traveling salesman problem (MA-FSTSP) on road networks, extending the single truck-drone model to multiple trucks, each carrying multiple drones while considering full road networks for truck restrictions and flexible drone routes. We propose a mixed-integer linear programming model and an efficient three-phase heuristic algorithm for this NP-hard problem. Our approach decomposes MA-FSTSP into manageable subproblems of one truck with multiple drones. Then, it computes the routes for trucks without drones in subproblems, which are used in the final phase as heuristics to help optimize drone and truck routes simultaneously. Extensive numerical experiments on Manhattan and Boston road networks demonstrate our algorithm's superior effectiveness and efficiency, significantly outperforming both column generation and variable neighborhood search baselines in solution quality and computation time. Notably, our approach scales to more than 300 customers within a 5-minute time limit, showcasing its potential for large-scale, real-world logistics applications.

Range-based Multi-Robot Integrity Monitoring Against Cyberattacks and Faults: An Anchor-Free Approach

分类： 机器人技术

作者： Vishnu Vijay, Kartik A. Pant, Minhyun Cho, Yifan Guo, James M. Goppert, Inseok Hwang

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.11155v1

摘要： Coordination of multi-robot systems (MRSs) relies on efficient sensing and reliable communication among the robots. However, the sensors and communication channels of these robots are often vulnerable to cyberattacks and faults, which can disrupt their individual behavior and the overall objective of the MRS. In this work, we present a multi-robot integrity monitoring framework that utilizes inter-robot range measurements to (i) detect the presence of cyberattacks or faults affecting the MRS, (ii) identify the affected robot(s), and (iii) reconstruct the resulting localization error of these robot(s). The proposed iterative algorithm leverages sequential convex programming and alternating direction of multipliers method to enable real-time and distributed implementation. Our approach is validated using numerical simulations and demonstrated using PX4-SiTL in Gazebo on an MRS, where certain agents deviate from their desired position due to a GNSS spoofing attack. Furthermore, we demonstrate the scalability and interoperability of our algorithm through mixed-reality experiments by forming a heterogeneous MRS comprising real Crazyflie UAVs and virtual PX4-SiTL UAVs working in tandem.

Target-Oriented Object Grasping via Multimodal Human Guidance

分类： 机器人技术, 计算机视觉和模式识别

作者： Pengwei Xie, Siang Chen, Dingchang Hu, Yixiang Dai, Kaiqin Yang, Guijin Wang

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.11138v1

摘要： In the context of human-robot interaction and collaboration scenarios, robotic grasping still encounters numerous challenges. Traditional grasp detection methods generally analyze the entire scene to predict grasps, leading to redundancy and inefficiency. In this work, we reconsider 6-DoF grasp detection from a target-referenced perspective and propose a Target-Oriented Grasp Network (TOGNet). TOGNet specifically targets local, object-agnostic region patches to predict grasps more efficiently. It integrates seamlessly with multimodal human guidance, including language instructions, pointing gestures, and interactive clicks. Thus our system comprises two primary functional modules: a guidance module that identifies the target object in 3D space and TOGNet, which detects region-focal 6-DoF grasps around the target, facilitating subsequent motion planning. Through 50 target-grasping simulation experiments in cluttered scenes, our system achieves a success rate improvement of about 13.7%. In real-world experiments, we demonstrate that our method excels in various target-oriented grasping scenarios.

FLAME: Learning to Navigate with Multimodal LLM in Urban Environments

分类： 计算机视觉和模式识别, 人工智能, 计算和语言, 机器人技术

作者： Yunzhe Xu, Yiyuan Pan, Zhe Liu, Hesheng Wang

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.11051v1

摘要： Large Language Models (LLMs) have demonstrated potential in Vision-and-Language Navigation (VLN) tasks, yet current applications face challenges. While LLMs excel in general conversation scenarios, they struggle with specialized navigation tasks, yielding suboptimal performance compared to specialized VLN models. We introduce FLAME (FLAMingo-Architected Embodied Agent), a novel Multimodal LLM-based agent and architecture designed for urban VLN tasks that efficiently handles multiple observations. Our approach implements a three-phase tuning technique for effective adaptation to navigation tasks, including single perception tuning for street view description, multiple perception tuning for trajectory summarization, and end-to-end training on VLN datasets. The augmented datasets are synthesized automatically. Experimental results demonstrate FLAME's superiority over existing methods, surpassing state-of-the-art methods by a 7.3% increase in task completion rate on Touchdown dataset. This work showcases the potential of Multimodal LLMs (MLLMs) in complex navigation tasks, representing an advancement towards practical applications of MLLMs in embodied AI. Project page: https://flame-sjtu.github.io

RP1M: A Large-Scale Motion Dataset for Piano Playing with Bi-Manual Dexterous Robot Hands

分类： 机器人技术, 人工智能, 机器学习

作者： Yi Zhao, Le Chen, Jan Schneider, Quankai Gao, Juho Kannala, Bernhard Schölkopf, Joni Pajarinen, Dieter Büchler

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.11048v1

摘要： It has been a long-standing research goal to endow robot hands with human-level dexterity. Bi-manual robot piano playing constitutes a task that combines challenges from dynamic tasks, such as generating fast while precise motions, with slower but contact-rich manipulation problems. Although reinforcement learning based approaches have shown promising results in single-task performance, these methods struggle in a multi-song setting. Our work aims to close this gap and, thereby, enable imitation learning approaches for robot piano playing at scale. To this end, we introduce the Robot Piano 1 Million (RP1M) dataset, containing bi-manual robot piano playing motion data of more than one million trajectories. We formulate finger placements as an optimal transport problem, thus, enabling automatic annotation of vast amounts of unlabeled songs. Benchmarking existing imitation learning approaches shows that such approaches reach state-of-the-art robot piano playing performance by leveraging RP1M.

Evaluating Assistive Technologies on a Trade Fair: Methodological Overview and Lessons Learned

分类： 人机交互, 机器人技术

作者： Annalies Baumeister, Felix Goldau, Max Pascher, Jens Gerken, Udo Frese, Patrizia Tolle

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10933v1

摘要： User-centered evaluations are a core requirement in the development of new user related technologies. However, it is often difficult to recruit sufficient participants, especially if the target population is small, particularly busy, or in some way restricted in their mobility. We bypassed these problems by conducting studies on trade fairs that were specifically designed for our target population (potentially care-receiving individuals in wheelchairs) and therefore provided our users with external incentive to attend our study. This paper presents our gathered experiences, including methodological specifications and lessons learned, and is aimed to guide other researchers with conducting similar studies. In addition, we also discuss chances generated by this unconventional study environment as well as its limitations.

Enhancing End-to-End Autonomous Driving Systems Through Synchronized Human Behavior Data

分类： 机器人技术, 人机交互

作者： Yiqun Duan, Zhuoli Zhuang, Jinzhao Zhou, Yu-Cheng Chang, Yu-Kai Wang, Chin-Teng Lin

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10908v1

摘要： This paper presents a pioneering exploration into the integration of fine-grained human supervision within the autonomous driving domain to enhance system performance. The current advances in End-to-End autonomous driving normally are data-driven and rely on given expert trials. However, this reliance limits the systems' generalizability and their ability to earn human trust. Addressing this gap, our research introduces a novel approach by synchronously collecting data from human and machine drivers under identical driving scenarios, focusing on eye-tracking and brainwave data to guide machine perception and decision-making processes. This paper utilizes the Carla simulation to evaluate the impact brought by human behavior guidance. Experimental results show that using human attention to guide machine attention could bring a significant improvement in driving performance. However, guidance by human intention still remains a challenge. This paper pioneers a promising direction and potential for utilizing human behavior guidance to enhance autonomous systems.

All Robots in One: A New Standard and Unified Dataset for Versatile, General-Purpose Embodied Agents

分类： 机器人技术

作者： Zhiqiang Wang, Hao Zheng, Yunshuang Nie, Wenjun Xu, Qingwei Wang, Hua Ye, Zhe Li, Kaidong Zhang, Xuewen Cheng, Wanxi Dong, Chang Cai, Liang Lin, Feng Zheng, Xiaodan Liang

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10899v1

摘要： Embodied AI is transforming how AI systems interact with the physical world, yet existing datasets are inadequate for developing versatile, general-purpose agents. These limitations include a lack of standardized formats, insufficient data diversity, and inadequate data volume. To address these issues, we introduce ARIO (All Robots In One), a new data standard that enhances existing datasets by offering a unified data format, comprehensive sensory modalities, and a combination of real-world and simulated data. ARIO aims to improve the training of embodied AI agents, increasing their robustness and adaptability across various tasks and environments. Building upon the proposed new standard, we present a large-scale unified ARIO dataset, comprising approximately 3 million episodes collected from 258 series and 321,064 tasks. The ARIO standard and dataset represent a significant step towards bridging the gaps of existing data resources. By providing a cohesive framework for data collection and representation, ARIO paves the way for the development of more powerful and versatile embodied AI agents, capable of navigating and interacting with the physical world in increasingly complex and diverse ways. The project is available on https://imaei.github.io/project_pages/ario/

A Mini-Review on Mobile Manipulators with Variable Autonomy

分类： 机器人技术

作者： Cesar Alan Contreras, Alireza Rastegarpanah, Rustam Stolkin, Manolis Chiou

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10887v1

摘要： This paper presents a mini-review of the current state of research in mobile manipulators with variable levels of autonomy, emphasizing their associated challenges and application environments. The need for mobile manipulators in different environments is evident due to the unique challenges and risks each presents. Many systems deployed in these environments are not fully autonomous, requiring human-robot teaming to ensure safe and reliable operations under uncertainties. Through this analysis, we identify gaps and challenges in the literature on Variable Autonomy, including cognitive workload and communication delays, and propose future directions, including whole-body Variable Autonomy for mobile manipulators, virtual reality frameworks, and large language models to reduce operators' complexity and cognitive load in some challenging and uncertain scenarios.

DVRP-MHSI: Dynamic Visualization Research Platform for Multimodal Human-Swarm Interaction

分类： 机器人技术, 人机交互

作者： Pengming Zhu, Zhiwen Zeng, Weijia Yao, Wei Dai, Huimin Lu, Zongtan Zhou

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10861v1

摘要： In recent years, there has been a significant amount of research on algorithms and control methods for distributed collaborative robots. However, the emergence of collective behavior in a swarm is still difficult to predict and control. Nevertheless, human interaction with the swarm helps render the swarm more predictable and controllable, as human operators can utilize intuition or knowledge that is not always available to the swarm. Therefore, this paper designs the Dynamic Visualization Research Platform for Multimodal Human-Swarm Interaction (DVRP-MHSI), which is an innovative open system that can perform real-time dynamic visualization and is specifically designed to accommodate a multitude of interaction modalities (such as brain-computer, eye-tracking, electromyographic, and touch-based interfaces), thereby expediting progress in human-swarm interaction research. Specifically, the platform consists of custom-made low-cost omnidirectional wheeled mobile robots, multitouch screens and two workstations. In particular, the mutitouch screens can recognize human gestures and the shapes of objects placed on them, and they can also dynamically render diverse scenes. One of the workstations processes communication information within robots and the other one implements human-robot interaction methods. The development of DVRP-MHSI frees researchers from hardware or software details and allows them to focus on versatile swarm algorithms and human-swarm interaction methods without being limited to fixed scenarios, tasks, and interfaces. The effectiveness and potential of the platform for human-swarm interaction studies are validated by several demonstrative experiments.

ZebraPose: Zebra Detection and Pose Estimation using only Synthetic Data

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Elia Bonetto, Aamir Ahmad

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10831v1

摘要： Synthetic data is increasingly being used to address the lack of labeled images in uncommon domains for deep learning tasks. A prominent example is 2D pose estimation of animals, particularly wild species like zebras, for which collecting real-world data is complex and impractical. However, many approaches still require real images, consistency and style constraints, sophisticated animal models, and/or powerful pre-trained networks to bridge the syn-to-real gap. Moreover, they often assume that the animal can be reliably detected in images or videos, a hypothesis that often does not hold, e.g. in wildlife scenarios or aerial images. To solve this, we use synthetic data generated with a 3D photorealistic simulator to obtain the first synthetic dataset that can be used for both detection and 2D pose estimation of zebras without applying any of the aforementioned bridging strategies. Unlike previous works, we extensively train and benchmark our detection and 2D pose estimation models on multiple real-world and synthetic datasets using both pre-trained and non-pre-trained backbones. These experiments show how the models trained from scratch and only with synthetic data can consistently generalize to real-world images of zebras in both tasks. Moreover, we show it is possible to easily generalize those same models to 2D pose estimation of horses with a minimal amount of real-world images to account for the domain transfer. Code, results, trained models; and the synthetic, training, and validation data, including 104K manually labeled frames, are provided as open-source at https://zebrapose.is.tue.mpg.de/

Towards reliable real-time trajectory optimization

分类： 机器人技术, 系统与控制, 系统与控制

作者： Fatemeh Rastgar

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10731v1

摘要： Motion planning is a key aspect of robotics. A common approach to address motion planning problems is trajectory optimization. Trajectory optimization can represent the high-level behaviors of robots through mathematical formulations. However, current trajectory optimization approaches have two main challenges. Firstly, their solution heavily depends on the initial guess, and they are prone to get stuck in local minima. Secondly, they face scalability limitations by increasing the number of constraints. This thesis endeavors to tackle these challenges by introducing four innovative trajectory optimization algorithms to improve reliability, scalability, and computational efficiency. There are two novel aspects of the proposed algorithms. The first key innovation is remodeling the kinematic constraints and collision avoidance constraints. Another key innovation lies in the design of algorithms that effectively utilize parallel computation on GPU accelerators. By using reformulated constraints and leveraging the computational power of GPUs, the proposed algorithms of this thesis demonstrate significant improvements in efficiency and scalability compared to the existing methods. Parallelization enables faster computation times, allowing for real-time decision-making in dynamic environments. Moreover, the algorithms are designed to adapt to changes in the environment, ensuring robust performance. Extensive benchmarking for each proposed optimizer validates their efficacy. Overall, this thesis makes a significant contribution to the field of trajectory optimization algorithms. It introduces innovative solutions that specifically address the challenges faced by existing methods. The proposed algorithms pave the way for more efficient and robust motion planning solutions in robotics by leveraging parallel computation and specific mathematical structures.

Learning Instruction-Guided Manipulation Affordance via Large Models for Embodied Robotic Tasks

分类： 机器人技术

作者： Dayou Li, Chenkun Zhao, Shuo Yang, Lin Ma, Yibin Li, Wei Zhang

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10658v1

摘要： We study the task of language instruction-guided robotic manipulation, in which an embodied robot is supposed to manipulate the target objects based on the language instructions. In previous studies, the predicted manipulation regions of the target object typically do not change with specification from the language instructions, which means that the language perception and manipulation prediction are separate. However, in human behavioral patterns, the manipulation regions of the same object will change for different language instructions. In this paper, we propose Instruction-Guided Affordance Net (IGANet) for predicting affordance maps of instruction-guided robotic manipulation tasks by utilizing powerful priors from vision and language encoders pre-trained on large-scale datasets. We develop a Vison-Language-Models(VLMs)-based data augmentation pipeline, which can generate a large amount of data automatically for model training. Besides, with the help of Large-Language-Models(LLMs), actions can be effectively executed to finish the tasks defined by instructions. A series of real-world experiments revealed that our method can achieve better performance with generated data. Moreover, our model can generalize better to scenarios with unseen objects and language instructions.

Safety Metric Aware Trajectory Repairing for Automated Driving

分类： 机器人技术

作者： Kailin Tong, Berin Dikic, Wenbo Xiao, Martin Steinberger, Martin Horn, Selim Solmaz

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10622v1

摘要： Recent analyses highlight challenges in autonomous vehicle technologies, particularly failures in decision-making under dynamic or emergency conditions. Traditional automated driving systems recalculate the entire trajectory in a changing environment. Instead, a novel approach retains valid trajectory segments, minimizing the need for complete replanning and reducing changes to the original plan. This work introduces a trajectory repairing framework that calculates a feasible evasive trajectory while computing the Feasible Time-to-React (F-TTR), balancing the maintenance of the original plan with safety assurance. The framework employs a binary search algorithm to iteratively create repaired trajectories, guaranteeing both the safety and feasibility of the trajectory repairing result. In contrast to earlier approaches that separated the calculation of safety metrics from trajectory repairing, which resulted in unsuccessful plans for evasive maneuvers, our work has the anytime capability to provide both a Feasible Time-to-React and an evasive trajectory for further execution.

OMEGA: Efficient Occlusion-Aware Navigation for Air-Ground Robot in Dynamic Environments via State Space Model

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Junming Wang, Dong Huang, Xiuxian Guan, Zekai Sun, Tianxiang Shen, Fangming Liu, Heming Cui

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10618v1

摘要： Air-ground robots (AGRs) are widely used in surveillance and disaster response due to their exceptional mobility and versatility (i.e., flying and driving). Current AGR navigation systems perform well in static occlusion-prone environments (e.g., indoors) by using 3D semantic occupancy networks to predict occlusions for complete local mapping and then computing Euclidean Signed Distance Field (ESDF) for path planning. However, these systems face challenges in dynamic, severe occlusion scenes (e.g., crowds) due to limitations in perception networks' low prediction accuracy and path planners' high computation overhead. In this paper, we propose OMEGA, which contains OccMamba with an Efficient AGR-Planner to address the above-mentioned problems. OccMamba adopts a novel architecture that separates semantic and occupancy prediction into independent branches, incorporating two mamba blocks within these branches. These blocks efficiently extract semantic and geometric features in 3D environments with linear complexity, ensuring that the network can learn long-distance dependencies to improve prediction accuracy. Semantic and geometric features are combined within the Bird's Eye View (BEV) space to minimise computational overhead during feature fusion. The resulting semantic occupancy map is then seamlessly integrated into the local map, providing occlusion awareness of the dynamic environment. Our AGR-Planner utilizes this local map and employs kinodynamic A* search and gradient-based trajectory optimization to guarantee planning is ESDF-free and energy-efficient. Extensive experiments demonstrate that OccMamba outperforms the state-of-the-art 3D semantic occupancy network with 25.0% mIoU. End-to-end navigation experiments in dynamic scenes verify OMEGA's efficiency, achieving a 96% average planning success rate. Code and video are available at https://jmwang0117.github.io/OMEGA/.

Fast Collective Evasion in Self-Localized Swarms of Unmanned Aerial Vehicles

分类： 机器人技术

作者： Filip Novák, Viktor Walter, Pavel Petráček, Tomáš Báča, Martin Saska

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10596v1

摘要： A novel approach for achieving fast evasion in self-localized swarms of Unmanned Aerial Vehicles (UAVs) threatened by an intruding moving object is presented in this paper. Motivated by natural self-organizing systems, the presented approach of fast and collective evasion enables the UAV swarm to avoid dynamic objects (interferers) that are actively approaching the group. The main objective of the proposed technique is the fast and safe escape of the swarm from an interferer ~discovered in proximity. This method is inspired by the collective behavior of groups of certain animals, such as schools of fish or flocks of birds. These animals use the limited information of their sensing organs and decentralized control to achieve reliable and effective group motion. The system presented in this paper is intended to execute the safe coordination of UAV swarms with a large number of agents. Similar to natural swarms, this system propagates a fast shock of information about detected interferers throughout the group to achieve dynamic and collective evasion. The proposed system is fully decentralized using only onboard sensors to mutually localize swarm agents and interferers, similar to how animals accomplish this behavior. As a result, the communication structure between swarm agents is not overwhelmed by information about the state (position and velocity) of each individual and it is reliable to communication dropouts. The proposed system and theory were numerically evaluated and verified in real-world experiments.

Bidirectional Intent Communication: A Role for Large Foundation Models

分类： 机器人技术, 人机交互

作者： Tim Schreiter, Rishi Hazra, Jens Rüppel, Andrey Rudenko

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10589v1

摘要： Integrating multimodal foundation models has significantly enhanced autonomous agents' language comprehension, perception, and planning capabilities. However, while existing works adopt a \emph{task-centric} approach with minimal human interaction, applying these models to developing assistive \emph{user-centric} robots that can interact and cooperate with humans remains underexplored. This paper introduces ``Bident'', a framework designed to integrate robots seamlessly into shared spaces with humans. Bident enhances the interactive experience by incorporating multimodal inputs like speech and user gaze dynamics. Furthermore, Bident supports verbal utterances and physical actions like gestures, making it versatile for bidirectional human-robot interactions. Potential applications include personalized education, where robots can adapt to individual learning styles and paces, and healthcare, where robots can offer personalized support, companionship, and everyday assistance in the home and workplace environments.

A Passivity-Based Variable Impedance Controller for Incremental Learning of Periodic Interactive Tasks

分类： 机器人技术

作者： Matteo Dalle Vedove, Edoardo Lamon, Daniele Fontanelli, Luigi Palopoli, Matteo Saveriano

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10580v1

摘要： In intelligent manufacturing, robots are asked to dynamically adapt their behaviours without reducing productivity. Human teaching, where an operator physically interacts with the robot to demonstrate a new task, is a promising strategy to quickly and intuitively reconfigure the production line. However, physical guidance during task execution poses challenges in terms of both operator safety and system usability. In this paper, we solve this issue by designing a variable impedance control strategy that regulates the interaction with the environment and the physical demonstrations, explicitly preventing at the same time passivity violations. We derive constraints to limit not only the exchanged energy with the environment but also the exchanged power, resulting in smoother interactions. By monitoring the energy flow between the robot and the environment, we are able to distinguish between disturbances (to be rejected) and physical guidance (to be accomplished), enabling smooth and controlled transitions from teaching to execution and vice versa. The effectiveness of the proposed approach is validated in wiping tasks with a real robotic manipulator.

Where to Fetch: Extracting Visual Scene Representation from Large Pre-Trained Models for Robotic Goal Navigation

分类： 机器人技术

作者： Yu Li, Dayou Li, Chenkun Zhao, Ruifeng Wang, Ran Song, Wei Zhang

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10578v1

摘要： To complete a complex task where a robot navigates to a goal object and fetches it, the robot needs to have a good understanding of the instructions and the surrounding environment. Large pre-trained models have shown capabilities to interpret tasks defined via language descriptions. However, previous methods attempting to integrate large pre-trained models with daily tasks are not competent in many robotic goal navigation tasks due to poor understanding of the environment. In this work, we present a visual scene representation built with large-scale visual language models to form a feature representation of the environment capable of handling natural language queries. Combined with large language models, this method can parse language instructions into action sequences for a robot to follow, and accomplish goal navigation with querying the scene representation. Experiments demonstrate that our method enables the robot to follow a wide range of instructions and complete complex goal navigation tasks.

Navigating Dimensionality through State Machines in Automotive System Validation

分类： 机器人技术

作者： Laurenz Adolph, barbara Schütt, David Kraus, Eric Sax

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10569v1

摘要： The increasing automation of vehicles is resulting in the integration of more extensive in-vehicle sensor systems, electronic control units, and software. Additionally, vehicle-to-everything communication is seen as an opportunity to extend automated driving capabilities through information from a source outside the ego vehicle. However, the validation and verification of automated driving functions already pose a challenge due to the number of possible scenarios that can occur for a driving function, which makes it difficult to achieve comprehensive test coverage. Currently, the establishment of Safety Of The Intended Functionality ( SOTIF ) mandates the implementation of scenario-based testing. The introduction of additional external systems through vehicle-to-everything further complicates the problem and increases the scenario space. In this paper, a methodology based on state charts is proposed for modeling the interaction with external systems, which may remain as black boxes. This approach leverages the testability and coverage analysis inherent in state charts by combining them with scenario-based testing. The overall objective is to reduce the space of scenarios necessary for testing a networked driving function and to streamline validation and verification. The utilization of this approach is demonstrated using a simulated signalized intersection with a roadside unit that detects vulnerable road users.

Constrained Behavior Cloning for Robotic Learning

分类： 机器人技术

作者： Wensheng Liang, Jun Xie, Zhicheng Wang, Jianwei Tan, Xiaoguang Ma

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10568v1

摘要： Behavior cloning (BC) is a popular supervised imitation learning method in the societies of robotics, autonomous driving, etc., wherein complex skills can be learned by direct imitation from expert demonstrations. Despite its rapid development, it is still affected by limited field of view where accumulation of sensors and joint noise bring compounding errors. In this paper, we introduced geometrically and historically constrained behavior cloning (GHCBC) to dominantly consider high-level state information inspired by neuroscientists, wherein the geometrically constrained behavior cloning were used to geometrically constrain predicting poses, and the historically constrained behavior cloning were utilized to temporally constrain action sequences. The synergy between these two types of constrains enhanced the BC performance in terms of robustness and stability. Comprehensive experimental results showed that success rates were improved by 29.73% in simulation and 39.4% in real robot experiments in average, respectively, compared to state-of-the-art BC method, especially in long-term operational scenes, indicating great potential of using the GHCBC for robotic learning.

Kalib: Markerless Hand-Eye Calibration with Keypoint Tracking

分类： 机器人技术, 计算机视觉和模式识别

作者： Tutian Tang, Minghao Liu, Wenqiang Xu, Cewu Lu

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10562v1

摘要： Hand-eye calibration involves estimating the transformation between the camera and the robot. Traditional methods rely on fiducial markers, involving much manual labor and careful setup. Recent advancements in deep learning offer markerless techniques, but they present challenges, including the need for retraining networks for each robot, the requirement of accurate mesh models for data generation, and the need to address the sim-to-real gap. In this letter, we propose Kalib, an automatic and universal markerless hand-eye calibration pipeline that leverages the generalizability of visual foundation models to eliminate these barriers. In each calibration process, Kalib uses keypoint tracking and proprioceptive sensors to estimate the transformation between a robot's coordinate space and its corresponding points in camera space. Our method does not require training new networks or access to mesh models. Through evaluations in simulation environments and the real-world dataset DROID, Kalib demonstrates superior accuracy compared to recent baseline methods. This approach provides an effective and flexible calibration process for various robot systems by simplifying setup and removing dependency on precise physical markers.

Leveraging Temporal Contexts to Enhance Vehicle-Infrastructure Cooperative Perception

分类： 机器人技术

作者： Jiaru Zhong, Haibao Yu, Tianyi Zhu, Jiahui Xu, Wenxian Yang, Zaiqing Nie, Chao Sun

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10531v1

摘要： Infrastructure sensors installed at elevated positions offer a broader perception range and encounter fewer occlusions. Integrating both infrastructure and ego-vehicle data through V2X communication, known as vehicle-infrastructure cooperation, has shown considerable advantages in enhancing perception capabilities and addressing corner cases encountered in single-vehicle autonomous driving. However, cooperative perception still faces numerous challenges, including limited communication bandwidth and practical communication interruptions. In this paper, we propose CTCE, a novel framework for cooperative 3D object detection. This framework transmits queries with temporal contexts enhancement, effectively balancing transmission efficiency and performance to accommodate real-world communication conditions. Additionally, we propose a temporal-guided fusion module to further improve performance. The roadside temporal enhancement and vehicle-side spatial-temporal fusion together constitute a multi-level temporal contexts integration mechanism, fully leveraging temporal information to enhance performance. Furthermore, a motion-aware reconstruction module is introduced to recover lost roadside queries due to communication interruptions. Experimental results on V2X-Seq and V2X-Sim datasets demonstrate that CTCE outperforms the baseline QUEST, achieving improvements of 3.8% and 1.3% in mAP, respectively. Experiments under communication interruption conditions validate CTCE's robustness to communication interruptions.

MPGNet: Learning Move-Push-Grasping Synergy for Target-Oriented Grasping in Occluded Scenes

分类： 机器人技术

作者： Dayou Li, Chenkun Zhao, Shuo Yang, Ran Song, Xiaolei Li, Wei Zhang

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10525v1

摘要： This paper focuses on target-oriented grasping in occluded scenes, where the target object is specified by a binary mask and the goal is to grasp the target object with as few robotic manipulations as possible. Most existing methods rely on a push-grasping synergy to complete this task. To deliver a more powerful target-oriented grasping pipeline, we present MPGNet, a three-branch network for learning a synergy between moving, pushing, and grasping actions. We also propose a multi-stage training strategy to train the MPGNet which contains three policy networks corresponding to the three actions. The effectiveness of our method is demonstrated via both simulated and real-world experiments.

Inverse Design of Snap-Actuated Jumping Robots Powered by Mechanics-Aided Machine Learning

分类： 机器人技术

作者： Dezhong Tong, Zhuonan Hao, Mingchao Liu, Weicheng Huang

发布时间： 2024-08-20

链接： http://arxiv.org/abs/2408.10470v1

摘要： Exploring the design and control strategies of soft robots through simulation is highly attractive due to its cost-effectiveness. Although many existing models (e.g., finite element analysis) are effective for simulating soft robotic dynamics, there remains a need for a general and efficient numerical simulation approach in the soft robotics community. In this paper, we develop a discrete differential geometry-based numerical framework to achieve the model-based inverse design of a novel snap-actuated jumping robot. It is found that the dynamic process of a snapping beam can be either symmetric or asymmetric, such that the trajectory of the jumping robot can be tunable (e.g., horizontal or vertical). By employing this novel mechanism of the bistable beam as the robotic actuator, we next propose a physics-data hybrid inverse design strategy for the snap-jump robot with a broad spectrum of jumping capabilities. We first use the physical engine to study the influences of the robot's design parameters on the jumping capabilities, then generate extensive simulation data to formulate a data-driven inverse design solution. The inverse design solution can rapidly explore the combination of design parameters for achieving a target jump, which provides valuable guidance for the fabrication and control of the jumping robot. The proposed methodology paves the way for exploring the design and control insights of soft robots with the help of simulations.

RUMI: Rummaging Using Mutual Information

分类： 机器人技术, 人工智能, I.2.9

作者： Sheng Zhong, Nima Fazeli, Dmitry Berenson

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10450v1

摘要： This paper presents Rummaging Using Mutual Information (RUMI), a method for online generation of robot action sequences to gather information about the pose of a known movable object in visually-occluded environments. Focusing on contact-rich rummaging, our approach leverages mutual information between the object pose distribution and robot trajectory for action planning. From an observed partial point cloud, RUMI deduces the compatible object pose distribution and approximates the mutual information of it with workspace occupancy in real time. Based on this, we develop an information gain cost function and a reachability cost function to keep the object within the robot's reach. These are integrated into a model predictive control (MPC) framework with a stochastic dynamics model, updating the pose distribution in a closed loop. Key contributions include a new belief framework for object pose estimation, an efficient information gain computation strategy, and a robust MPC-based control scheme. RUMI demonstrates superior performance in both simulated and real tasks compared to baseline methods.

A Biologically Inspired Design Principle for Building Robust Robotic Systems

分类： 机器人技术

作者： Xing Li, Oussama Zenkri, Adrian Pfisterer, Oliver Brock

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10192v1

摘要： Robustness, the ability of a system to maintain performance under significant and unanticipated environmental changes, is a critical property for robotic systems. While biological systems naturally exhibit robustness, there is no comprehensive understanding of how to achieve similar robustness in robotic systems. In this work, we draw inspirations from biological systems and propose a design principle that advocates active interconnections among system components to enhance robustness to environmental variations. We evaluate this design principle in a challenging long-horizon manipulation task: solving lockboxes. Our extensive simulated and real-world experiments demonstrate that we could enhance robustness against environmental changes by establishing active interconnections among system components without substantial changes in individual components. Our findings suggest that a systematic investigation of design principles in system building is necessary. It also advocates for interdisciplinary collaborations to explore and evaluate additional principles of biological robustness to advance the development of intelligent and adaptable robotic systems.

Perfectly Undetectable Reflection and Scaling False Data Injection Attacks via Affine Transformation on Mobile Robot Trajectory Tracking Control

分类： 机器人技术, 系统与控制, 系统与控制

作者： Jun Ueda, Hyukbin Kwon

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10177v1

摘要： With the increasing integration of cyber-physical systems (CPS) into critical applications, ensuring their resilience against cyberattacks is paramount. A particularly concerning threat is the vulnerability of CPS to deceptive attacks that degrade system performance while remaining undetected. This paper investigates perfectly undetectable false data injection attacks (FDIAs) targeting the trajectory tracking control of a non-holonomic mobile robot. The proposed attack method utilizes affine transformations of intercepted signals, exploiting weaknesses inherent in the partially linear dynamic properties and symmetry of the nonlinear plant. The feasibility and potential impact of these attacks are validated through experiments using a Turtlebot 3 platform, highlighting the urgent need for sophisticated detection mechanisms and resilient control strategies to safeguard CPS against such threats. Furthermore, a novel approach for detection of these attacks called the state monitoring signature function (SMSF) is introduced. An example SMSF, a carefully designed function resilient to FDIA, is shown to be able to detect the presence of a FDIA through signatures based on systems states.

Don't Get Stuck: A Deadlock Recovery Approach

分类： 机器人技术

作者： Francesca Baldini, Faizan M. Tariq, Sangjae Bae, David Isele

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10167v1

摘要： When multiple agents share space, interactions can lead to deadlocks, where no agent can advance towards its goal. This paper addresses this challenge with a deadlock recovery strategy. In particular, the proposed algorithm integrates hybrid-A$^\star$, STL, and MPPI frameworks. Specifically, hybrid-A$^\star$ generates a reference path, STL defines a goal (deadlock avoidance) and associated constraints (w.r.t. traffic rules), and MPPI refines the path and speed accordingly. This STL-MPPI framework ensures system compliance to specifications and dynamics while ensuring the safety of the resulting maneuvers, indicating a strong potential for application to complex traffic scenarios (and rules) in practice. Validation studies are conducted in simulations and on scaled cars, respectively, to demonstrate the effectiveness of the proposed algorithm.

Towards UAV-USV Collaboration in Harsh Maritime Conditions Including Large Waves

分类： 机器人技术

作者： Filip Novák, Tomáš Báča, Ondřej Procházka, Martin Saska

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10163v1

摘要： This paper introduces a system designed for tight collaboration between Unmanned Aerial Vehicles (UAVs) and Unmanned Surface Vehicles (USVs) in harsh maritime conditions characterized by large waves. This onboard UAV system aims to enhance collaboration with USVs for following and landing tasks under such challenging conditions. The main contribution of our system is the novel mathematical USV model, describing the movement of the USV in 6 degrees of freedom on a wavy water surface, which is used to estimate and predict USV states. The estimator fuses data from multiple global and onboard sensors, ensuring accurate USV state estimation. The predictor computes future USV states using the novel mathematical USV model and the last estimated states. The estimated and predicted USV states are forwarded into a trajectory planner that generates a UAV trajectory for following the USV or landing on its deck, even in harsh environmental conditions. The proposed approach was verified in numerous simulations and deployed to the real world, where the UAV was able to follow the USV and land on its deck repeatedly.

Physics-Aware Combinatorial Assembly Planning using Deep Reinforcement Learning

分类： 机器人技术, 机器学习

作者： Ruixuan Liu, Alan Chen, Weiye Zhao, Changliu Liu

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10162v1

摘要： Combinatorial assembly uses standardized unit primitives to build objects that satisfy user specifications. Lego is a widely used platform for combinatorial assembly, in which people use unit primitives (ie Lego bricks) to build highly customizable 3D objects. This paper studies sequence planning for physical combinatorial assembly using Lego. Given the shape of the desired object, we want to find a sequence of actions for placing Lego bricks to build the target object. In particular, we aim to ensure the planned assembly sequence is physically executable. However, assembly sequence planning (ASP) for combinatorial assembly is particularly challenging due to its combinatorial nature, ie the vast number of possible combinations and complex constraints. To address the challenges, we employ deep reinforcement learning to learn a construction policy for placing unit primitives sequentially to build the desired object. Specifically, we design an online physics-aware action mask that efficiently filters out invalid actions and guides policy learning. In the end, we demonstrate that the proposed method successfully plans physically valid assembly sequences for constructing different Lego structures. The generated construction plan can be executed in real.

NeuFlow v2: High-Efficiency Optical Flow Estimation on Edge Devices

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Zhiyong Zhang, Aniket Gupta, Huaizu Jiang, Hanumant Singh

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10161v2

摘要： Real-time high-accuracy optical flow estimation is crucial for various real-world applications. While recent learning-based optical flow methods have achieved high accuracy, they often come with significant computational costs. In this paper, we propose a highly efficient optical flow method that balances high accuracy with reduced computational demands. Building upon NeuFlow v1, we introduce new components including a much more light-weight backbone and a fast refinement module. Both these modules help in keeping the computational demands light while providing close to state of the art accuracy. Compares to other state of the art methods, our model achieves a 10x-70x speedup while maintaining comparable performance on both synthetic and real-world data. It is capable of running at over 20 FPS on 512x384 resolution images on a Jetson Orin Nano. The full training and evaluation code is available at https://github.com/neufieldrobotics/NeuFlow_v2.

LoopSplat: Loop Closure by Registering 3D Gaussian Splats

分类： 计算机视觉和模式识别, 机器人技术

作者： Liyuan Zhu, Yue Li, Erik Sandström, Shengyu Huang, Konrad Schindler, Iro Armeni

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10154v2

摘要： Simultaneous Localization and Mapping (SLAM) based on 3D Gaussian Splats (3DGS) has recently shown promise towards more accurate, dense 3D scene maps. However, existing 3DGS-based methods fail to address the global consistency of the scene via loop closure and/or global bundle adjustment. To this end, we propose LoopSplat, which takes RGB-D images as input and performs dense mapping with 3DGS submaps and frame-to-model tracking. LoopSplat triggers loop closure online and computes relative loop edge constraints between submaps directly via 3DGS registration, leading to improvements in efficiency and accuracy over traditional global-to-local point cloud registration. It uses a robust pose graph optimization formulation and rigidly aligns the submaps to achieve global consistency. Evaluation on the synthetic Replica and real-world TUM-RGBD, ScanNet, and ScanNet++ datasets demonstrates competitive or superior tracking, mapping, and rendering compared to existing methods for dense RGB-D SLAM. Code is available at loopsplat.github.io.

Source-Seeking Problem with Robot Swarms

分类： 机器人技术

作者： Antonio Acuaviva, Hector Garcia de Marina, Juan Jimenez

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10152v1

摘要： We present an algorithm to solve the problem of locating the source, or maxima, of a scalar field using a robot swarm. We demonstrate how the robot swarm determines its direction of movement to approach the source using only field intensity measurements taken by each robot. In contrast with the current literature, our algorithm accommodates a generic (non-degenerate) geometry for the swarm's formation. Additionally, we rigorously show the effectiveness of the algorithm even when the dynamics of the robots are complex, such as a unicycle with constant speed. Not requiring a strict geometry for the swarm significantly enhances its resilience. For example, this allows the swarm to change its size and formation in the presence of obstacles or other real-world factors, including the loss or addition of individuals to the swarm on the fly. For clarity, the article begins by presenting the algorithm for robots with free dynamics. In the second part, we demonstrate the algorithm's effectiveness even considering non-holonomic dynamics for the robots, using the vector field guidance paradigm. Finally, we verify and validate our algorithm with various numerical simulations.

Learning Precise Affordances from Egocentric Videos for Robotic Manipulation

分类： 机器人技术, 计算机视觉和模式识别

作者： Gen Li, Nikolaos Tsagkas, Jifei Song, Ruaridh Mon-Williams, Sethu Vijayakumar, Kun Shao, Laura Sevilla-Lara

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10123v1

摘要： Affordance, defined as the potential actions that an object offers, is crucial for robotic manipulation tasks. A deep understanding of affordance can lead to more intelligent AI systems. For example, such knowledge directs an agent to grasp a knife by the handle for cutting and by the blade when passing it to someone. In this paper, we present a streamlined affordance learning system that encompasses data collection, effective model training, and robot deployment. First, we collect training data from egocentric videos in an automatic manner. Different from previous methods that focus only on the object graspable affordance and represent it as coarse heatmaps, we cover both graspable (e.g., object handles) and functional affordances (e.g., knife blades, hammer heads) and extract data with precise segmentation masks. We then propose an effective model, termed Geometry-guided Affordance Transformer (GKT), to train on the collected data. GKT integrates an innovative Depth Feature Injector (DFI) to incorporate 3D shape and geometric priors, enhancing the model's understanding of affordances. To enable affordance-oriented manipulation, we further introduce Aff-Grasp, a framework that combines GKT with a grasp generation model. For comprehensive evaluation, we create an affordance evaluation dataset with pixel-wise annotations, and design real-world tasks for robot experiments. The results show that GKT surpasses the state-of-the-art by 15.9% in mIoU, and Aff-Grasp achieves high success rates of 95.5% in affordance prediction and 77.1% in successful grasping among 179 trials, including evaluations with seen, unseen objects, and cluttered scenes.

Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning

分类： 机器学习, 人工智能, 计算和语言, 机器人技术

作者： Sriyash Poddar, Yanming Wan, Hamish Ivison, Abhishek Gupta, Natasha Jaques

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10075v1

摘要： Reinforcement Learning from Human Feedback (RLHF) is a powerful paradigm for aligning foundation models to human values and preferences. However, current RLHF techniques cannot account for the naturally occurring differences in individual human preferences across a diverse population. When these differences arise, traditional RLHF frameworks simply average over them, leading to inaccurate rewards and poor performance for individual subgroups. To address the need for pluralistic alignment, we develop a class of multimodal RLHF methods. Our proposed techniques are based on a latent variable formulation - inferring a novel user-specific latent and learning reward models and policies conditioned on this latent without additional user-specific data. While conceptually simple, we show that in practice, this reward modeling requires careful algorithmic considerations around model architecture and reward scaling. To empirically validate our proposed technique, we first show that it can provide a way to combat underspecification in simulated control problems, inferring and optimizing user-specific reward functions. Next, we conduct experiments on pluralistic language datasets representing diverse user preferences and demonstrate improved reward function accuracy. We additionally show the benefits of this probabilistic framework in terms of measuring uncertainty, and actively learning user preferences. This work enables learning from diverse populations of users with divergent preferences, an important challenge that naturally occurs in problems from robot learning to foundation model alignment.

Understanding cyclists' perception of driverless vehicles through eye-tracking and interviews

分类： 机器人技术

作者： Siri Hegna Berge, Joost de Winter, Dimitra Dodou, Amir Pooyan Afghari, Eleonora Papadimitriou, Nagarjun Reddy, Yongqi Dong, Narayana Raju, Haneen Farah

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.10064v1

摘要： As automated vehicles (AVs) become increasingly popular, the question arises as to how cyclists will interact with such vehicles. This study investigated (1) whether cyclists spontaneously notice if a vehicle is driverless, (2) how well they perform a driver-detection task when explicitly instructed, and (3) how they carry out such tasks. Using a Wizard-of-Oz method, 37 participants cycled a designated route and encountered an AV multiple times in two experimental sessions. In Session 1, participants cycled the route uninstructed, while in Session 2, they were instructed to verbally report whether they detected the presence or absence of a driver. Additionally, we recorded the participants' gaze behaviour with eye-tracking and their responses in post-session interviews. The interviews revealed that 30% of the cyclists spontaneously mentioned the absence of a driver (Session 1), and when instructed (Session 2), they detected the absence and presence of the driver with 93% accuracy. The eye-tracking data showed that cyclists looked more frequently and longer at the vehicle in Session 2 compared to Session 1. Furthermore, participants exhibited intermittent sampling of the vehicle, and they looked in front of the vehicle when it was far away and towards the windshield region when it was closer. The post-session interviews also indicated that participants were curious, felt safe, and reported a need to receive information about the AV's driving state. In conclusion, cyclists can detect the absence of a driver in the AV, and this detection may influence their perceptions of safety. Further research is needed to explore these findings in real-world traffic conditions.

Edge-Cloud Collaborative Motion Planning for Autonomous Driving with Large Language Models

分类： 机器人技术, 人工智能

作者： Jiao Chen, Suyan Dai, Fangfang Chen, Zuohong Lv, Jianhua Tang

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09972v1

摘要： Integrating large language models (LLMs) into autonomous driving enhances personalization and adaptability in open-world scenarios. However, traditional edge computing models still face significant challenges in processing complex driving data, particularly regarding real-time performance and system efficiency. To address these challenges, this study introduces EC-Drive, a novel edge-cloud collaborative autonomous driving system with data drift detection capabilities. EC-Drive utilizes drift detection algorithms to selectively upload critical data, including new obstacles and traffic pattern changes, to the cloud for processing by GPT-4, while routine data is efficiently managed by smaller LLMs on edge devices. This approach not only reduces inference latency but also improves system efficiency by optimizing communication resource use. Experimental validation confirms the system's robust processing capabilities and practical applicability in real-world driving conditions, demonstrating the effectiveness of this edge-cloud collaboration framework. Our data and system demonstration will be released at https://sites.google.com/view/ec-drive.

Human Mimetic Forearm Design with Radioulnar Joint using Miniature Bone-Muscle Modules and Its Applications

分类： 机器人技术

作者： Kento Kawaharazuka, Shogo Makino, Masaya Kawamura, Yuki Asano, Yohei Kakiuchi, Kei Okada, Masayuki Inaba

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09934v1

摘要： The human forearm is composed of two long, thin bones called the radius and the ulna, and rotates using two axle joints. We aimed to develop a forearm based on the body proportion, weight ratio, muscle arrangement, and joint performance of the human body in order to bring out its benefits. For this, we need to miniaturize the muscle modules. To approach this task, we arranged two muscle motors inside one muscle module, and used the space effectively by utilizing common parts. In addition, we enabled the muscle module to also be used as the bone structure. Moreover, we used miniature motors and developed a way to dissipate the motor heat to the bone structure. Through these approaches, we succeeded in developing a forearm with a radioulnar joint based on the body proportion, weight ratio, muscle arrangement, and joint performance of the human body, while keeping maintainability and reliability. Also, we performed some motions such as soldering, opening a book, turning a screw, and badminton swinging using the benefits of the radioulnar structure, which have not been discussed before, and verified that Kengoro can realize skillful motions using the radioulnar joint like a human.

Automated Vehicle Driver Monitoring Dataset from Real-World Scenarios

分类： 机器人技术

作者： Mohamed Sabry, Walter Morales-Alvarez, Cristina Olaverri-Monreal

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09833v1

摘要： From SAE Level 3 of automation onwards, drivers are allowed to engage in activities that are not directly related to driving during their travel. However, in level 3, a misunderstanding of the capabilities of the system might lead drivers to engage in secondary tasks, which could impair their ability to react to challenging traffic situations. Anticipating driver activity allows for early detection of risky behaviors, to prevent accidents. To be able to predict the driver activity, a Deep Learning network needs to be trained on a dataset. However, the use of datasets based on simulation for training and the migration to real-world data for prediction has proven to be suboptimal. Hence, this paper presents a real-world driver activity dataset, openly accessible on IEEE Dataport, which encompasses various activities that occur in autonomous driving scenarios under various illumination and weather conditions. Results from the training process showed that the dataset provides an excellent benchmark for implementing models for driver activity recognition.

Integrating Naturalistic Insights in Objective Multi-Vehicle Safety Framework

分类： 机器人技术

作者： Enrico Del Re, Amirhesam Aghanouri, Cristina Olaverri-Monreal

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09769v1

摘要： As autonomous vehicle technology advances, the precise assessment of safety in complex traffic scenarios becomes crucial, especially in mixed-vehicle environments where human perception of safety must be taken into account. This paper presents a framework designed for assessing traffic safety in multi-vehicle situations, facilitating the simultaneous utilization of diverse objective safety metrics. Additionally, it allows the integration of subjective perception of safety by adjusting model parameters. The framework was applied to evaluate various model configurations in car-following scenarios on a highway, utilizing naturalistic driving datasets. The evaluation of the model showed an outstanding performance, particularly when integrating multiple objective safety measures. Furthermore, the performance was significantly enhanced when considering all surrounding vehicles.

Harnessing the Potential of Omnidirectional Multi-Rotor Aerial Vehicles in Cooperative Jamming Against Eavesdropping

分类： 机器人技术

作者： Daniel Bonilla Licea, Hajar El Hammouti, Giuseppe Silano, Martin Saska

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09753v1

摘要： Recent research in communications-aware robotics has been propelled by advancements in 5G and emerging 6G technologies. This field now includes the integration of Multi-Rotor Aerial Vehicles (MRAVs) into cellular networks, with a specific focus on under-actuated MRAVs. These vehicles face challenges in independently controlling position and orientation due to their limited control inputs, which adversely affects communication metrics such as Signal-to-Noise Ratio. In response, a newer class of omnidirectional MRAVs has been developed, which can control both position and orientation simultaneously by tilting their propellers. However, exploiting this capability fully requires sophisticated motion planning techniques. This paper presents a novel application of omnidirectional MRAVs designed to enhance communication security and thwart eavesdropping. It proposes a strategy where one MRAV functions as an aerial Base Station, while another acts as a friendly jammer to secure communications. This study is the first to apply such a strategy to MRAVs in scenarios involving eavesdroppers.

Quantitative 3D Map Accuracy Evaluation Hardware and Algorithm for LiDAR(-Inertial) SLAM

分类： 机器人技术

作者： Sanghyun Hahn, Seunghun Oh, Minwoo Jung, Ayoung Kim, Sangwoo Jung

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09727v1

摘要： Accuracy evaluation of a 3D pointcloud map is crucial for the development of autonomous driving systems. In this work, we propose a user-independent software/hardware system that can quantitatively evaluate the accuracy of a 3D pointcloud map acquired from LiDAR(-Inertial) SLAM. We introduce a LiDAR target that functions robustly in the outdoor environment, while remaining observable by LiDAR. We also propose a software algorithm that automatically extracts representative points and calculates the accuracy of the 3D pointcloud map by leveraging GPS position data. This methodology overcomes the limitations of the manual selection method, that its result varies between users. Furthermore, two different error metrics, relative and absolute errors, are introduced to analyze the accuracy from different perspectives. Our implementations are available at: https://github.com/SangwooJung98/3D_Map_Evaluation

An Efficient Deep Reinforcement Learning Model for Online 3D Bin Packing Combining Object Rearrangement and Stable Placement

分类： 机器人技术

作者： Peiwen Zhou, Ziyan Gao, Chenghao Li, Nak Young Chong

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09694v1

摘要： This paper presents an efficient deep reinforcement learning (DRL) framework for online 3D bin packing (3D-BPP). The 3D-BPP is an NP-hard problem significant in logistics, warehousing, and transportation, involving the optimal arrangement of objects inside a bin. Traditional heuristic algorithms often fail to address dynamic and physical constraints in real-time scenarios. We introduce a novel DRL framework that integrates a reliable physics heuristic algorithm and object rearrangement and stable placement. Our experiment show that the proposed framework achieves higher space utilization rates effectively minimizing the amount of wasted space with fewer training epochs.

Multi-Agent Reinforcement Learning for Autonomous Driving: A Survey

分类： 人工智能, 多代理系统, 机器人技术

作者： Ruiqi Zhang, Jing Hou, Florian Walter, Shangding Gu, Jiayi Guan, Florian Röhrbein, Yali Du, Panpan Cai, Guang Chen, Alois Knoll

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09675v1

摘要： Reinforcement Learning (RL) is a potent tool for sequential decision-making and has achieved performance surpassing human capabilities across many challenging real-world tasks. As the extension of RL in the multi-agent system domain, multi-agent RL (MARL) not only need to learn the control policy but also requires consideration regarding interactions with all other agents in the environment, mutual influences among different system components, and the distribution of computational resources. This augments the complexity of algorithmic design and poses higher requirements on computational resources. Simultaneously, simulators are crucial to obtain realistic data, which is the fundamentals of RL. In this paper, we first propose a series of metrics of simulators and summarize the features of existing benchmarks. Second, to ease comprehension, we recall the foundational knowledge and then synthesize the recently advanced studies of MARL-related autonomous driving and intelligent transportation systems. Specifically, we examine their environmental modeling, state representation, perception units, and algorithm design. Conclusively, we discuss open challenges as well as prospects and opportunities. We hope this paper can help the researchers integrate MARL technologies and trigger more insightful ideas toward the intelligent and autonomous driving.

CusADi: A GPU Parallelization Framework for Symbolic Expressions and Optimal Control

分类： 机器人技术, 分布式、并行和集群计算

作者： Se Hwan Jeon, Seungwoo Hong, Ho Jae Lee, Charles Khazoom, Sangbae Kim

发布时间： 2024-08-19

链接： http://arxiv.org/abs/2408.09662v1

摘要： The parallelism afforded by GPUs presents significant advantages in training controllers through reinforcement learning (RL). However, integrating model-based optimization into this process remains challenging due to the complexity of formulating and solving optimization problems across thousands of instances. In this work, we present CusADi, an extension of the CasADi symbolic framework to support the parallelization of arbitrary closed-form expressions on GPUs with CUDA. We also formulate a closed-form approximation for solving general optimal control problems, enabling large-scale parallelization and evaluation of MPC controllers. Our results show a ten-fold speedup relative to similar MPC implementation on the CPU, and we demonstrate the use of CusADi for various applications, including parallel simulation, parameter sweeps, and policy training.

HyperTaxel：通过对比学习实现基于紫杉醇的触觉信号的超分辨率

分类： 机器人技术, 人工智能

作者： Hongyu Li, Snehal Dikhale, Jinda Cui, Soshi Iba, Nawid Jamali

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08312v1

摘要： 为了达到与人类相当的灵活性，机器人必须智能地处理触觉传感器数据。基于紫杉醇的触觉信号通常具有低空间分辨率，并且具有非标准化的表示。在本文中，我们提出了一种新颖的框架 HyperTaxel，用于学习基于紫杉醇的触觉信号的几何信息表示，以解决与其空间分辨率相关的挑战。我们使用这种表示和对比学习目标来编码稀疏的低分辨率紫杉醇信号并将其映射到高分辨率接触表面。为了解决这些信号固有的不确定性，我们利用多个同时接触的联合概率分布来提高紫杉醇超分辨率。我们通过将我们的表示与两个基线进行比较来评估我们的表示，并给出表明我们的表示优于基线的结果。此外，我们提出的定性结果表明，学习的表示捕获了接触表面的几何特征，例如平面度、曲率和边缘，并概括了不同的物体和传感器配置。此外，我们提出的结果表明我们的表示提高了各种下游任务的性能，例如表面分类、6D 手持姿态估计和模拟到真实的传输。

VLPG-Nav：使用视觉语言姿势图和对象定位概率图进行对象导航

分类： 机器人技术

作者： Senthil Hariharan Arul, Dhruva Kumar, Vivek Sugirtharaj, Richard Kim, Xuewei, Qi, Rajasimman Madhivanan, Arnie Sen, Dinesh Manocha

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08301v1

摘要： 我们提出了 VLPG-Nav，一种视觉语言导航方法，用于引导机器人到家庭场景中的指定物体。与主要侧重于将机器人导航到物体的现有方法不同，我们的方法考虑了将物体置于机器人相机视图中心的额外挑战。我们的方法构建了一个视觉语言姿势图（VLPG），充当 VL 嵌入的空间图。给定一个开放词汇表对象查询，我们计划使用 VLPG 进行对象导航的视点。尽管导航到视点，但物体遮挡、位移和机器人定位误差等现实世界的挑战可能会妨碍可见性。我们利用机器人当前的观察结果和先前的 VLPG 构建了一个对象定位概率图。当对象不可见时，概率图会更新并计算替代视点。此外，我们提出了一种以对象为中心的公式，可以局部调整机器人的姿势，使对象在摄像机视图中居中。我们通过模拟和现实实验来评估我们方法的有效性，评估其成功查看物体并将其置于相机视场中心的能力。 VLPG-Nav 在定位对象、围绕遮挡物导航以及将对象置于机器人摄像头视图中心位置方面表现出改进的性能，在评估指标中优于选定的基线。

通过扎根语言模型进行人形机器人自主行为规划

分类： 机器人技术, 人工智能, 机器学习

作者： Jin Wang, Arturo Laurenzi, Nikos Tsagarakis

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08282v1

摘要： 使人形机器人能够在非结构化环境中自主执行局部操作对于实现实体智能至关重要且极具挑战性。这涉及机器人能够在长期任务中规划自己的行动和行为，同时使用多模态来感知任务执行和高级规划之间的偏差。近年来，大语言模型（LLM）在机器人控制任务中展示了强大的理解和处理语义信息的规划和推理能力，以及对多模态输入的分析判断和决策的可用性。为了利用大语言模型的力量进行人形机器人操作，我们提出了一种基于语言模型的新颖框架，使机器人能够在给定的文本指令下自主规划行为和低级执行，同时观察和纠正任务执行期间可能发生的故障。为了系统地评估该框架在大语言模型基础上的应用，我们创建了用于任务规划的机器人“动作”和“感知”行为库，并使用 CENTAURO 机器人在模拟和真实环境中进行了移动操纵任务和实验，验证了其有效性和应用性这种方法在具有自主行为规划的机器人任务中的应用。

有标记还是无标记？适用于各种机器人任务的模式可切换光学触觉传感

分类： 机器人技术, 人机交互

作者： Ni Ou, Zhuo Chen, Shan Luo

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08276v1

摘要： 光学触觉传感器在机器人感知和操纵任务中发挥着关键作用。这些传感器的膜可以涂有标记或保持无标记，使它们能够在有标记或无标记模式下工作。然而，这种单模态选择意味着传感器仅适用于操纵或感知任务。虽然标记对于操作至关重要，但它们也会阻碍相机，从而妨碍感知。在有标记和无标记模式之间进行选择的困境是一个重大障碍。为了解决这个问题，我们提出了一种新颖的模式可切换光学触觉传感方法，可以促进两种模式之间的转换。标记到无标记的转换是通过生成模型实现的，而其逆转换是使用稀疏监督回归模型实现的。我们的方法允许单模光学传感器在标记和无标记模式下有效运行，而不需要额外的硬件，使其非常适合感知和操纵任务。大量的实验验证了我们方法的有效性。对于感知任务，我们的方法将包含错误分类样本的类别数量减少了 2 个，并将接触区域分割 IoU 提高了 3.53%。对于操纵任务，我们的方法在滑动检测中获得了 92.59% 的高成功率。代码、数据集和演示视频可在项目网站上获取：https://gitouni.github.io/Marker-Markerless-Transition/

基于KAN的无冲突、无损速度环岛交互式驾驶强化学习决策系统

分类： 机器人技术, 人工智能, 机器学习, 系统与控制, 系统与控制

作者： Zhihao Lin, Zhen Tian, Qi Zhang, Ziyang Ye, Hanyang Zhuang, Jianglin Lan

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08242v1

摘要： 安全和效率对于环岛自动驾驶至关重要，特别是在自动驾驶车辆（AV）和人类驾驶车辆共存的混合交通环境中。本文介绍了一种基于学习的算法，旨在在环形交叉口的不同交通流量水平上促进安全高效的驾驶行为。该算法采用深度 Q 学习网络来有效学习复杂的多车辆环岛中安全高效的驾驶策略。此外，KAN（柯尔莫哥洛夫-阿诺德网络）增强了自动驾驶汽车稳健而精确地了解周围环境的能力。集成了动作检查器以取代危险动作，以避免自动驾驶汽车与环境交互时发生碰撞，并提出了路线规划器以提高自动驾驶汽车的驾驶效率和安全性。此外，采用模型预测控制，保证驾驶动作的稳定性和精确性。结果表明，我们提出的系统始终能够实现安全高效的驾驶，同时保持稳定的训练过程，奖励函数的平滑收敛和不同交通流的训练曲线的低方差就证明了这一点。与最先进的基准相比，所提出的算法实现了更少的碰撞次数并缩短了到达目的地的旅行时间。

通过层次结构的视角扩大多机器人的自然语言理解

分类： 机器人技术, 人工智能, 计算机科学中的逻辑

作者： Shaojun Xu, Xusheng Luo, Yutong Huang, Letian Leng, Ruixuan Liu, Changliu Liu

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08188v1

摘要： 长期规划受到不确定性积累、计算复杂性、延迟奖励和不完整信息等挑战的阻碍。这项工作提出了一种利用人类指令的任务层次结构来促进多机器人规划的方法。使用大型语言模型（LLM），我们提出了一种两步方法，将多句指令翻译成结构化语言，即分层线性时序逻辑（LTL），作为规划的形式表示。最初，LLM 将指令转换为定义为分层任务树的分层表示，捕获任务之间的逻辑和时间关系。接下来，LLM 的特定领域微调将每个任务的子任务转换为平面 LTL 公式，将它们聚合以形成分层 LTL 规范。然后利用这些规范使用现成的规划器进行规划。我们的框架不仅弥合了指令和算法规划之间的差距，而且还展示了大语言模型在利用分层推理来自动化多机器人任务规划方面的潜力。通过对涉及人类参与者的模拟和现实实验的评估，我们证明了与现有方法相比，我们的方法可以处理更复杂的指令。结果表明，我们的方法在多机器人任务分配和计划生成方面实现了更高的成功率和更低的成本。演示视频可从 https://youtu.be/7WOrDKxIMIs 获取。

具有语义关键点的通用服装处理

分类： 机器人技术, 人工智能

作者： Yuhong Deng, David Hsu

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08160v1

摘要： 我们在针对特定任务的服装操纵方面最近取得了很大进展，但通用的服装操纵仍然是一个挑战。衣服操作需要连续的动作，因此很难推广到看不见的任务。此外，通用的服装状态表示方法也至关重要。在本文中，我们采用语言指令来指定和分解服装操作任务，并提出一种基于大语言模型的分层学习方法来增强泛化能力。对于状态表示，我们使用语义关键点来捕获衣服的几何形状并概述其操作方法。仿真实验表明，所提出的方法在衣服操作任务的成功率和泛化方面优于基线方法。

具有可扩展预测范围的稳健机动规划：移动阻止方法

分类： 机器人技术, 系统与控制, 系统与控制

作者： Philipp Schitz, Johann C. Dauer, Paolo Mercorelli

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08020v1

摘要： 在计算资源有限的硬件上实现模型预测控制（MPC）仍然是一个挑战。特别是对于需要小采样时间的长距离机动，必要的地平线长度阻碍了其在机载计算机上的应用。在本文中，我们提出了一种计算高效的基于管的收缩视野 MPC，可扩展至长预测视野。使用移动阻塞，我们确保在整个机动过程中有效地使用给定数量的决策输入。接下来，介绍一种大幅减少约束数量的方法。通过直升机降落在倾斜平台上并使用 300 步的预测范围来演示该方法。约束减少将计算时间减少了一个数量级，同时轨迹成本略有增加。

结合 TSP 和区域覆盖范围的无人机点喷路径规划

分类： 机器人技术

作者： Mogens Plessen

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.08001v1

摘要： 本文解决了以下任务：给定一组要在边界轮廓内提供服务的不同大小的块或区域，计算无人机 (UAV) 的最小长度路径规划，以便该路径另外避开给定的障碍物区域并且永远不会离开边界轮廓。所考虑的应用是农业点喷洒，其中边界轮廓代表田地轮廓，多个斑块代表要喷洒的多个杂草区域。障碍区是池塘或树岛。所提出的方法将旅行商问题（TSP）的启发式解决方案与优化的区域覆盖路径规划相结合。在分别具有三个障碍区域和 15、19 和 197 个斑块的三个真实世界实验中评估了两种 TSP 初始化和 4 个 TSP 细化启发法以及两种区域覆盖路径规划方法。讨论了 Baustropedon 路径对于避免区域覆盖间隙的不适合性，并提出了包含用于区域覆盖的岬角路径。两个主要发现是（i）一种 TSP 细化启发式的特别适用性，以及（ii）斑块区域覆盖路径长度对总路径长度的意外高贡献，突出了优化点喷洒区域覆盖路径规划的重要性。

使用大型语言模型来通过摄像头识别用户情绪的对话系统

分类： 人机交互, 人工智能, 机器人技术, 68T40, I.2.10; I.2.7

作者： Hiroki Tanioka, Tetsushi Ueta, Masahiko Sano

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07982v1

摘要： ChatGPT\copyright{}和其他LLM的性能得到了极大的提高，并且在在线环境中，它们越来越有可能被用于各种各样的情况，例如网页上的ChatBot、使用语音交互的呼叫中心操作以及对话使用代理的功能。在线下环境中，多模态对话功能也正在实现，例如使用平板电脑终端的人工智能代理（AI代理）的引导以及安装在机器人上的LLM形式的对话系统。在这种多模态对话中，人工智能和用户之间的相互情感识别将变得重要。到目前为止，已经有人工智能代理表达情感或使用用户话语的文本或语音信息识别情感的方法，但尚未研究人工智能代理从用户的面部表情识别情感的方法。在这项研究中，我们通过捕捉用户与摄像头的对话、从面部表情识别情绪并将此类情绪信息添加到提示中，检查基于 LLM 的人工智能代理是否可以根据用户的情绪状态与用户进行交互。结果证实，对于分数相对较高的情绪状态，例如快乐和愤怒，人工智能代理可以根据情绪状态进行对话。

Polaris：通过 Syn2Real 视觉基础和大型语言模型进行开放式交互式机器人操作

分类： 机器人技术, 计算和语言, 计算机视觉和模式识别

作者： Tianyu Wang, Haitao Lin, Junqiu Yu, Yanwei Fu

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07975v1

摘要： 本文研究了桌面场景下开放式交互式机器人操作的任务。虽然最近的大型语言模型（LLM）增强了机器人对用户指令的理解，但它们缺乏视觉基础限制了它们与环境进行物理交互的能力。这是因为机器人需要定位目标物体以在物理工作空间内进行操作。为此，我们引入了一种名为 Polaris 的交互式机器人操作框架，该框架通过利用 GPT-4 和接地视觉模型来集成感知和交互。为了精确操作，这种基础视觉模型必须为目标对象生成详细的对象姿势，而不仅仅是识别图像中属于它们的像素。因此，我们提出了一种新颖的合成到真实（Syn2Real）姿态估计管道。该管道利用渲染的合成数据进行训练，然后转移到现实世界的操作任务。现实世界的表现证明了我们提出的管道的有效性，并强调了其扩展到更一般类别的潜力。此外，真实的机器人实验展示了我们的框架在抓取和执行多个操作任务方面的令人印象深刻的性能。这表明它有潜力推广到桌面以外的场景。更多信息和视频结果可在此处获取：https://star-uu-wang.github.io/Polaris/

Meta SAC-Lag：通过基于 MetaGradient 的超参数调整实现可部署的安全强化学习

分类： 机器学习, 人工智能, 机器人技术, 系统与控制, 系统与控制

作者： Homayoun Honari, Amir Mehdi Soufi Enayati, Mehran Ghafarian Tamizi, Homayoun Najjaran

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07962v1

摘要： 安全强化学习（Safe RL）是基于试错方法的普遍研究的子类别之一，旨在部署在现实世界的系统上。在安全强化学习中，目标是最大化奖励绩效，同时最小化约束，通常通过设置约束函数的界限并利用拉格朗日方法来实现。然而，由于需要进行阈值微调，在现实场景中部署基于拉格朗日的安全强化学习具有挑战性，因为不精确的调整可能会导致策略收敛不理想。为了缓解这一挑战，我们提出了一种基于拉格朗日的统一无模型架构，称为 Meta Soft Actor-Critic Lagrangian (Meta SAC-Lag)。 Meta SAC-Lag 使用元梯度优化来自动更新安全相关的超参数。所提出的方法旨在以最小的超参数调整要求来解决安全探索和阈值调整问题。在我们的流程中，内部参数通过传统公式进行更新，超参数使用基于更新参数定义的元目标进行调整。我们的结果表明，由于安全阈值的收敛速度相对较快，代理可以可靠地调整安全性能。我们根据拉格朗日基线评估了 Meta SAC-Lag 在五个模拟环境中的性能，结果证明了其在参数之间产生协同作用的能力，从而产生更好或有竞争力的结果。此外，我们还进行了一项真实世界的实验，涉及机械臂，其任务是将咖啡倒入杯子中而不溢出。 Meta SAC-Lag 被成功训练来执行任务，同时最大限度地减少工作量限制。

独立机器人代理的按时间顺序的临时资源共享

分类： 机器人技术, 多代理系统

作者： Arjo Chakravarty, Michael X. Grey, M. A. Viraj J. Muthugala, Mohan Rajesh Elara

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07942v1

摘要： 资源共享是多机器人系统的重要组成部分。我们提出了一种基于布尔可满足性的资源共享方法。我们的主要贡献是一种将任何约束分配转换为基于加权 SAT 的优化的算法。我们提出了一个定理，允许通过重复应用 SAT 求解器来解决最优资源分配问题。此外，我们展示了一种使用联合范式（CNF）对连续时间排序约束进行编码的方法。我们对新算法进行了基准测试，并表明它们可以在临时环境中使用。我们在一组模拟和现实世界的机器人上测试我们的算法，并表明这些算法能够处理现实世界的情况。我们的算法和测试工具是开源的，并基于 Open-RMF 车队管理系统构建。

Surgical SAM 2：通过高效帧修剪实时分割手术视频中的任何内容

分类： 计算机视觉和模式识别, 人工智能, 机器人技术, 图像和视频处理

作者： Haofeng Liu, Erli Zhang, Junde Wu, Mingxuan Hong, Yueming Jin

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07931v1

摘要： 手术视频分割是计算机辅助手术中的一项关键任务，对于提高手术质量和患者治疗效果至关重要。最近，Segment Anything Model 2 (SAM2) 框架在图像和视频分割方面显示出卓越的进步。然而，由于处理高分辨率图像以及手术视频中复杂且长范围的时间动态的高计算需求，SAM2 在效率方面遇到了困难。为了应对这些挑战，我们引入了 Surgical SAM 2 (SurgSAM-2)，这是一种利用 SAM2 和高效帧修剪 (EFP) 机制的高级模型，以促进实时手术视频分割。 EFP 机制通过有选择地仅保留信息最丰富的帧来动态管理内存库，减少内存使用和计算成本，同时保持高分割精度。我们的大量实验表明，与普通 SAM2 相比，SurgSAM-2 显着提高了效率和分割准确性。值得注意的是，与 SAM2 相比，SurgSAM-2 的 FPS 提高了 3 倍，同时在使用较低分辨率数据进行微调后还提供了最先进的性能。这些进步使 SurgSAM-2 成为手术视频分析的领先模型，使资源有限环境中的实时手术视频分割成为现实。

GOReloc：基于图形的视觉 SLAM 对象级重定位

分类： 机器人技术, 计算机视觉和模式识别

作者： Yutong Wang, Chaoyang Jiang, Xieyuanli Chen

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07917v1

摘要： 本文介绍了一种用于机器人系统对象级重定位的新方法。它通过将当前帧中的对象检测与轻量级对象级地图中的 3D 对象稳健关联来确定相机传感器的姿态。考虑到语义不确定性，为传入的相机帧和预先构建的地图构建对象图。对象被表示为图节点，每个节点都使用基于我们设计的图内核的独特语义描述符。我们通过识别每个对象检测的潜在对象关联，从目标地图中提取子图，然后使用 RANSAC 启发的策略细化这些关联并进行姿态估计。对各种数据集的实验表明，与基线方法相比，我们的方法实现了更准确的数据关联，并显着提高了重定位成功率。我们方法的实现发布在\url{https://github.com/yutongwangBIT/GOReloc}。

DM2RM：基于开放词汇指令的目标物体和容器的双模式多模态排名

分类： 机器人技术, 计算和语言, 计算机视觉和模式识别

作者： Ryosuke Korekata, Kanta Kaneda, Shunya Nagashima, Yuto Imai, Komei Sugiura

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07910v1

摘要： 在这项研究中，我们的目标是开发一种家庭服务机器人（DSR），它在开放词汇指令的指导下，可以将日常物品搬运到指定的家具上。现有的方法很少在图像检索设置中使用开放词汇指令来处理移动操作任务，并且大多数方法不能同时识别目标对象和容器。我们提出了双模多模态排序模型（DM2RM），该模型使得能够使用基于多模态基础模型的单个模型来检索目标物体和容器的图像。我们引入了一种切换机制，该机制通过大型语言模型利用模式标记和短语识别来根据预测目标切换嵌入空间。为了评估 DM2RM，我们构建了一个新颖的数据集，其中包括从数百个建筑规模环境中收集的真实世界图像以及带有引用表达式的众包指令。评估结果表明，所提出的 DM2RM 在图像检索设置的标准指标方面优于以前的方法。此外，我们还演示了 DM2RM 在标准化现实世界 DSR 平台上的应用，包括获取和携带操作，尽管采用零次传输设置，但其任务成功率仍达到 82%。演示视频、代码和更多材料可在 https://kkrr10.github.io/dm2rm/ 获取。

用于第一英里到最后一英里连接的自主按需班车：设计、优化和影响评估

分类： 机器人技术, 应用领域

作者： Sudipta Roy, Gabriel Dadashev, Lampros Yfantis, Bat-hen Nahmias-Biran, Samiul Hasan

发布时间： 2024-08-15

链接： http://arxiv.org/abs/2408.07872v1

摘要： 第一英里最后一英里 (FMLM) 连接对于提高公共交通的可达性和效率至关重要，特别是在传统固定路线交通系统往往不足的广阔郊区。自主按需班车 (AODS) 因其成本效益和改进的安全功能而成为 FMLM 连接的一个有前途的选择，从而提高用户的便利性并减少对个人车辆的依赖。 AODS服务设计的一个关键问题是出行路径的优化，现实的交通网络分配与最优路径相结合提供了可行的解决方案。在本研究中，我们设计了一种 AODS 控制器，它将基于介观仿真的动态交通分配模型与贪婪插入启发式方法相结合，以优化班车的行驶路线。控制器还考虑充电基础设施/策略以及班车对路线和车队规模规划的常规交通流量的影响。该控制器在 Aimsun 交通模拟器中实现，以佛罗里达州奥兰多的诺娜湖为案例研究。我们表明，在目前的需求（基于交通乘客总出行量的 1%）的情况下，由 3 辆自动驾驶班车组成的车队可以按需满足 FMLM 约 80% 的出行请求，平均等待时间低于 4 分钟。额外的电源对服务质量有显着影响，因为充电的非活动等待时间会增加车队规模。我们还表明，低速自动驾驶班车对常规车流量的影响可以忽略不计，因此适合郊区。这些发现对可持续城市规划和公共交通运营具有重要意义。

用于灵巧操作的无互补多接触建模和优化

分类： 机器人技术

作者： Wanxin Jin

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07855v1

摘要： 多接触动力学固有的复杂性是阻碍基于模型的方法在灵巧操作方面与强化学习的高性能相匹配的一个重要障碍。传统上使用互补模型来制定，多接触动力学引入了组合复杂性和不平滑性，使富含接触的规划和控制变得复杂。在本文中，我们通过引入一种新颖的、简化的多接触模型来规避这些挑战。我们的新模型源自基于优化的接触模型的对偶性，完全省去了互补性构造，提供了计算优势，例如显式时间步进、可微性、库仑摩擦定律的自动满足和最小超参数调整。我们展示了该模型在一系列具有挑战性的灵巧操作任务中的规划和控制的有效性和效率，包括指尖 3D 空中操作、TriFinger 手操作和 Allegro 手手掌重新定向，所有这些任务都涉及不同的对象。我们的方法始终取得最先进的结果：(I) 跨任务平均成功率为 96.5%，(II) 操作精度高，平均重定向误差为 11{\deg}，位置误差为 7.8 mm，以及(III) 对于所有测试的灵巧操作任务，模型预测控制以 50-100 Hz 运行。这些结果是通过最小的超参数调整来实现的。

从手术自主决策到行动：机器人辅助抽血的多模态大语言模型

分类： 机器人技术

作者： Sadra Zargarzadeh, Maryam Mirzaei, Yafei Ou, Mahdi Tavakoli

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07806v1

摘要： 大型语言模型 (LLM) 的兴起影响了机器人和自动化的研究。尽管在将大语言模型融入一般机器人任务方面已经取得了进展，但在诸如外科手术等更具体的领域中，它们的采用仍然存在明显的空白，在这些领域，推理、可解释性和安全性等关键因素至关重要。实现机器人手术的自主性，这需要推理和适应环境变化的能力，仍然是一个重大挑战。在这项工作中，我们提出了将多模式大语言模型集成到机器人辅助手术中进行自主抽血。推理和优先级被委托给更高级别的任务规划大语言模型，运动规划和执行由较低级别的深度强化学习模型处理，从而在两个组件之间创建一个分布式代理。由于外科手术具有高度动态性，可能会遇到不可预见的情况，因此引入血栓和活动性出血来影响决策。结果表明，使用多模态大语言模型作为更高级别的推理单元可以解释这些手术复杂性，以达到以前在机器人辅助手术中无法达到的推理水平。这些发现证明了多模式大语言模型在显着增强机器人辅助手术中的背景理解和决策方面的潜力，标志着向自主手术系统迈出了一步。

施工静站、跪姿时外骨骼辅助平衡及任务评估

分类： 机器人技术

作者： Gayatri Sreenivasan, Chunchu Zhu, Jingang Yi

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07795v1

摘要： 建筑工人在危险的工作环境中消耗大量体力，面临严重的安全和健康风险。安静的站立和跪下是建筑工人在日常工作中最常见的姿势。本文利用地面反作用力交点的频率行为来分析下肢关节对神经平衡控制策略的影响。为了评估高架和可穿戴膝盖外骨骼对姿势平衡和焊接任务性能的影响，我们设计并集成虚拟现实和混合现实（VR/MR）来模拟高架环境和焊接任务。线性二次调节器控制的三连杆和双连杆倒立摆模型分别用于安静站立和跪下的平衡策略量化。进行了大量的多主体实验来评估职业外骨骼在不稳定的建筑环境中的可用性。量化的平衡策略捕捉了膝关节在安静站立和跪姿步态平衡控制中的重要性。结果表明，在高海拔 VR/MR 工作场所进行测试时，在提供膝盖外骨骼辅助的情况下，受试者的压力中心摆动面积在安静姿势下减少了 62%，在跪姿下减少了 39%。开发的综合平衡和多任务评估方法旨在揭示外骨骼设计考虑因素，以减轻施工中的跌倒风险。

Cosserat 杆式软体机器人的基于知识的神经常微分方程

分类： 机器人技术, 机器学习

作者： Tom Z. Jiahao, Ryan Adolf, Cynthia Sung, M. Ani Hsieh

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07776v1

摘要： 由于其柔顺性和被动性，软机器人比刚性机器人具有许多优势。然而，由于软体机器人的空间维度较高，对其动力学建模通常具有挑战性，这使得使用基于模型的方法来精确控制软体机器人变得困难。通常需要对偏微分方程进行直接数值模拟来模拟软机器人。这不仅需要精确的数值模型，而且使得软机器人建模缓慢且昂贵。深度学习算法在软机器人的数据驱动建模中显示出了前景。然而，这些算法通常需要大量数据，而这些数据在软机器人的仿真或现实实验中都很难获得。在这项工作中，我们提出了 KNODE-Cosserat，一个结合了第一原理物理模型和神经常微分方程的框架。我们利用了两个领域的优点——基于物理的模型的泛化能力和深度学习方法的快速速度。我们在模拟和现实实验中验证了我们的框架。在这两种情况下，我们都表明机器人模型在不同指标下比基线模型有了显着改进。

RAVE 检查清单：克服自动驾驶系统回顾性安全研究挑战的建议

分类： 机器人技术

作者： John M. Scanlon, Eric R. Teoh, David G. Kidd, Kristofer D. Kusano, Jonas Bärgman, Geoffrey Chi-Johnston, Luigi Di Lillo, Francesca Favaro, Carol Flannagan, Henrik Liers, Bonnie Lin, Magdalena Lindman, Shane McLaughlin, Miguel Perez, Trent Victor

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07758v1

摘要： 公众、监管机构和领域专家都试图了解部署的 SAE 4 级自动驾驶系统 (ADS) 技术对安全的影响。最近 ADS 技术部署的扩展为早期安全影响评估铺平了道路，通过比较 ADS 和代表性基准车队的观测数据来量化安全绩效。 2024 年 1 月，学术界、保险业和行业专家组成的工作组齐聚华盛顿特区，讨论执行此类评估时当前和未来的挑战。该工作组的一部分随后在多个场合举行了虚拟会议，以撰写本文。本文介绍了 RAVE（回顾性自动车辆评估）清单，这是一组用于执行和评估回顾性 ADS 性能比较的 15 条建议。这些建议围绕以下概念：(1) 质量和有效性、(2) 透明度和 (3) 解释。随着时间的推移，预计将会有大量不同的工作来评估这些 ADS 机队的观察到的性能。建立和推广良好的科学实践有利于利益相关者的工作，其中许多人可能不是主题专家。该工作组的目的是：i) 加强个人研究；ii) 让广大社群更了解如何评估这一集体工作。

基于 RSSI 的室内几何测绘的逆 k 可见性

分类： 机器人技术

作者： Junseo Kim, Matthew Lisondra, Yeganeh Bahoo, Sajad Saeedi

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07757v1

摘要： 近年来，WiFi 在室内环境中的可用性不断提高，引起了机器人界的兴趣，他们利用 WiFi 信号来增强室内 SLAM（同时定位和建图）系统。 SLAM技术应用广泛，特别是用于自主机器人的导航和控制。本文讨论了开发基于 WiFi 的定位的各种工作以及实现高精度几何地图的挑战。本文介绍了从k-可见性算法发展而来的逆k-可见性概念，用于识别未知环境中的自由空间，以进行规划、导航和避障。在模拟和现实环境中进行了综合实验，包括利用单个和多个 RSSI 信号的实验，以证明所提出算法的鲁棒性。此外，还提供了将所得地图与基于激光雷达的地面真实地图进行比较的详细分析，以突出算法的准确性和可靠性。

NeuroEvolution 算法在生物混合执行器设计过程中的应用

分类： 机器人技术

作者： Hugo Alcaraz-Herrera, Michail-Antisthenis Tsompanas, Andrew Adamatzky, Igor Balaz

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07671v1

摘要： 软机器人区别于传统的刚性机器人，在适应性、安全性和人机交互方面具有独特的优势。在某些情况下，软机器人可以由生物混合执行器提供动力，但这些系统的设计过程远非简单。我们在这里分析两种可能有助于这些系统设计的算法，即 NEAT（增强拓扑的神经进化）和 HyperNEAT（基于超立方体的增强拓扑的神经进化）。这些算法利用通过神经网络编码的执行器结构的演化。为了评估这些算法，我们将它们与使用年龄健身帕累托优化（AFPO）算法的类似方法进行比较，重点是评估所发现的生物混合形态所实现的最大位移。此外，我们还研究了优化对这些形态的体积和它们可以覆盖的距离的影响。为了进一步加速计算过程，所提出的方法在客户端-服务器设置中实现；因此，最苛刻的计算可以在专门且高效的硬件上执行。结果表明，基于 HyperNEAT 的方法擅长识别最小体积的形态，但仍能实现令人满意的位移目标。

SigmaRL：用于运动规划的样本高效且可泛化的多智能体强化学习框架

分类： 机器人技术, 机器学习, 多代理系统, 系统与控制, 系统与控制

作者： Jianye Xu, Pan Hu, Bassam Alrifaee

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07644v1

摘要： 本文介绍了一种名为 SigmaRL 的开源、去中心化框架，旨在提高用于联网和自动车辆运动规划的多智能体强化学习 (RL) 的样本效率和泛化能力。大多数强化学习智能体的泛化能力有限，通常只关注特定场景，并且通常在训练期间看到的类似甚至相同的场景中进行评估。人们提出了各种方法来应对这些挑战，包括经验重放和正则化。然而，强化学习中的观察设计如何影响样本效率和泛化仍然是一个尚未探索的领域。我们通过提出五种设计信息密集观测的策略来解决这一差距，重点关注适用于大多数交通场景的一般特征。我们在十字路口使用这些策略训练 RL 代理，并通过在完全不可见的交通场景（包括新十字路口、入口匝道和环岛）的数值实验来评估其泛化能力。结合这些信息密集的观察结果，可以将单个 CPU 上的训练时间缩短到不到一小时，并且评估结果表明我们的 RL 代理可以有效地进行零样本泛化。代码：github.com/cas-lab-munich/SigmaRL

使用蒙特卡罗树搜索和监督学习的非步态运动

分类： 机器人技术

作者： Ilyass Taouil, Lorenzo Amatucci, Majid Khadiv, Angela Dai, Victor Barasuol, Giulio Turrisi, Claudio Semini

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07508v1

摘要： 腿式机器人能够通过仔细选择接触顺序和时间与环境持续交互来导航复杂的地形。然而，接触规划背后的组合性质阻碍了此类优化问题在硬件上的适用性。在这项工作中，我们提出了一种新颖的方法，通过使用基于采样的方法和监督学习技术，在基于优化的控制器的背景下优化腿式机器人的步态序列和相应的时序。我们建议通过学习最优值函数来引导搜索，以加快步态规划过程，使其实时适用。为了验证我们提出的方法，我们使用 22 公斤电动四足机器人在模拟和硬件上展示了其性能。该方法在不同地形、外部扰动下进行评估，并与步态序列预先固定的标准控制方法进行比较。

对象增强算法：根据光学标记计算虚拟对象运动和对象引起的交互扳手

分类： 机器人技术, J.3

作者： Christopher Herneth, Junnan Li, Muhammad Hilman Fatoni, Amartya Ganguly, Sami Haddadin

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07434v1

摘要： 这项研究解决了对多样化和全面的数据的迫切需求，重点关注人类进行日常生活活动 (ADL) 时的手臂关节扭矩。先前的研究经常忽视 ADL 期间物体对关节扭矩的影响，导致用于分析的数据集有限。为了解决这一差距，我们提出了一种对象增强算法（OAA），能够通过虚拟对象运动和对象引起的关节扭矩估计来增强现有的基于标记的数据库。 OAA 包括五个阶段：(1) 根据光学标记计算手部坐标系，(2) 使用虚拟标记表征物体运动，(3) 通过逆向运动学 (IK) 计算物体运动，(4) 确定规定所需的扳手使用逆动力学 (ID) 计算物体运动，以及 (5) 计算物体操纵产生的关节扭矩。该算法的准确性通过 7+4 自由度 (DoF) 机器人手臂系统上的轨迹跟踪和扭矩分析来验证，该系统操纵三个独特的物体。结果表明，OAA 可以准确、精确地估计 6 DoF 物体运动和物体引起的关节扭矩。对于物体轨迹，计算量和测量量之间的相关性 > 0.99，对于关节扭矩，计算量和测量量之间的相关性 > 0.93。 OAA 被进一步证明对输入标记的数量和位置的变化具有鲁棒性，这是数据库之间所期望的。重复实验之间的差异虽小但显着 (p < 0.05)。该算法扩大了可用数据的范围，并有助于对人与物体交互动态进行更全面的分析。

设计欠驱动手部外骨骼的增强优化策略

分类： 机器人技术, 人机交互, 神经和进化计算

作者： Baris Akbas, Huseyin Taner Yuksel, Aleyna Soylemez, Mine Sarac, Fabio Stroppa

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07384v1

摘要： 外骨骼可以增强人类的力量，并为身体残疾的人提供帮助。然而，确保其设计的安全性和最佳性能面临着巨大的挑战。本研究介绍了欠驱动手外骨骼 (U-HEx) 的设计过程，首先包括单个目标（最大化力传递），然后扩展到多目标（同时最小化扭矩方差和执行器位移）。优化依赖于遗传算法、Big Bang-Big Crunch 算法及其多目标优化版本。分析表明，使用 Big Bang-Big Crunch 在最优性方面提供了较高且更一致的结果，并且收敛时间较短。此外，添加更多目标为设计人员提供了多种权衡解决方案，他们稍后可能会为目标设置优先级，而无需重复该过程 - 代价是优化算法和计算负担变得复杂。这些发现强调了在设计外骨骼时进行适当优化以及对这种特定机器人设计进行重大改进的重要性。

风险占用：车路云协同的高效新范式

分类： 机器人技术

作者： Jiaxing Chen, Wei Zhong, Bolin Gao, Yifei Liu, Hengduo Zou, Jiaxi Liu, Yanbo Lu, Jin Huang, Zhihua Zhong

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07367v1

摘要： 本研究引入车-路-云架构下的4D风险占用，整合路面空间、风险和时间维度，赋予算法超视距、全角度、高效的能力。该算法通过关注直接可观察的信息和关键因素，借鉴占用网格图（OGM）的概念，并结合时间预测来有效地绘制当前和未来的风险占用情况，从而简化了风险建模。与传统的驾驶风险场和网格占用图相比，该算法可以更高效、简单、可靠地绘制全局风险图。它可以整合未来的风险信息，适应动态的交通环境。 4D风险占用还统一了BEV检测和车道线检测结果的表达，增强了环境感知的直观性和统一性。本文利用 DAIR-V2X 数据验证了 4D Risk Occupancy 算法，并基于该算法开发了局部路径规划模型。各种道路条件下的定性实验证明了该局部路径规划模型的实用性和鲁棒性。定量分析表明，基于风险占据的路径规划显着提高了轨迹规划性能，在初始制动速度8 m/s时，安全冗余度提高了12.5%，平均减速度降低了5.41%，从而提高了安全性和舒适性。该工作通过车路云架构提供了一种新的全局感知方法和局部路径规划方法，为实现更安全、更高效的自动驾驶提供了新的感知范式。

使用 SOLiD 缩小 FOV：用于 FOV 受限 LiDAR 位置识别的空间组织和轻量级全局描述符

分类： 机器人技术

作者： Hogyun Kim, Jiwon Choi, Taehu Sim, Giseop Kim, Younggun Cho

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07330v1

摘要： 由于现实世界机器人导航中的传感器融合或传感器安装等各种因素，我们经常遇到视场有限的情况。然而，有限的视场会中断描述的生成并对地点识别产生不利影响。因此，我们使用基于 LiDAR 的位置识别和有限的视场来纠正一致地图中累积的漂移误差。因此，在本文中，我们提出了一种基于激光雷达的鲁棒位置识别方法，用于处理窄视场场景。该方法基于距离-高程仓和方位-高程仓建立空间组织来表示地点。此外，我们通过基于垂直方向信息的重新加权实现了稳健的地点描述。基于这些表示，我们的方法能够解决旋转变化并确定初始航向。此外，我们还为机器人的机载自主设计了一种轻量级且快速的方法。为了进行严格的验证，所提出的方法在各种 LiDAR 位置识别场景（即单会话、多会话和多机器人场景）中进行了测试。据我们所知，我们报告了第一种应对有限视场的方法。我们的地点描述和SLAM代码将被发布。此外，我们的描述符的补充材料可在 \texttt{\url{https://sites.google.com/view/lidar-solid}} 获取。

用于检查隧道施工环境的自主无人机原型设计

分类： 机器人技术, 系统与控制, 系统与控制

作者： Yiping Dong

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07286v1

摘要： 本文介绍了自主无人机原型的新颖设计，该原型专门用于检查具有动态人类和机器人存在的 GPS 拒绝的隧道施工环境。我们的无人机集成了先进的传感器套件和强大的运动规划算法，可以自主导航和探索这些复杂的环境。我们通过 PX4 Gazebo 和 Airsim Unreal Engine 4 环境中的综合模拟实验验证了我们的方法。真实世界的风测试和探索实验证明了无人机能够在没有GPS辅助的情况下在不同的环境条件下稳定运行。这项研究强调了我们的无人机原型在实际应用中的实用性和弹性。

通过几何建模增强单眼内窥镜场景的尺度感知深度估计

分类： 计算机视觉和模式识别, 机器人技术

作者： Ruofeng Wei, Bin Li, Kai Chen, Yiyao Ma, Yunhui Liu, Qi Dou

发布时间： 2024-08-14

链接： http://arxiv.org/abs/2408.07266v1

摘要： 尺度感知的单目深度估计对计算机辅助内窥镜导航提出了重大挑战。然而，现有的不考虑几何先验的深度估计方法很难从单目内窥镜序列的训练中学习绝对尺度。此外，传统方法在准确估计组织和器械边界的细节方面面临困难。在本文中，我们通过提出一种新颖的增强型尺度感知框架来解决这些问题，该框架仅使用具有几何建模的单目图像进行深度估计。具体来说，我们首先提出了一种多分辨率深度融合策略来提高单目深度估计的质量。为了恢复相对深度和真实世界值之间的精确比例，我们基于仅图像几何基元（即器械的边界和尖端），通过代数几何进一步计算内窥镜场景中器械的 3D 位姿。之后，手术器械的 3D 姿势可以实现相对深度图的比例恢复。通过耦合尺度因子和相对深度估计，可以估计单目内窥镜场景的尺度感知深度。我们根据内部内窥镜手术视频和模拟数据评估流程。结果表明，我们的方法可以通过几何建模学习绝对比例，并准确估计单目场景的比例感知深度。

HADRON：军用无人机操作的人性化控制和人工智能

分类： 机器人技术

作者： Ana M. Casado Faulí, Mario Malizia, Ken Hasselmann, Emile Le Flécher, Geert De Cubber, Ben Lauwens

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.07063v1

摘要： 随着无人机越来越多地融入我们的社会，越来越多未经培训的用户需要操作它们的能力。这一场景将通过开发人工智能功能来实现，帮助操作员控制无人机系统（UAS）和处理传感器数据，从而减轻对操作员进行大量培训的需要。本文介绍了 HADRON 项目，该项目旨在开发和测试多种新技术，以实现对无人机群的人性化控制。该项目分为三个主要部分。第一部分包括集成不同技术以实现无人机的直观控制，重点关注新手或缺乏经验的飞行员和操作员。第二部分重点是开发由指挥和控制站控制的多无人机系统，其中专家飞行员可以监督多架无人机的操作。该项目的第三部分将侧重于减少人类操作员的认知负担，无论他们是新手还是专家飞行员。为此，我们将开发人工智能工具，协助无人机操作员进行半自动实时数据处理。

以决策为中心的学习来预测规划的行动成本

分类： 人工智能, 机器人技术

作者： Jayanta Mandi, Marco Foschini, Daniel Holler, Sylvie Thiebaux, Jorg Hoffmann, Tias Guns

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06876v1

摘要： 在许多自动化规划应用中，行动成本可能很难指定。一个例子是通过某个路段所需的时间，这取决于许多因素，例如当前的天气状况。解决这个问题的一个自然方法是学习根据输入特征（例如天气预报）预测这些参数，并在随后的自动规划中使用预测的行动成本。决策聚焦学习 (DFL) 已成功地学习以优化解决方案质量而不是预测质量的方式预测组合优化问题的参数。与将预测和优化视为单独的任务相比，这种方法可以产生更好的结果。在本文中，我们首次调查了实施 DFL 进行自动化规划的挑战，以便学习预测行动成本。有两个主要挑战需要克服：（1）在梯度下降学习期间调用规划系统，以解决规划中不支持的具有负行动成本的规划问题。我们提出了新的梯度计算方法来避免这个问题。 (2) DFL 需要在训练期间重复调用规划器，这会限制该方法的可扩展性。我们尝试使用不同的方法来逼近最佳计划以及易于实现的缓存机制来加速学习过程。作为第一个针对自动规划的 DFL 的工作，我们证明了所提出的梯度计算始终能产生比旨在最小化预测误差的预测更好的计划；并且缓存可以缓和计算要求。

Learn2Decompose：学习问题分解以实现高效的任务和运动规划

分类： 机器人技术

作者： Yan Zhang, Amirreza Razmjoo, Sylvain Calinon

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06843v1

摘要： 我们专注于为涉及多个对象的多步骤操作的长视野操作任务设计高效的任务和运动规划（TAMP）方法。随着规划范围和环境对象数量的增加，TAMP 求解器通常需要指数级更长的规划时间。为了应对这一挑战，我们首先提出 Learn2Decompose，这是一种从演示中学习 (LfD) 方法，该方法从演示中学习嵌入任务规则，并将长期问题分解为多个子问题。这些子问题需要在较短的时间范围内使用较少的对象进行规划，并且可以并行解决。然后，我们设计了一个并行的分层 TAMP 框架，该框架可以同时解决子问题并连接目标任务的子计划，从而显着提高经典 TAMP 求解器的规划效率。我们提出的方法的有效性在模拟和现实实验中得到了验证。

探索不同环境条件下基于雷达的 3D 物体检测的域转移

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Miao Zhang, Sherif Abdulatif, Benedikt Loesch, Marco Altmann, Marius Schwarz, Bin Yang

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06772v1

摘要： 深度学习的快速发展及其与自动驾驶系统的集成使得使用多模态传感器的 3D 感知取得了巨大进步。值得注意的是，在恶劣天气和变化的照明条件下，与摄像机和激光雷达相比，雷达传感器表现出更高的鲁棒性。这项研究深入研究了基于 4D 雷达的物体检测中经常被忽视但至关重要的域转移问题，研究了不同的环境条件（例如不同的天气模式和道路类型）如何影响 3D 物体检测性能。我们的研究结果强调了不同天气场景下的不同领域变化，揭示了独特的数据集敏感性，强调了雷达点云生成的关键作用。此外，我们证明了不同道路类型之间的过渡，特别是从高速公路到城市环境的过渡，引入了显着的领域转变，强调了跨不同道路环境收集不同数据的必要性。据我们所知，这是首次对基于 4D 雷达的目标检测的域转移效应进行全面分析。我们相信这项实证研究有助于理解雷达数据域变化的复杂性质，并为面对环境变化的数据收集策略提出了前进的道路。

悬挂抓取：一种针对以前未见过的物体的免学习抓取检测方法

分类： 机器人技术

作者： Wanze Li, Wan Su, Gregory S. Chirikjian

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06734v1

摘要： 本文提出了一种新颖的免学习三阶段方法，可以预测抓取姿势，使机器人能够拾取和转移以前未见过的物体。我们的方法首先通过分析悬挂力学和几何特性来识别能够承受悬挂作用的潜在结构。然后，检测加有延伸杆的平行夹具的 6D 姿态，该延伸杆在闭合时形成环以钩住每个可悬挂结构。最后，评估政策质量并排名掌握候选人的执行尝试。与传统的基于物理模型和基于深度学习的方法相比，我们的方法更接近人类抓取未知物体的自然动作。它还消除了对大量训练数据的需求。为了评估所提出方法的有效性，我们用真实的机器人进行了实验。实验结果表明，抓取精度和稳定性明显高于最先进的基于学习的方法，特别是对于薄而扁平的物体。

用于动态环境中目标跟踪的自适应 USV 群优化

分类： 机器人技术

作者： Oren Gal

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06713v1

摘要： 本研究使用 k 最近邻自适应粒子群优化 (APSO-kNN) 算法研究无人水面车辆 (USV) 在多目标跟踪场景中的性能和效率。该研究探索了各种搜索模式——随机游走、螺旋、割草机和聚类搜索，以评估它们在动态环境中的有效性。通过广泛的模拟，我们评估了不同搜索策略的影响，改变目标数量和 USV 的传感能力，并集成追踪-规避模型来测试适应性。我们的研究结果表明，螺旋式和割草机等系统搜索模式提供了卓越的覆盖范围和跟踪精度，使其成为彻底区域探索的理想选择。相比之下，随机游走模式虽然适应性强，但由于其不确定性而显示出较低的准确性，而聚类搜索保持了群体凝聚力，但严重依赖于目标分布。混合策略结合了多种模式，在不同的场景中提供了强大的性能，而 APSO-kNN 有效地平衡了探索和利用，使其成为监视、搜索和救援以及环境监测等现实世界应用的一种有前途的方法。这项研究为优化 USV 群的搜索策略和传感配置提供了宝贵的见解，最终提高了它们在复杂环境中的运行效率和成功率。

SlotLifter：用于学习以对象为中心的辐射场的槽引导特征提升

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Yu Liu, Baoxiong Jia, Yixin Chen, Siyuan Huang

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06697v1

摘要： 从复杂的视觉场景中提取以对象为中心的抽象的能力支撑着人类水平的概括。尽管以对象为中心的学习方法取得了重大进展，但学习 3D 物理世界中以对象为中心的表示仍然是一个严峻的挑战。在这项工作中，我们提出了 SlotLifter，一种新颖的以对象为中心的辐射模型，通过槽引导的特征提升联合解决场景重建和分解问题。这种设计结合了以对象为中心的学习表示和基于图像的渲染方法，在四个具有挑战性的合成数据集和四个复杂的现实世界数据集上提供场景分解和新颖视图合成方面最先进的性能，优于现有的 3D 对象中心学习方法在很大程度上。通过广泛的烧蚀研究，我们展示了 SlotLifter 设计的功效，揭示了未来潜在方向的关键见解。

具有串联驱动功能的紧凑型机器人夹具，用于选择性水果采收

分类： 机器人技术, 系统与控制, 系统与控制

作者： Alejandro Velasquez, Cindy Grimm, Joseph R. Davidson

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06674v1

摘要： 由于植物叶子产生的遮挡和杂乱，选择性水果采收是一个具有挑战性的操作问题。收割夹具应 i) 具有较小的横截面，以避免接近水果时发生碰撞； ii) 具有柔软且顺应的抓握力，以适应不同的水果几何形状并避免碰伤； iii) 能够足够牢固地固定水果以抵消分离力。之前关于水果采摘的工作主要集中于使用具有单一驱动模式的夹具，无论是吸力还是手指。在本文中，我们提出了一种紧凑的机器人夹具，它结合了两者的优点。夹具首先使用一系列顺应性吸盘轻轻地附着在水果上。连接后，伸缩凸轮驱动的手指展开，扫除障碍物，然后向内旋转，牢固地抓住水果以进行采摘。我们展示并分析了手指设计，以实现扫除杂乱和保持紧握的能力。具体来说，我们使用电动测试台来测量每种驱动模式（吸力、手指或两者）的抓握强度。我们以不同角度（0{\deg}、15{\deg}、30{\deg} 和 45{\deg}）施加拉力，并改变手指和水果之间的接触点。我们观察到，两种模式下的抓握力约为 40 N。我们使用苹果代理来测试抓手在存在遮挡苹果和树叶的情况下获得抓握的能力，实现了超过 96% 的抓握成功率（使用理想的控制器））。最后，我们在商业苹果园中验证了我们的夹具。

采用复合连杆的双关节机器鱼的设计

分类： 机器人技术, 系统与控制, 系统与控制

作者： Ruijia Zhang, Wenke Zhou, Min Li, Miao Li

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06666v1

摘要： 机器鱼是新一代水下航行器最有前途的方向之一。传统的仿生鱼通常使用伺服系统等串联组件来模仿鱼的关节，这导致体积、重量和控制复杂性增加。本文设计了一种采用复合连杆机构的新型双关节机器鱼，其推进机构将电机的单自由度旋转转化为双自由度耦合运动，即尾脚平移和尾鳍旋转。推进机构的运动分析表明其能够密切模拟在鲫鱼中观察到的波动运动。实验结果进一步验证了所提出的推进机构的可行性。为了提高推进效率，分析了摆角幅度和摆频对机器鱼游动速度的影响。这项检查为此类机器鱼系统的未来研究奠定了实践基础。

MAPPO-PIS：一种用于 CAV 协作决策的具有先验意图共享的多智能体近端策略优化方法

分类： 机器人技术

作者： Yicheng Guo, Jiaqi Liu, Rongjie Yu, Peng Hang, Jian Sun

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06656v1

摘要： 车对车（V2V）技术在提高交通流效率和安全性方面具有巨大潜力。然而，多智能体系统中的协作决策，特别是在复杂的人机混合合并区域中，对于联网和自动驾驶车辆（CAV）来说仍然具有挑战性。意图共享是人类协调的一个关键方面，可能为这些决策问题提供有效的解决方案，但其在 CAV 中的应用尚未得到充分探索。本文提出了一种基于意图共享的协作方法，即具有先验意图共享的多智能体近端策略优化（MAPPO-PIS），它将 CAV 协作决策问题建模为多智能体强化学习（MARL）问题。它涉及通过集成两个关键模块来培训和更新代理策略：意图生成器模块（IGM）和安全增强模块（SEM）。 IGM 是专门为生成和传播 CAV 跨越多个未来时间步的预期轨迹而设计的。另一方面，SEM 在评估决策的安全性并在必要时纠正决策方面发挥着至关重要的作用。选择人机混合交通流的汇合区域来验证我们的方法。结果表明，MAPPO-PIS 显着提高了多智能体系统的决策性能，在安全性、效率和整体交通系统性能方面超越了最先进的基线。代码和视频演示可以在以下位置找到：\url{https://github.com/CCCC1dhcgd/A-MAPPO-PIS}。

一种基于视觉的微型室内飞艇定位系统

分类： 机器人技术

作者： Shicong Ma

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06648v1

摘要： 随着飞艇研究越来越受到关注，我希望建造一个室内飞艇来与人类互动。首先，我建议开发一种视觉定位系统，使飞艇能够在室内环境中自主定位。该系统最初通过采用具有超点视觉特征的Structure from Motion来重建室内环境。接下来，利用先前构建的稀疏点云地图，系统通过对从地图中观察到的匹配视觉特征连续采用姿势估计来生成相机姿势。在这个项目中，飞艇仅作为参考移动平台，限制感知系统的重量。感知系统包含一个单目摄像头和一个 WiFi 适配器，用于捕获视觉数据并将其传输到地面 PC 站，在那里执行算法。该项目的成功将把遥控室内飞艇转变为自主室内飞艇，可用于监控、广告和室内测绘等应用。

多机器人覆盖中的集中与分散：无人机监管下的地面机器人

分类： 机器人技术

作者： Aryo Jamshidpey, Mostafa Wahby, Mary Katherine Heinrich, Michael Allwright, Weixu Zhu, Marco Dorigo

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06553v1

摘要： 在群体机器人中，分散控制通常被认为是集中控制的一种更具可扩展性和容错性的替代方案。然而，中心化行为通常比去中心化行为更快、更高效。在任何给定的应用程序中，要解决的任务的目标和约束应指导选择使用集中式控制、分散式控制或两者的组合。目前，中心化和去中心化之间存在的权衡尚未得到深入研究。在本文中，我们研究了多机器人覆盖范围的这些权衡，发现它们比预期更加微妙。例如，我们的研究结果强化了这样的预期：更分散的控制将提供更好的可扩展性，但与更分散的控制在具有随机障碍的环境中表现更好的预期相矛盾。从一组完全独立的地面机器人执行覆盖开始，我们添加无人机作为监管者，并逐步提高监管者在获取全球信息和中央协调实体方面使用集中控制的程度。我们使用基于多机器人物理的仿真环境ARGoS，比较了以下四种控制方法：分散控制、混合控制、集中控制和预定控制。在比较执行覆盖任务的地面机器人时，我们评估了集中化的速度和效率优势（在覆盖完整性和覆盖均匀性方面），并评估了分散化的可扩展性和容错优势。我们还根据现有机器人的规格，评估了由于地面机器人和无人机的不同能耗率而导致的集中化的能源消耗劣势。

双手操作模仿学习算法的比较

分类： 机器人技术, 机器学习

作者： Michael Drolet, Simon Stepputtis, Siva Kailas, Ajinkya Jain, Jan Peters, Stefan Schaal, Heni Ben Amor

发布时间： 2024-08-13

链接： http://arxiv.org/abs/2408.06536v1

摘要： 尽管模仿学习算法在机器人技术中广泛流行，但其在超参数敏感性、易于训练、数据效率和性能方面的特性尚未在高精度工业环境中得到充分研究。在这项工作中，我们展示了著名的模仿学习方法的局限性和优点，并分析了它们在这些特性方面的能力。我们在复杂的双手操作任务上评估每种算法，该任务涉及过度约束的动力学系统，并且设置涉及被操作对象与环境之间的多个接触。虽然我们发现模仿学习非常适合解决此类复杂任务，但并非所有算法在处理环境和超参数扰动、训练要求、性能和易用性方面都是相同的。我们通过采用精心设计的实验程序和学习环境来研究这些关键特征的实证影响。论文网站：https://bimanual-imitation.github.io/

分层情境强化学习与事后模块化反思用于规划

分类： 机器人技术, 计算和语言

作者： Chuanneng Sun, Songjun Huang, Dario Pompili

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06520v1

摘要： 大型语言模型（LLM）在各种语言任务中表现出了卓越的能力，使其成为机器人决策的有希望的候选者。受分层强化学习（HRL）的启发，我们提出了分层上下文强化学习（HCRL），这是一种新颖的框架，它使用基于 LLM 的高级策略将复杂任务分解为子任务，其中复杂任务被分解为高层策略动态执行子任务。由目标定义的子任务被分配给低级策略来完成。一旦LLM代理人确定目标完成，就会提出新的目标。为了提高智能体在多阶段执行中的性能，我们提出了后见之明模块化反射（HMR），其中我们不反思完整的轨迹，而是用中间目标替换任务目标，并让智能体反思较短的轨迹以提高反射效率。我们在三个基准环境——ALFWorld、Webshop 和 HotpotQA 中评估了所提出的 HCRL 的决策能力。结果表明，与强大的情境学习基线相比，HCRL 在 5 次执行中可以实现 9%、42% 和 10% 的性能提升。

TacSL：视觉触觉传感器模拟和学习库

分类： 机器人技术

作者： Iretiayo Akinola, Jie Xu, Jan Carius, Dieter Fox, Yashraj Narang

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06506v1

摘要： 对于人类和机器人来说，触觉（称为触觉感知）对于执行富含接触的操作任务至关重要。机器人触觉感知的三个关键挑战是 1) 解释传感器信号，2) 在新场景中生成传感器信号，以及 3) 学习基于传感器的策略。对于视觉触觉传感器，它们与视觉传感器（例如 RGB 相机）的密切关系促进了解释。然而，生成仍然很困难，因为视觉触觉传感器通常涉及接触、变形、照明和成像，所有这些模拟起来都很昂贵；反过来，政策学习也充满挑战，因为模拟无法用于大规模数据收集。我们提出了 \textbf{TacSL} (\textit{taxel})，一个基于 GPU 的视觉触觉传感器模拟和学习的库。 \textbf{TacSL} 可用于模拟视觉触觉图像并提取接触力分布，速度比之前最先进的技术快 200 倍以上，所有这些都在广泛使用的 Isaac Gym 模拟器中进行。此外，\textbf{TacSL} 提供了一个学习工具包，其中包含多个传感器模型、接触密集型训练环境和在线/离线算法，可以促进模拟到真实应用的策略学习。在算法方面，我们引入了一种新颖的在线强化学习算法，称为非对称演员评论家蒸馏（\sysName），旨在有效且高效地学习模拟中基于触觉的策略，这些策略可以转移到现实世界。最后，我们通过评估蒸馏和多模态传感对于接触丰富的操作任务的好处，以及最关键的是执行模拟到真实的转换，展示了我们的库和算法的实用性。补充视频和结果位于 \url{https://iakinola23.github.io/tacsl/}。

基于图神经网络内在动机的异构多智能体强化学习中的去中心化合作

分类： 多代理系统, 人工智能, 机器人技术, I.2.6; I.2.9; I.2.11

作者： Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek Khan

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06503v1

摘要： 多智能体强化学习（MARL）正在成为各种顺序决策和控制任务的关键框架。与单代理系统不同，多代理系统需要代理之间的成功合作。在现实场景中部署这些系统通常需要分散的训练、多样化的代理以及从不常见的环境奖励信号中学习。在部分可观察性和缺乏有关主体异质性的先验知识的情况下，这些挑战变得更加明显。虽然著名的研究使用内在动机（IM）来解决分散环境中的奖励稀疏或合作问题，但那些处理异质性的研究通常假设集中训练、参数共享和代理索引。为了克服这些限制，我们提出了 CoHet 算法，该算法利用一种新颖的基于内在动机的图神经网络（GNN），在部分可观察性和奖励稀疏性的挑战下，促进去中心化环境中异构代理策略的学习。在多智能体粒子环境 (MPE) 和矢量化多智能体模拟器 (VMAS) 基准中对 CoHet 的评估表明，与一系列协作多智能体场景中的最新技术相比，CoHet 具有卓越的性能。我们的研究通过分析智能体动力学模型对内在动机模块的影响、深入了解不同 CoHet 变体的性能及其对越来越多的异构智能体的鲁棒性进行了补充。

UnitT：机器人学习的统一触觉表示

分类： 机器人技术

作者： Zhengtong Xu, Raghava Uppuluri, Xinwei Zhang, Cael Fitch, Philip Glen Crandall, Wan Shou, Dongyi Wang, Yu She

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06481v1

摘要： UnitT 是一种新颖的触觉表征学习方法，使用 VQVAE 来学习紧凑的潜在空间并用作触觉表征。它使用从单个简单对象获得的触觉图像来训练具有可转移性和通用性的表示。这种触觉表示可以零样本转移到各种下游任务，包括感知任务和操纵策略学习。我们对手动 3D 姿势估计任务的基准测试表明，UnitT 优于现有的视觉和触觉表示学习方法。此外，UnitT 在政策学习方面的有效性在涉及不同操纵对象和复杂的机器人-对象-环境交互的三个现实世界任务中得到了证明。经过大量实验，UnitT 被证明是一种训练简单、即插即用且广泛有效的触觉表征学习方法。有关更多详细信息，请参阅我们的开源存储库 https://github.com/ZhengtongXu/UnitT 和项目网站 https://zhengtongxu.github.io/unifiedtactile.github.io/。

HeLiMOS：用于异构 LiDAR 传感器的 3D 点云中的移动物体分割的数据集

分类： 计算机视觉和模式识别, 机器人技术

作者： Hyungtae Lim, Seoyeon Jang, Benedikt Mersch, Jens Behley, Hyun Myung, Cyrill Stachniss

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06328v1

摘要： 使用 3D 光检测和测距 (LiDAR) 传感器的运动物体分割 (MOS) 对于场景理解和运动物体识别至关重要。尽管市场上有各种类型的 3D LiDAR 传感器，但 MOS 研究仍然主要集中在机械旋转全向 LiDAR 传感器的 3D 点云上。因此，例如，我们缺乏具有 MOS 标签的数据集，用于来自具有不规则扫描模式的固态 LiDAR 传感器的点云。在本文中，我们提出了一个名为 \textit{HeLiMOS} 的标记数据集，它能够在四个异构 LiDAR 传感器（包括两个固态 LiDAR 传感器）上测试 MOS 方法。此外，我们引入了一种新颖的自动标记方法，可以大大减少人类注释者所需的标记工作。为此，我们的框架利用实例感知的静态地图构建方法和基于跟踪的错误标签过滤。最后，我们提供了关于 HeLiMOS 上常用的最先进 MOS 方法性能的实验结果，这为与传感器无关的 MOS 提出了一个新方向，无论用于捕获 3D 点的 LiDAR 传感器的类型如何，该方法通常都可以工作。云。我们的数据集可在 https://sites.google.com/view/helimos 上获取。

EqNIO：次等变神经惯性里程计

分类： 机器人技术, 计算机视觉和模式识别

作者： Royina Karegoudra Jayanth, Yinshuang Xu, Ziyun Wang, Evangelos Chatzipantazis, Daniel Gehrig, Kostas Daniilidis

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06321v1

摘要： 目前，神经网络被广泛用于根据惯性测量单元 (IMU) 数据准确估计 2D 位移和相关不确定性，这些数据可以集成到扩展卡尔曼滤波器 (EKF) 等随机滤波器网络中，作为滤波器更新步骤的测量和不确定性。然而，这种神经方法忽视了对称性，而对称性是模型泛化的关键归纳偏差。这种疏忽是值得注意的，因为（i）在考虑重力轴时，物理定律遵循对称原则，这意味着物理实体和产生的轨迹都存在相同的变换，并且（ii）当惯性框架变化。为了解决这个问题，我们提出了一个次等变框架：（i）派生基本层，例如用于次等变网络的线性和非线性层，旨在处理向量和标量序列，（ii）采用次等变网络来预测等变框架惯性测量的顺序。然后可以利用该预测帧通过投影提取不变特征，并将其与任意网络架构集成，（iii）通过帧变换来变换不变输出以获得等变位移和协方差。我们通过针对 TLIO 和 Aria 数据集的 TLIO 架构的基于过滤器的方法以及针对 RONIN、RIDI 和 OxIOD 数据集的 RONIN 架构的端到端深度学习方法，展示了我们的等变框架的有效性和泛化性。

Body Transformer：利用机器人实施进行策略学习

分类： 机器人技术, 人工智能, 机器学习

作者： Carmelo Sferrazza, Dun-Ming Huang, Fangchen Liu, Jongmin Lee, Pieter Abbeel

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06316v1

摘要： 近年来，Transformer架构已经成为应用于自然语言处理和计算机视觉的机器学习算法的事实上的标准。尽管有显着的证据表明该架构在机器人学习的背景下成功部署，但我们声称普通变压器并没有充分利用机器人学习问题的结构。因此，我们提出了 Body Transformer (BoT)，这是一种通过提供指导学习过程的归纳偏差来利用机器人体现的架构。我们将机器人身体表示为传感器和执行器的图，并依赖于整个架构中池信息的屏蔽注意力。在表示模仿或强化学习策略时，所得到的架构在任务完成、缩放特性和计算效率方面优于普通变压器以及经典的多层感知器。包括开源代码在内的其他材料可在 https://sferrazza.cc/bot_site 上获取。

EyeSight Hand：具有集成视觉触觉传感器和兼容驱动的全驱动灵巧机器人手的设计

分类： 机器人技术

作者： Branden Romero, Hao-Shu Fang, Pulkit Agrawal, Edward Adelson

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06265v1

摘要： 在这项工作中，我们介绍了 EyeSight Hand，这是一款新颖的 7 自由度 (DoF) 人形手，具有集成的基于视觉的触觉传感器，专为增强全手操作而定制。此外，我们引入了一种以准直接驱动驱动为中心的驱动方案，以实现类人的力量和速度，同时确保大规模数据收集的鲁棒性。我们在三个具有挑战性的任务上评估了 EyeSight Hand：开瓶、橡皮泥切割以及板拾取和放置，这些任务需要复杂的操作、工具使用和精确的施力。针对这些任务训练的模仿学习模型，采用新颖的视觉退出策略，展示了触觉反馈在提高任务成功率方面的好处。我们的结果表明，触觉传感的集成极大地提高了任务绩效，强调了触觉信息在灵巧操作中的关键作用。

Stable-BC：通过稳定行为克隆控制协变量偏移

分类： 机器人技术

作者： Shaunak A. Mehta, Yusuf Umut Ciftci, Balamurugan Ramachandran, Somil Bansal, Dylan P. Losey

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06246v1

摘要： 行为克隆是一种常见的模仿学习范式。在行为克隆中，机器人收集专家演示，然后训练策略以匹配专家采取的行动。当机器人学习者访问专家已经演示了正确动作的状态时，这种方法效果很好；但不可避免的是，机器人也会遇到训练数据集之外的新状态。如果机器人学习器在这些新状态下采取错误的行动，它可能会远离训练数据，进而导致越来越多的不正确行动和复合错误。现有的工作试图通过增加或增强训练数据来解决这一基本挑战。相比之下，在我们的论文中，我们开发了行为克隆策略的控制理论属性。具体来说，我们考虑系统当前状态与专家数据集中的状态之间的误差动态。从误差动态中，我们得出基于模型和无模型的稳定性条件：在这些条件下，机器人制定其策略，使其当前行为收敛于专家数据集中的示例行为。在实践中，这产生了 Stable-BC，这是一种易于实现的标准行为克隆扩展，可证明对协变量偏移具有鲁棒性。我们展示了我们的算法在交互式、非线性和视觉环境的模拟中的有效性。我们还进行了机器人手臂使用 Stable-BC 打空气曲棍球的实验。请参阅我们的网站：https://collab.me.vt.edu/Stable-BC/

走向无约束的碰撞伤害保护数据集：人手的初步替代实验

分类： 机器人技术, 数据库

作者： Robin Jeanne Kirschner, Jinyu Yang, Edonis Elshani, Carina M. Micheler, Tobias Leibbrand, Dirk Müller, Claudio Glowalla, Nader Rajaei, Rainer Burgkart, Sami Haddadin

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06175v1

摘要： 人机交互 (pHRI) 的安全性是所有应用领域的主要关注点。虽然工业机器人应用的当前标准化提供了解决钝器冲击时疼痛发作的安全约束，但这些冲击阈值很难在有边缘或尖的冲击器上使用。最严重的伤害发生在有限的接触场景中，可能会发生挤压。然而，可能导致接触受限的情况仅发生在工作空间的某些区域，可以使用设计或组织方法来避免它们。剩下的就是不受约束的意外接触对人体健康造成的风险，这些风险在保持机器人运动效率的同时很难避免。然而，在无约束碰撞中，边缘或尖头撞击物体造成伤害的可能性和严重程度却很少被研究。在本文中，我们提出了一种实验设置和程序，使用两个摆锤模拟人手和手臂以及机器人，以了解人手与边缘物体无约束碰撞的潜在伤害。根据我们之前的研究，我们使用猪脚作为离体替代样本（因为它们与人手的生理特征非常相似），以创建一个关于不受约束的边缘或尖锐撞击造成的伤害严重程度的初始伤害数据库。除了对人类损伤发生的其他研究之外，使用此类实验装置和程序最终将导致对 pHRI 中生物力学损伤潜力的完全了解。

最小驱动串行机器人的运动规划

分类： 机器人技术

作者： Avi Cohen, Avishai Sintov, David Zarrouk

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06143v1

摘要： 现代机械手因其精确度而备受赞誉，但往往难以在有限的空间内进行操作。这种限制推动了超冗余和连续体机器人的发展。虽然它们具有独特的优势，但它们也面临着重量、机械复杂性、建模和成本等挑战。最小驱动串行机器人（MASR）被认为是一种重量轻、成本低且更简单的替代方案，其中被动关节由沿着手臂移动的移动执行器（MA）驱动。然而，逆运动学 (IK) 和 MASR 的通用运动规划算法尚未得到解决。在这封信中，我们提出了专为 MASR 独特的运动学而开发的 MASR-RRT* 运动规划算法。该算法的主要组成部分是一个基于数据的模型，用于解决 IK 问题，同时考虑 MA 的最小遍历。该模型仅使用 MASR 的正向运动学进行训练，不需要真实数据。通过将该模型作为本地连接机制，MASR-RRT* 最小化了表示动作时间的成本函数。在综合分析中，我们表明 MASR-RRT* 的性能优于标准 RRT* 的直接实施。在不同障碍环境下的真实机器人上进行的实验验证了所提出的算法。

IIT Bombay Racing Driverless：用于学生方程式 AI 的自动驾驶堆栈

分类： 机器人技术

作者： Yash Rampuria, Deep Boliya, Shreyash Gupta, Gopalan Iyengar, Ayush Rohilla, Mohak Vyas, Chaitanya Langde, Mehul Vijay Chanda, Ronak Gautam Matai, Kothapalli Namitha, Ajinkya Pawar, Bhaskar Biswas, Nakul Agarwal, Rajit Khandelwal, Rohan Kumar, Shubham Agarwal, Vishwam Patel, Abhimanyu Singh Rathore, Amna Rahman, Ayush Mishra, Yash Tangri

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06113v1

摘要： 这项工作展示了 IIT Bombay Racing 学生方程式风格自主赛车算法的设计和开发，该算法能够在英国举行的学生方程式-AI 比赛中运行。该车采用了由 NVIDIA Jetson Orin AGX 计算单元组成的尖端传感器套件、2 个 ZED2i 立体摄像头、1 个 Velodyne Puck VLP16 LiDAR 和 SBG Systems Ellipse N GNSS/INS IMU。它具有深度学习算法和控制系统，可以在没有任何人工干预的情况下导航复杂的轨道并执行操作。设计过程涉及广泛的模拟和测试，以优化车辆的性能并确保其安全性。这些算法已在小型内部制造的四轮机器人和仿真软件上进行了测试。详细介绍了在感知、同步定位和建图、路径规划和控制方面测试各种算法所获得的结果。

Text2Interaction：建立安全且优选的人机交互

分类： 机器人技术

作者： Jakob Thumm, Christopher Agia, Marco Pavone, Matthias Althoff

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06105v1

摘要： 根据人类偏好调整机器人行为可能需要大量的人类反馈，从而妨碍快速适应新用户和不断变化的环境。此外，当前的方法通常将用户偏好视为奖励，这需要在任务成功和用户满意度之间进行手动平衡。为了以零次方式集成新的用户偏好，我们提出的 Text2Interaction 框架调用大型语言模型来生成任务计划、Python 代码形式的运动偏好以及安全控制器的参数。通过最大化任务完成和用户满意度的组合概率而不是奖励的加权总和，我们可以可靠地找到满足这两个要求的计划。我们发现，83% 使用 Text2Interaction 的用户同意它将他们的偏好集成到机器人的计划中，94% 的用户更喜欢 Text2Interaction。我们的消融研究表明，Text2Interaction 比其他基线更好地符合看不见的偏好，同时保持高成功率。

开发智能 MAV，用于在 GPS 无法接收的建筑中进行自主检查

分类： 机器人技术

作者： Paoqiang Pan, Kewei Hu, Xiao Huang, Wei Ying, Xiaoxuan Xie, Yue Ma, Naizhong Zhang, Hanwen Kang

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06030v1

摘要： 智能微型飞行器 (MAV) 能够在施工的各个阶段（包括难以到达的区域）进行高效、高分辨率的监控，从而改变了基础设施检查的方式。在工业设施和基础设施等缺乏 GPS 的环境中，传统的无人机手动操作方式是劳动密集型、繁琐且容易出错的。这项研究提出了一种创新框架，用于在这种复杂且无法使用 GPS 的室内环境中进行智能 MAV 检查。该框架具有分层感知和规划系统，可识别感兴趣区域并优化任务路径。它还展示了先进的 MAV 系统，具有增强的定位和运动规划功能，与神经重建技术相集成，可实现建筑结构的全面 3D 重建。该框架的有效性在一个4000平方米的室内基础设施中得到了实证验证，该设施的内部长度为80米，宽度为50米，高度为7米。主体结构由柱和墙组成。实验结果表明，我们的 MAV 系统在自主检测任务中表现出色，在生成和执行扫描路径方面实现了 100% 的成功率。大量实验验证了我们开发的 MAV 的可操作性，运动规划成功率达到 100%，跟踪误差小于 0.1 米。此外，使用 3D 高斯 Splatting 技术的增强重建方法可以根据获取的数据生成高保真渲染模型。总的来说，我们的新颖方法代表了使用机器人进行基础设施检查的重大进步。

一种检测四旋翼飞行器失控的新指标

分类： 机器人技术, 系统与控制, 系统与控制

作者： Jasper van Beers, Prashant Solanki, Coen de Visser

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06025v1

摘要： 无人机（UAV）正在成为工业和社会不可或缺的一部分。特别是，四旋翼飞行器现在在众多领域都具有无价的价值，而最近的发展，例如空中操纵器的加入，只会扩展其多功能性。随着无人机的日益普及，防止失控 (LOC) 成为人们日益关注的问题。不幸的是，四旋翼飞行器或许多其他自主系统的 LOC 没有明确定义。此外，任何现有的定义通常都是不完整且具有限制性的。引入了一种基于执行器功能的新颖指标来检测四旋翼飞行器的 LOC。通过模拟和真实四旋翼飞行数据证明了该指标在 LOC 检测方面的潜力。它能够检测执行器故障引起的 LOC，而无需明确了解故障的发生和性质。所提出的指标也足够灵敏，可以在更细微的情况下检测 LOC，在这种情况下，四旋翼飞行器保持未损坏，但仍然通过激进的偏航动作失去控制。由于该度量仅取决于系统和执行器模型，因此它具有足够的通用性，可以应用于其他系统。

多模态软气动执行器的生成设计

分类： 机器人技术

作者： Saswath Ghosh, Sitikantha Roy

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.06002v1

摘要： 机器学习技术的最新进展引导我们走向数据驱动的产品设计。受此目标的推动，本研究提出了一种自动化设计方法，该方法采用数据驱动方法来生成软执行器的新设计。数据驱动的自动化设计过程的瓶颈之一是使用公开数据来训练模型。由于其不可用，我们创建了软气动网络 (Pneu-net) 执行器的综合数据集。用于训练生成模型的参数化设计数据集是使用数据增强创建的。接下来，高斯混合模型被应用于生成 Pneu-net 执行器的新颖参数设计。基于距离的度量定义了生成的设计的新颖性和多样性。此外，值得注意的是，该模型有潜力生成多模态 Pneu-net 执行器，可以执行面内弯曲和面外扭曲。随后，新颖的设计通过有限元分析来评估生成的设计的质量。此外，每类 Pneu-net 执行器的轨迹评估了生成的 Pneu-net 执行器的性能，并强调了多模式驱动的必要性。所提出的模型可以通过从开发的新型软执行器池中选择软执行器来加速新型软机器人的设计。

探索和学习结构：导航代理中的主动推理方法

分类： 人工智能, 神经和进化计算, 机器人技术

作者： Daria de Tinguy, Tim Verbelen, Bart Dhoedt

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05982v1

摘要： 从动物导航策略中汲取灵感，我们引入了一种新颖的导航和绘图计算模型，该模型植根于生物学原理。动物通过有效地利用记忆、想象力和战略决策来导航复杂和别名的环境，从而表现出卓越的导航能力。基于这些见解，我们将传统的认知映射方法与主动推理框架 (AIF) 相结合，只需几个步骤即可学习环境结构。通过结合用于长期记忆的拓扑映射和用于导航规划和结构学习的 AIF，我们的模型可以动态地理解环境结构，并在探索过程中用预测信念扩展其内部地图。与克隆结构图（CSCG）模型的比较实验突显了我们的模型能够在单个事件中快速学习环境结构，并且导航重叠最小。这是在事先不了解环境维度或观测类型的情况下实现的，展示了其在模糊环境中导航的稳健性和有效性。

CAD-Mesher：用于动态环境的 SLAM 中方便、准确、基于密集网格的映射模块

分类： 机器人技术

作者： Yanpeng Jia, Fengkui Cao, Ting Wang, Yandong Tang, Shiliang Shao, Lianqing Liu

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05981v1

摘要： 大多数 LiDAR 里程计和 SLAM 系统都是在点云中构建地图，这些地图在放大时是离散且稀疏的，这使得它们不直接适合导航。网格地图代表了一种密集且连续的地图格式，内存消耗低，可以用简单的元素近似复杂的结构，近年来引起了研究人员的极大关注。然而，大多数实现都是在静态环境假设下运行的。实际上，移动的物体会导致重影，从而可能降低网格划分的质量。为了解决这些问题，我们提出了一种适应动态环境的即插即用网格划分模块，它可以轻松地与各种LiDAR里程计集成，以普遍提高里程计的位姿估计精度。在我们的网格划分模块中，设计了一种新颖的两阶段从粗到细的动态去除方法，可以有效地过滤动态对象，生成一致、准确和密集的网格图。据我们所知，这是第一个具有显式动态移除的网格构建方法。此外，有利于网格构建的高斯过程，采用基于滑动窗口的关键帧聚合和自适应下采样策略来保证点云的均匀性。我们评估五个公开数据集的定位和地图准确性。定性和定量结果都证明了我们的方法与最先进的算法相比的优越性。代码和介绍视频可在 https://yaepiii.github.io/CAD-Mesher/ 上公开获取。

Spb3DTracker：适用于嘈杂环境的强大的基于 LiDAR 的人体跟踪器

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Eunsoo Im, Changhyun Jee, Jung Kwon Lee

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05940v2

摘要： 在自动驾驶汽车领域，基于 2D 摄像头的系统在人员检测和跟踪 (PDT) 方面取得了显着进步，导致这些算法得到广泛采用。然而，日益增长的隐私问题最近已成为一个主要问题，促使人们转向基于激光雷达的 PDT 作为可行的替代方案。在这个领域中，“检测跟踪”（TBD）已成为一种重要的方法。尽管有效，基于激光雷达的 PDT 尚未达到与基于摄像头的 PDT 相同的性能水平。本文研究了基于 LiDAR 的 PDT 框架的关键组件，包括检测后处理、数据关联、运动建模和生命周期管理。基于这些见解，我们推出了 SpbTrack，这是一款专为不同环境而设计的强大人员跟踪器。我们的方法在噪声数据集上实现了卓越的性能，并在基于 LiDAR 的跟踪器中的 KITTI 数据集基准和自定义办公室室内数据集上实现了最先进的结果。

适应天基任务的基础模型

分类： 机器人技术, 人工智能

作者： Matthew Foutter, Praneet Bhoj, Rohan Sinha, Amine Elhafsi, Somrita Banerjee, Christopher Agia, Justin Kruger, Tommaso Guffanti, Daniele Gammelli, Simone D'Amico, Marco Pavone

发布时间： 2024-08-12

链接： http://arxiv.org/abs/2408.05924v1

摘要： 基础模型（例如大型语言模型）具有智能属性，有望赋予机器人在野外完成复杂、非结构化任务所需的上下文理解能力。在太空机器人的未来中，我们看到了三个核心挑战，这些挑战促使使用适合天基应用的基础模型：1）地面在环操作的可扩展性； 2）将先验知识推广到新环境； 3）任务和传感器数据的多模态。因此，作为构建基于空间的应用程序的基础模型的第一步，我们自动标记 AI4Mars 数据集，以整理视觉问题答案元组的语言注释数据集。我们在此数据集上微调预训练的 LLaVA 检查点，赋予视觉语言模型在火星表面执行空间推理和导航的能力。在这项工作中，我们证明了 1) 现有的视觉语言模型在基于空间的应用中缺乏视觉推理机，2) 即使在训练数据集有限的情况下，根据外星数据微调视觉语言模型也可以显着提高响应质量仅几千个样本。

具有多阈值策略的通用柔性近传感器神经形态触觉系统，用于压力特性检测

分类： 神经和进化计算, 机器人技术

作者： Jialin Liu, Diansheng Liao

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05846v2

摘要： 模仿生物神经系统构建新一代信息处理系统是实现高效智能传感装置和仿生机器人的可行途径。然而，大多数生物神经系统，特别是触觉系统，都具有各种强大的功能。这对于仿生系统设计来说是一个很大的挑战。在这里，我们报告了一种通用的完全灵活的神经形态触觉感知系统，具有很强的兼容性和多阈值信号处理策略。与神经系统一样，我们系统中的信号以脉冲形式传输并作为阈值信息进行处理。为了验证可行性，分别测试了三种不同类型压力信号（连续变化信号、莫尔斯电码信号和符号模式）的识别。我们的系统可以准确地输出这些信号的趋势，并且在符号模式和摩尔斯电码的识别方面具有很高的准确性。与传统系统相比，我们的系统在相同的识别任务中的消耗显着降低。同时，我们对系统的通用性进行了详细的介绍和论证。

RALTPER：具有高斯不确定性的复杂环境的风险感知局部轨迹规划器

分类： 机器人技术

作者： Cheng Chi

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05838v1

摘要： 在本文中，我们提出了一种新颖的风险感知局部轨迹规划器（RALTPER），用于以高斯不确定性为特征的复杂环境中的自动驾驶车辆。所提出的方法通过利用概率模型来评估与动态和静态障碍物发生碰撞的可能性，从而将风险意识和轨迹规划结合起来。 RALTPER 重点关注自我车辆区域和高斯障碍物风险区域的防撞约束。此外，这项工作增强了车辆和障碍物模型的泛化能力，使规划器能够适应更广泛的场景。我们的方法将规划问题表述为非线性优化，并使用 CasADi 环境中的 IPOPT 求解器进行求解。通过模拟各种具有挑战性的场景（包括复杂、静态、混合环境和狭窄的单车道避让行人）来评估规划器。结果表明，RALTPER 实现了更安全、更高效的轨迹规划，特别是在狭窄区域的导航中，在这些区域中，更准确的车辆轮廓表示对于避免碰撞至关重要。

使用汽车偏振雷达进行基于地标的车辆自定位

分类： 机器人技术, 信号处理

作者： Fabio Weishaupt, Julius F. Tilly, Nils Appenrodt, Pascal Fischer, Jürgen Dickmann, Dirk Heberling

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05811v1

摘要： 汽车自定位是任何自动驾驶功能的一项基本任务。这意味着车辆必须可靠地知道其位置和方向，精度分别为几厘米和几度。本文提出了一种基于雷达的自定位方法，该方法利用完全偏振散射信息来进行鲁棒的地标检测。所提出的方法在给定地图的定位期间不需要来自雷达以外的传感器的输入。通过将地标观测值与地图地标相关联，可以推断出车辆的位置。抽象的点状和线状地标允许紧凑的地图尺寸，并与所使用的因子图公式相结合，实现高效的实施。对不同环境中广泛的现实世界实验的评估表明，通过利用极化信息，整体定位性能有望达到 $0.12 \text{m}$ RMS 绝对轨迹和 $0.43 {}^\circ$ RMS 航向误差。不同级别偏振信息性能的比较证明了在具有挑战性的场景中的优势。

通过动态拓扑图上的 Voronoi 分区进行快速且通信高效的多无人机探索

分类： 机器人技术, 多代理系统

作者： Qianli Dong, Haobo Xi, Shiyong Zhang, Qingchen Bi, Tianyi Li, Ziyu Wang, Xuebo Zhang

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05808v1

摘要： 高效的数据传输和合理的任务分配对于提高多机器人探索效率具有重要意义。然而，大多数通信数据类型通常包含冗余信息，因此需要大量通信量。此外，以探索为导向的任务分配绝非易事，对于资源有限的无人机（UAV）来说变得更具挑战性。在本文中，我们提出了一种快速且通信高效的多无人机探索方法，用于探索大型环境。我们首先设计一个多机器人动态拓扑图（MR-DTG），由代表已探索和探索区域的节点以及连接节点的边组成。在 MR-DTG 的支持下，我们的方法只需传输勘探规划所需的必要信息即可实现高效通信。为了进一步提高探索效率，利用MR-DTG设计了分层多无人机探索方法。具体来说，考虑实际运动成本，使用\emph{图Voronoi分区}将MR-DTG的节点分配给最近的无人机，从而实现合理的任务分配。据我们所知，这是第一个使用 \emph{graph Voronoi 分区} 来解决多无人机探索问题的工作。所提出的方法与模拟中最先进的方法进行了比较。结果表明，该方法能够分别减少探索时间和通信量高达 38.3% 和 95.5%。最后，我们的方法的有效性在 6 架无人机的实际实验中得到了验证。我们将发布源代码以造福社区。

基于矢量的快速非凸障碍任意角度路径规划

分类： 机器人技术, 计算几何

作者： Yan Kai Lai

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05806v1

摘要： 基于矢量的算法是最佳任意角度路径规划中的新颖算法，其灵感来自错误算法，通过直接在两个查询点之间进行视线检查来绕过自由空间，并在检查与障碍物碰撞时沿着障碍物轮廓进行搜索。该算法的性能优于 A* 等传统的自由空间规划器，尤其是当查询点相距较远时。该论文提出了新颖的搜索方法，通过延迟视线检查来加速非凸障碍物中基于矢量的算法。 “最佳船体”是一种值得注意的方法，即使不验证视线，也可以利用放置在非凸角上的“幻像点”来模拟未来的转折点，从而单调增加路径成本估计。在这些方法的基础上，制定了算法 R2 和 R2+，当预计最优路径解决方案具有很少的转折点时，该算法优于其他基于向量的算法。其他新颖的方法包括用于占用网格的新颖且多功能的多维射线追踪器，以及对未来工作的三维角扇区的描述。

使用拓扑细化的交错任务和运动规划的元引擎框架

分类： 机器人技术, 人工智能

作者： Elisa Tosello, Alessandro Valentini, Andrea Micheli

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05795v1

摘要： 任务和运动规划（TAMP）是寻找自动规划问题的解决方案，其中包括由低级连续运动执行的离散动作。该领域在机器人界越来越引起人们的兴趣，因为它显着增强了机器人在现实应用中的自主性。存在许多解决方案和表述，但尚未出现明确的标准表示。在本文中，我们提出了一个通用的开源框架，用于对 TAMP 问题进行建模和基准测试。此外，我们引入了一种创新的元技术来解决涉及移动代理和多个任务状态相关障碍的 TAMP 问题。这种方法允许使用任何现成的任务规划器和运动规划器，同时利用运动规划器搜索空间的几何分析来修剪任务规划器的探索，从而提高其效率。我们还展示了如何针对基于增量 SMT 的规划器的情况专门化此元引擎。我们展示了我们的方法在日益复杂的基准问题上的有效性，其中机器人必须在具有可移动障碍物的环境中导航。最后，我们将最先进的 TAMP 算法集成到我们的框架中，并将其性能与我们的成就进行比较。

用于城市和森林中多旋翼飞行器导航的强大气压雷达惯性里程计 m 估计器

分类： 机器人技术, 信号处理

作者： Rik Girod, Marco Hauswirth, Patrick Pfreundschuh, Mariano Biasio, Roland Siegwart

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05764v1

摘要： 搜索和救援行动需要移动机器人在非结构化的室内和室外环境中导航。特别是主动稳定的多旋翼无人机需要精确的运动数据来平衡和避开障碍物。事实证明，即使在视觉或几何退化的环境中，片上雷达的径向速度与 MEMS 惯性传感相结合也能提供稳健、轻便且一致的状态估计。统计测试使这些估计器针对雷达异常值更加稳健。然而，二进制异常值过滤器的可用工作缺乏对各种硬件设置和环境的适应性。其他工作主要在手持静态环境或汽车环境中进行测试。这项工作介绍了一种强大的气压雷达惯性里程计 (BRIO) m 估计器，用于典型 GNSS 拒绝场景中的四轴飞行器飞行。在城市和森林中进行的广泛的现实世界闭环飞行展示了对移动物体和幽灵目标的鲁棒性，保持了每次飞行距离 0.5% 至 3.2% 漂移的一致性能。公共数据集的基准验证了系统的通用性。代码、数据集和视频可在 https://github.com/ethz-asl/rio 获取。

陆地移动机器人无地图导航的并行分布式深度强化学习

分类： 机器人技术

作者： Victor Augusto Kich, Alisson Henrique Kolling, Junior Costa de Jesus, Gabriel V. Heisler, Hiago Jacobs, Jair Augusto Bottega, André L. da S. Kelbouscas, Akihisa Ohya, Ricardo Bedin Grando, Paulo Lilles Jorge Drews-Jr, Daniel Fernando Tello Gamarra

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05744v1

摘要： 本文介绍了新颖的深度强化学习（Deep-RL）技术，使用并行分布式行动者批评家网络来导航地面移动机器人。我们的方法使用激光测距、相对距离和与目标的角度来引导机器人。我们在 Gazebo 模拟器中训练代理并将其部署在真实场景中。结果表明，并行分布式 Deep-RL 算法可以增强决策能力，并且在导航和空间泛化方面优于非分布式和基于行为的方法。

MR-ULINS：具有多历元异常值抑制功能的紧耦合 UWB-LiDAR 惯性估计器

分类： 机器人技术, 信号处理

作者： Tisheng Zhang, Man Yuan, Linfu Wei, Yan Wang, Hailiang Tang, Xiaoji Niu

发布时间： 2024-08-11

链接： http://arxiv.org/abs/2408.05719v1

摘要： LiDAR惯性里程计（LIO）和超宽带（UWB）集成在一起，可在全球导航卫星系统（GNSS）无法使用的环境中实现无漂移定位。然而，UWB可能会受到系统距离误差（例如时钟漂移和天线相位中心偏移）和非视距（NLOS）信号的影响，导致鲁棒性降低。在本研究中，我们提出了一种 UWB-LiDAR 惯性估计器 (MR-ULINS)，它将 UWB 范围、LiDAR 帧到帧和 IMU 测量紧密集成在多状态约束卡尔曼滤波器 (MSCKF) 框架内。系统范围误差经过精确建模，可以在线估计和补偿。此外，我们利用 LIO 的相对精度提出了一种用于 UWB NLOS 的多历元异常值拒绝算法。具体来说，LIO 的相对轨迹用于验证滑动窗口内所有距离测量的一致性。大量实验结果表明，MR-ULINS在非视距干扰严重的复杂室内环境下可实现0.1 m左右的定位精度。消融实验表明，在线估计和多历元异常值剔除可以有效提高定位精度。此外，MR-ULINS 在 LiDAR 退化场景和 UWB 挑战条件下利用备用基站保持高精度和鲁棒性。

使用视觉语言模型的多智能体规划

分类： 人工智能, 机器人技术

作者： Michele Brienza, Francesco Argenziano, Vincenzo Suriani, Domenico D. Bloisi, Daniele Nardi

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05478v1

摘要： 大型语言模型 (LLM) 和视觉语言模型 (VLM) 由于改进了跨领域和任务的性能和应用程序而引起了越来越多的兴趣。然而，LLM 和 VLM 可能会产生错误的结果，特别是当需要深入了解问题领域时。例如，当同时需要规划和感知时，这些模型常常会因为难以合并多模态信息而陷入困境。为了解决这个问题，通常采用微调模型并在代表环境的专门数据结构上进行训练。这种方法的有效性有限，因为它会使处理上下文过于复杂。在本文中，我们提出了一种用于具体任务规划的多代理架构，该架构无需特定的数据结构作为输入即可运行。相反，它使用环境的单一图像，通过利用常识知识来处理自由形式的域。我们还引入了一种新颖的全自动评估程序 PG2S，旨在更好地评估计划的质量。我们使用广泛认可的 ALFRED 数据集验证了我们的方法，将 PG2S 与现有的 KAS 指标进行比较，以进一步评估生成计划的质量。

FedRobo：联合学习驱动的自主机器人间通信以实现最佳化学喷雾

分类： 机器学习, 计算机视觉和模式识别, 分布式、并行和集群计算, 机器人技术

作者： Jannatul Ferdaus, Sameera Pisupati, Mahedi Hasan, Sathwick Paladugu

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.06382v1

摘要： 联合学习使机器人能够从彼此的经验中学习，而无需依赖集中式数据收集。每个机器人独立维护作物状况和化学喷雾有效性的模型，并定期与车队中的其他机器人共享。通信协议旨在通过促进有关作物状况、天气和其他关键因素的信息交换来优化化学喷雾应用。联合学习算法利用这些共享数据不断完善化学喷雾策略，减少浪费并提高作物产量。这种方法有可能通过提供可扩展且高效的作物保护解决方案来彻底改变农业产业。然而，仍然存在重大挑战，包括开发安全可靠的通信协议、设计有效集成多源数据的联邦学习算法，以及确保自主机器人的安全性和可靠性。所提出的基于集群的联邦学习方法还有效地减少了全局服务器上的计算负载，并最大限度地减少了客户端之间的通信开销。

具有 3D 高斯基元和深度先验的视觉 SLAM 实现新颖的视图合成

分类： 计算机视觉和模式识别, 机器人技术

作者： Zhongche Qu, Zhi Zhang, Cong Liu, Jianhua Yin

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05635v1

摘要： 传统的基于几何的 SLAM 系统缺乏密集的 3D 重建能力，因为它们的数据关联通常依赖于特征对应。此外，基于学习的 SLAM 系统在实时性能和准确性方面往往存在不足。平衡实时性能与密集 3D 重建功能是一个具有挑战性的问题。在本文中，我们提出了一种实时 RGB-D SLAM 系统，该系统结合了一种新颖的视图合成技术，即 3D 高斯分布，用于 3D 场景表示和姿态估计。该技术利用光栅化 3D 高斯分布的实时渲染性能，并允许通过 CUDA 实现实时进行可微分优化。我们还支持从 3D 高斯进行网格重建，以实现显式密集 3D 重建。为了估计准确的相机位姿，我们利用具有逆优化的旋转平移解耦策略。这涉及通过基于梯度的优化在多次迭代中迭代更新两者。该过程包括以不同方式渲染 RGB、深度和轮廓图，并更新相机参数，以在给定现有 3D 高斯图的情况下最大限度地减少光度损失、深度几何损失和可见度损失的组合损失。然而，由于 3D 高斯的多视图不一致，3D 高斯溅射 (3DGS) 很难准确地表示表面，这可能导致相机姿态估计和场景重建的准确性降低。为了解决这个问题，我们利用深度先验作为额外的正则化来强制几何约束，从而提高姿态估计和 3D 重建的准确性。我们还在公共基准数据集上提供了广泛的实验结果，以证明我们提出的方法在姿势精度、几何精度和渲染性能方面的有效性。

用于解决无数据对应的手眼校准的生成对抗网络

分类： 机器人技术

作者： Ilkwon Hong, Junhyoung Ha

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05613v1

摘要： 在这项研究中，我们重新发现了生成对抗网络（GAN）的框架，作为无需数据对应的校准问题的求解器。当数据对应不存在或松散建立时，校准问题变成对齐两个数据分布的参数估计问题。此过程在概念上与 GAN 训练的基本原理相同，即训练网络以将生成分布与真实数据分布相匹配。作为主要应用，该思想被应用于手眼校准问题，证明了所提出的方法在复杂校准问题中的适用性和优势。

来自人类反馈的表示对齐，用于从混合质量演示中进行跨实施例奖励学习

分类： 机器人技术, 人工智能

作者： Connor Mattson, Anurag Aribandi, Daniel S. Brown

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05610v1

摘要： 我们研究跨实施例逆强化学习的问题，我们希望从一个或多个实施例中的视频演示中学习奖励函数，然后将学习到的奖励转移到不同的实施例（例如，不同的动作空间、动态、大小、形状）， ETC。）。学习跨实施例转移的奖励函数在诸如通过人类视频演示教机器人策略或教机器人模仿具有不同实施例的另一个机器人的策略等设置中非常重要。然而，先前的工作仅关注可提供近乎最佳演示的情况，这通常很难确保。相比之下，我们研究了来自混合质量演示的跨实体奖励学习的设置。我们证明，先前的工作在从混合质量数据中学习时很难学习可概括的奖励表示。然后，我们分析了几种利用人类反馈进行表示学习和对齐的技术，以实现有效的跨实体学习。我们的结果深入了解了不同的表示学习技术如何导致不同质量的奖励塑造行为，以及在从混合质量、混合体现的数据中学习时人类反馈的重要性。

通过大规模动态生态驾驶减少大都市碳排放

分类： 系统与控制, 人工智能, 机器学习, 多代理系统, 机器人技术, 系统与控制

作者： Vindula Jayawardana, Baptiste Freydt, Ao Qu, Cameron Hickert, Edgar Sanchez, Catherine Tang, Mark Taylor, Blaine Leonard, Cathy Wu

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05609v1

摘要： 交通运输的庞大规模和多样性使其成为脱碳的强大部门。在这里，我们考虑一个减少碳排放的新机会：半自动驾驶汽车的日益普及，可以通过编程来通过智能速度指令来减少走走停停的交通，从而减少排放。但这种动态的生态驾驶会推动气候变化吗？由于交通场景的多样性和车辆排放的复杂性，全面的影响分析一直无法实现。我们通过大规模场景建模工作以及使用多任务深度强化学习和精心设计的网络分解策略来应对这一挑战。我们对美国三大大城市的 6,011 个信号交叉口的动态生态驾驶进行了深入的前瞻性影响评估，模拟了 100 万个交通场景。总体而言，我们发现针对排放进行优化的车辆轨迹可以将全市交叉口的碳排放量减少 11-22%，而不会损害吞吐量或安全性，并且在合理的假设下，分别相当于以色列和尼日利亚的国家排放量。我们发现，10% 的环保驾驶采用率可带来总减排量的 25%-50%，近 70% 的收益来自 20% 的交叉路口，这表明了近期的实施路径。然而，这个高影响力的交叉口子集的组成在不同的采用水平上差异很大，重叠最小，需要对生态驾驶部署进行仔细的战略规划。此外，与车辆电气化和混合动力汽车采用的预测结合起来考虑时，生态驾驶的影响仍然很大。更广泛地说，这项工作为大规模分析交通外部性（例如时间、安全性和空气质量）以及解决方案策略的潜在影响铺平了道路。

TOPGN：使用激光雷达点云强度进行实时透明障碍物检测以实现自主机器人导航

分类： 机器人技术

作者： Kasun Weerakoon, Adarsh Jagan Sathyamoorthy, Mohamed Elnoor, Anuj Zore, Dinesh Manocha

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05608v1

摘要： 我们提出了 TOPGN，一种用于未知环境中机器人导航的实时透明障碍物检测的新方法。我们使用多层 2D 网格地图表示，该表示通过对位于多个不重叠高度区间的激光雷达点云的强度求和而获得。我们通过比较不同 2D 网格地图层中的强度来隔离从透明障碍物反射的点的邻域。使用邻域，我们通过计算切线段来线性推断透明障碍物，并使用它来执行安全、实时的碰撞避免。最后，我们还演示了透明对象隔离在映射环境方面的适用性。我们证明了我们的方法可以在各种真实的室内和室外场景中以及不同的照明条件下检测由各种材料（玻璃、丙烯酸、PVC）、任意形状、颜色和纹理制成的透明物体。我们在这些基准场景中将我们的方法与使用 RGB 图像、2D 激光扫描等的其他玻璃/透明物体检测方法进行比较。我们展示了卓越的检测精度，F 分数提高至少 12.74%，平均绝对误差 (MAE) 降低 38.46%，导航成功率提高（至少比第二好的两倍），以及真实的时间推断率（移动 CPU 上约为 50Hz）。我们将在发布后发布我们的代码和具有挑战性的基准，以供未来评估。

用于自下而上机器人设计的细胞塑性模型

分类： 机器人技术

作者： Trevor R. Smith, Thomas J. Smith, Nicholas S. Szczecinski, Sergiy Yakovenko, Yu Gu

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05604v1

摘要： 传统的自上而下的机器人设计通常缺乏处理现实世界复杂性所需的适应性，因此需要更灵活的方法。因此，本研究引入了一种专为自下而上的机器人设计而定制的新型细胞可塑性模型。所提出的模型利用了激活剂-抑制剂反应，这是图灵模式的共同基础，它是形态发生的基础——从简单的相互作用中出现形式。图灵模式描述了两种化学物质（激活剂和抑制剂）之间的扩散和相互作用如何导致复杂的模式和结构，例如四肢和羽毛的形成。我们的研究通过将细胞可塑性建模为环境刺激增强的激活剂-抑制剂反应来扩展这一概念，封装在不同细胞类型（干细胞、神经元和肌肉细胞）中观察到的核心现象。除了展示自我调节和自我遏制之外，这种方法还确保机器人的形式和功能是对其环境的直接紧急响应，而无需全面的环境模型。在所提出的模型中，工厂充当激活剂，生产充当抑制剂的产品，然后通过消费受到环境刺激的影响。这些成分受到细胞可塑性现象作为反馈回路的调节。我们计算模型的平衡点和稳定性标准。仿真检查不同的参数如何影响系统的瞬态行为以及竞争功能对其功能能力的影响。结果表明，该模型收敛到根据环境刺激调整的单一稳定平衡。这种动态行为强调了该模型在机器人和生物系统中生成可预测响应的实用性，展示了其应对自适应系统复杂性的潜力。

行星漫游车的安全增强：使用自动编码器及早检测翻倒风险

分类： 机器人技术, 机器学习

作者： Mariela De Lucas Alvarez

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05602v1

摘要： 自主机器人在探索任务中不断遇到不可预见的危险情况。 AsguardIV 漫游车特有的无缘轮使其能够克服具有挑战性的地形。然而，陡峭的斜坡或困难的操作可能会导致火星车翻倒并威胁任务的完成。这项工作的重点是识别潜在翻倒事件的早期迹象或初始阶段，以便在这些关键时刻完全发生之前预测和检测到这些关键时刻，从而可能防止事故发生并提高流动站在探索任务期间的安全性和稳定性。惯性测量单元 (IMU) 读数用于开发紧凑、稳健且高效的自动编码器，该自动编码器结合了长短期记忆网络 (LSTM) 的序列处理功能。通过利用基于 LSTM 的自动编码器，这项工作提供了预测能力，用于检测翻倒风险并制定安全措施，以实现更可靠的勘探任务。

通过头部姿势估计进行预测：初步研究

分类： 机器人技术, 计算机视觉和模式识别

作者： Federico Figari Tomenotti, Nicoletta Noceti

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05516v1

摘要： 预测他人目标和意图的能力是人与人社会互动的基础。这种能力主要基于非语言交流，也是与机器人等人工智能体进行自然、愉快互动的关键。在这项工作中，我们讨论了使用头部姿势作为视觉提示来理解和预测动作目标的初步实验，特别是到达和运输动作。通过对场景中头部、手部和物体之间的时空连接进行推理，我们将证明短程预测是可能的，为未来应用于人机交互奠定基础。

基于MASH执行器的可变刚度和可变抓取范围的多模态软夹具

分类： 机器人技术

作者： Dannuo Li, Xuanyi Zhou, Quan Xiong, Chen-Hua Yeow

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05507v1

摘要： 几十年来，具有集成应变限制层的软气动执行器已成为软夹具技术领域的主要组件。然而，由于其固有的应变限制层设计，这些软夹具具有单一的抓取功能，使得它们无法适应具有不同策略的不同抓取任务。基于我们之前的工作，我们推出了一种新型软夹具，它具有可变刚度、可调节抓取范围和多功能性。与原始配置相比，基于 MASH 执行器的软夹具可将其抓取范围扩大至三倍，并在处理重物时通过增强刚度来确保安全抓取。此外，它还通过特定的抓取策略控制来支持多任务抓取。

对比、模仿、适应：从原始人类视频中学习机器人技能

分类： 机器人技术

作者： Zhifeng Qian, Mingyu You, Hongjun Zhou, Xuanhui Xu, Hao Fu, Jinzhe Xue, Bin He

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05485v1

摘要： 从原始人类视频中学习机器人技能仍然是一个不小的挑战。之前的工作通过利用行为克隆或从视频中学习奖励函数来解决这个问题。尽管它们具有出色的性能，但它们可能会带来一些问题，例如机器人动作的必要性、人类和机器人视频之间一致的视点和相似布局的要求以及低样本效率。为此，我们的主要见解是通过对比视频来学习任务先验，通过模仿视频轨迹来学习动作先验，并利用任务先验来指导轨迹适应新场景。我们提出了一个三阶段技能学习框架，称为对比-模仿-适应（CIA）。提出了一种交互感知的对齐转换器，通过时间对齐视频对来学习任务先验。然后使用轨迹生成模型来学习动作先验。为了适应不同于人类视频的新场景，反转交互方法被设计为初始化粗略轨迹并通过有限的交互来细化它们。此外，CIA还引入了基于轨迹语义方向的优化方法，以保证交互安全和样本效率。 IAAformer 计算的对齐距离用作奖励。我们在六项现实世界的日常任务中评估 CIA，并凭经验证明 CIA 在任务成功率以及对各种新颖场景布局和对象实例的泛化方面显着优于以前的最先进作品。

使用深度强化学习的遥控空间操纵器的轨迹规划

分类： 机器人技术

作者： Bo Xia, Xianru Tian, Bo Yuan, Zhiheng Li, Bin Liang, Xueqian Wang

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05460v1

摘要： 远程操作空间操纵器的轨迹规划涉及诸如精确建模系统动力学等挑战，特别是在具有非完整约束的自由浮动模式下，以及管理会增加模型不确定性并影响控制精度的时间延迟。传统的远程操作方法依赖于精确的动态模型，需要复杂的参数识别和校准，而数据驱动的方法不需要先验知识，但会遇到时间延迟的问题。引入了一种利用深度强化学习（DRL）的新颖框架来应对这些挑战。该框架结合了三种方法：映射、预测和状态增强，以在主端接收到延迟状态信息时处理延迟。 Soft Actor Critic (SAC) 算法处理状态信息以计算下一个动作，然后将其发送到远程操纵器进行环境交互。使用 MuJoCo 仿真平台构建了四种环境，以考虑底座和目标固定的变化：固定底座和目标、带有旋转目标的固定底座、带有固定目标的自由浮动底座以及带有旋转目标的自由浮动底座。进行了大量的恒定延迟和随机延迟实验来评估所提出的方法。结果表明，所有三种方法都有效解决了轨迹规划挑战，状态增强显示出卓越的效率和鲁棒性。

TOSS：静态场景映射的实时跟踪和移动对象分割

分类： 机器人技术

作者： Seoyeon Jang, Minho Oh, Byeongho Yu, I Made Aswin Nahrendra, Seungjae Lee, Hyungtae Lim, Hyun Myung

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05453v1

摘要： 在充满挑战的环境中，自主机器人的同步定位与地图构建 (SLAM) 安全导航至关重要。为了实现这一目标，检测周围的移动物体并构建静态地图至关重要。然而，现有的运动对象分割方法是针对每个领域单独开发的，这使得同时执行实时导航和精确的静态地图构建具有挑战性。在本文中，我们提出了一种集成的实时框架，它将基于在线跟踪的移动对象分割与静态地图构建相结合。为了安全导航，我们引入了计算高效的分层关联成本矩阵，以实现实时移动对象分割。在精确静态映射的背景下，我们提出了一种基于投票的方法，DS-Voting，旨在通过强调动态对象的时空差异来实现精确的动态对象去除和静态对象恢复。我们在 SemanticKITTI 数据集和现实世界的挑战性环境中定量和定性地评估我们提出的方法。结果表明，即使在楼梯、陡峭的山丘和茂密的植被中，也可以清楚地区分动态对象并将其纳入静态地图构建中。

EV-MGDispNet：具有左右一致性的基于运动引导事件的立体视差估计网络

分类： 计算机视觉和模式识别, 机器人技术

作者： Junjie Jiang, Hao Zhuang, Xinjie Huang, Delei Kong, Zheng Fang

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05452v1

摘要： 事件相机具有高时间分辨率和高动态范围，有可能彻底改变机器人视觉领域，特别是在立体视差估计等领域。许多研究使用深度学习来进行事件相机立体视差估计。然而，这些方法无法充分利用事件流中的时间信息来获取清晰的事件表示。此外，在构建成本量之前，特征图中的像素偏移还有进一步减少的空间。在本文中，我们提出了 EV-MGDispNet，一种新颖的基于事件的立体视差估计方法。首先，我们提出了边缘感知聚合（EAA）模块，该模块融合事件框架和运动置信度图以生成新颖的清晰事件表示。然后，我们提出了一个运动引导注意（MGA）模块，其中运动置信图利用可变形变压器编码器来增强具有更准确边缘的特征图。最后，我们还添加了人口普查左右一致性损失函数，以增强立体事件表示的左右一致性。通过在具有挑战性的现实驾驶场景中进行实验，我们验证了我们的方法在平均绝对误差（MAE）和均方根误差（RMSE）指标方面优于当前已知的最先进方法。

零担代理奖励动态规划的收敛保证

分类： 机器人技术, 系统与控制, 系统与控制

作者： Zetong Xuan, Yu Wang

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05438v1

摘要： 线性时序逻辑 (LTL) 是一种为建模为马尔可夫决策过程 (MDP) 的规划问题指定复杂目标的正式方法。规划问题旨在找到最大化零担目标满足概率的最优策略。解决规划问题的一种方法是使用具有两个折扣因子的替代奖励和动态规划，这绕过了传统模型检查中使用的图形分析。替代奖励的设计使其价值函数代表满意概率。然而，在某些情况下，为了获得更高的精度而将折扣因子之一设置为 $1$，则无法保证使用动态规划来计算价值函数。这项工作表明，动态规划更新过程中始终存在多步收缩，保证近似值函数以指数方式收敛于真实值函数。这样就保证了满意概率的计算。

踝外骨骼可能会妨碍老年人和年轻人的简单模型中的站立平衡

分类： 医学物理, 机器人技术

作者： Daphna Raz, Varun Joshi, Brian Umberger, Necmiye Ozay

发布时间： 2024-08-10

链接： http://arxiv.org/abs/2408.05418v1

摘要： 人类依靠脚踝扭矩来保持站立平衡，特别是在存在小到中度扰动的情况下。在老化过程中，踝关节的最大扭矩 (MT) 产生和最大扭矩发展速率 (MRTD) 会降低，从而降低稳定性。踝外骨骼是动力矫形装置，可以通过补偿肌肉力量和力量能力的下降来帮助老年人。他们还可以协助实施用于保持平衡的脚踝策略。然而，没有研究调查它们对老年人平衡的影响。在这里，我们模拟了这些设备对健康年轻人和老年人的物理模型稳定性的影响，重点关注与年龄相关的缺陷，例如 MT 和 MRTD 的减少。我们表明，踝关节外骨骼适度降低了具有完整踝关节力量的用户的可行稳定性边界。对于患有与年龄相关的缺陷的个人来说，需要进行权衡。虽然外骨骼增强了相平面部分的稳定性，但它们却降低了其他部分的稳定性。我们的结果表明，完善的控制策略仍必须在老年人中进行实验验证。

低聚时间网格上预计 $1.x$-Makespan-Optimal MAPF

分类： 机器人技术

作者： Teng Guo, Jingjin Yu

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05385v1

摘要： 多智能体路径查找 (MAPF) 是 NP 难题，即使在图上也难以最优求解，这表明没有多项式时间算法可以为其计算精确的最优解。这就提出了一个自然的问题：多项式时间算法能达到多优？尽管已经开发出了计算常数因子最优解的算法，但常数因子通常非常大，限制了它们的应用潜力。在这项工作中，除其他突破外，我们提出了第一个低多项式时间 MAPF 算法，为随机的 2D（分别为 3D）网格提供 $1$-$1.5$（分别为 $1$-$1.67$）渐近完工时间最优性保证代理密度非常高的 1/3$ 实例，概率很高。此外，当引入规则分布的障碍时，我们的方法不会出现性能下降。这些方法概括为支持 $100%$ 代理密度。无论维度和密度如何，我们的高质量方法都是通过两个关键构建块的独特分层集成来实现的。在更高层次上，我们应用标记的网格重新排列算法（RTA），能够通过行/列洗牌对网格进行有效的重新配置。在较低级别，我们设计了新颖的方法来有效地模拟 RTA 返回的行/列洗牌。我们基于 RTA 的算法的实现在广泛的数值评估中非常有效，与其他 SOTA 方法相比，表现出出色的可扩展性。例如，在 3D 设置中，基于 \rta 的算法很容易扩展到具有超过 370,000 美元顶点和超过 120,000 美元代理的网格，并始终实现接近 1.5 美元的保守完工时间最优性，正如我们的理论分析所预测的那样。

用于增强感知-行动规划的逻辑约束机器人变压器

分类： 机器人技术, 人工智能

作者： Parv Kapoor, Sai Vemprala, Ashish Kapoor

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05336v1

摘要： 随着基于大型基础模型的规划的出现，迫切需要确保其输出符合利益相关者的意图。当这些模型部署在现实世界中时，由于意外故障可能造成生命和基础设施的潜在成本，因此对齐的需求会被放大。时态逻辑规范长期以来提供了一种约束系统行为的方法，并且非常适合这些用例。在这项工作中，我们提出了一种新颖的方法来考虑信号时间逻辑规范，同时使用自回归变压器模型进行轨迹规划。我们还提供用于预训练和评估基础模型的轨迹数据集。我们提出的技术的规格满意度比基线高 74.3%。

Omobot：用于自主搜索和跌倒检测的低成本移动机器人

分类： 机器人技术

作者： Shihab Uddin Ahamad, Masoud Ataei, Vijay Devabhaktuni, Vikas Dhiman

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05315v1

摘要： 检测老年人跌倒情况并提醒社区响应人员可以挽救无数生命。我们设计和开发了一种低成本的移动机器人，它会定期在房屋中搜索被监控的人，并在检测到跌倒时向一组指定的响应人员发送电子邮件。在这个项目中，我们做出了三个新颖的设计决策和贡献。首先，我们定制设计的低成本机器人具有先进的功能，如全向轮、运行深度学习模型的能力和自主无线充电。其次，我们将 YOLOv8-Pose-nano 物体检测网络的跌倒检测精度提高了 6%，将 YOLOv8-Pose-large 提高了 12%。为此，我们使用主要计算的单应矩阵将从机器人视点（距地面 0.15 m 的相机高度）捕获的图像转换为典型的人类视点（距地面 1.5 m）。这提高了网络准确性，因为训练 YOLOv8-Pose 的训练数据集 MS-COCO 是从人体高度的角度捕获的。最后，我们通过学习一个模型来改进机器人控制器，该模型根据电机控制器的输入信号预测机器人速度。

超越点接触：使用分层全身动量控制将 ALIP 模型扩展到具有重要脚的类人机器人

分类： 机器人技术, 系统与控制, 系统与控制

作者： Victor C. Paredes, Daniel A. Hagen, Samuel W. Chesebrough, Riley Swann, Denis Garagic, Ayonga Hereid

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05308v1

摘要： 角动量线性倒立摆 (ALIP) 模型是一种很有前景的双足机器人运动规划器。然而，它依赖于两个假设：（1）机器人具有点接触脚或被动脚踝，（2）质心周围的角动量（称为质心角动量）可以忽略不计。本文解决了 ALIP 范式是否可以应用于具有复杂足部几何形状（例如，扁平足）和重要躯干/肢体惯性和质量分布（例如，非集中手臂）的更一般的双足系统的问题。在此类系统中，动力学会在脚部引入不可忽略的质心动量和接触扳手，从而导致 ALIP 模型的假设无效。本文提出了用于非点接触脚的通用双足机器人的 ALIP 规划器，通过使用任务空间全身控制器来调节质心动量，从而确保机器人的行为与所需的模板动力学保持一致。为了证明我们提出的方法的有效性，我们使用 Sarcos Guardian XO 机器人进行模拟，该机器人是一种具有大偏移脚的混合人形/外骨骼机器人。结果证明了我们的方法在实现稳定和多功能双足运动方面的实用性和有效性。

REEM-C 慢速华尔兹：机器人与人类交流的物理社会人机交互研究

分类： 机器人技术

作者： Marie Charbonneau, Francisco Javier Andrade Chavez, Katja Mombaur

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05301v1

摘要： 人类经常紧密合作，并通过身体互动传递大量信息。另一方面，机器人尚未开发出与人类类似的密切合作，以及在进行人机物理交互（pHRI）时有效传达信息的能力。目前，这限制了物理人机协作解决现实世界问题的潜力。本文研究了如何在 pHRI 期间建立清晰直观的机器人与人类通信，同时确保人类舒适度的问题。我们从领导者-跟随者场景的角度来解决这个问题，其中一个全身人形机器人通过向人类伙伴发出下一步信号来引导缓慢的华尔兹舞。这是通过开发结合导纳和阻抗控制的全身控制框架来实现的，该框架允许不同的通信方式，包括触觉、视觉和音频信号。参与者实验可以验证控制器的性能，并了解在机器人主导的 pHRI 过程中，哪种类型的通信在有效性和舒适度方面效果更好。

人工智能和机器学习通过移动嵌入式系统驱动室内定位和导航

分类： 机器学习, 人工智能, 机器人技术

作者： Sudeep Pasricha

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04797v1

摘要： 室内导航是协助人类、自动驾驶车辆、无人机和机器人在室内空间进行跟踪和定位的基础技术。由于 GPS 信号在建筑物、地下场所和密集的城市环境中缺乏穿透力，室内导航解决方案通常利用移动嵌入式系统中无处不在的无线信号（例如 WiFi）和传感器来执行跟踪和定位。本文概述了最先进的室内导航解决方案面临的许多挑战，然后描述了部署在移动嵌入式系统上的人工智能算法如何克服这些挑战。

基于空间顺应机构的软运动机器人的设计与制造

分类： 机器人技术

作者： Andrija Milojevic, Kyrre Glette

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05207v1

摘要： 软机器人技术已成为一项有前途的技术，在各个应用领域都具有巨大的潜力。这是由于软材料独特的性能，包括灵活性、安全性和减震等。尽管该领域取得了许多进展，但开发有效的软机器人设计方法和生产技术仍然是一个挑战。尽管近年来提出了许多机器人原型，但它们的设计通常很复杂且难以生产。因此，需要更有效和统一的设计方法，以促进生产具有所需性能的软机器人。在本文中，我们提出了一种使用弹性梁和空间柔顺机构设计软机器人的方法。该方法基于进化方法，能够创建具有高运动和力传递比的设计。具体来说，我们专注于使用中央线性执行器的运动机构的开发。我们的方法涉及使用常用的塑料材料和 3D 打印机来制造设计。我们通过展示成功生产和现实世界操作的实验结果来证明我们方法的可行性。总的来说，我们的研究结果表明，使用弹性梁和进化方法可以促进软机器人的创建，这些机器人具有理想的运动特性，包括每秒高达 3.7 个身体长度的快速运动、有效载荷运动和水下运动。这种方法有可能为各种应用开发更高效、更实用的软机器人。

使用乘子交替方向法的最优分布式多机器人通信感知轨迹规划

分类： 机器人技术

作者： Jeppe Heini Mikkelsen, Roberto Galeazzi, Matteo Fumagalli

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05111v1

摘要： 本文提出了一种用于多机器人系统的分布式、最优、通信感知轨迹规划算法。它基于先前的工作，使用通用优化框架解决了多机器人通信感知轨迹规划问题，该框架对机器人位置的变化施加线性约束，以确保通信性能和避免碰撞。本文通过经济的方法分离通信性能约束来分布式地解决优化问题。这里，当前的通信预算在机器人之间平均分配，并且允许机器人彼此交换部分预算。然后使用乘子的一致交替方向方法来解决分离的优化问题。通过检验任务问题的仿真验证了该方法的有效性。

深度帮助：通过深度信息注入改进基于 RGB 的预训练策略

分类： 机器人技术

作者： Xincheng Pang, Wenke Xia, Zhigang Wang, Bin Zhao, Di Hu, Dong Wang, Xuelong Li

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05107v1

摘要： 3D 感知能力对于通用机器人操作至关重要。虽然最近的基础模型在基于 RGB 输入的感知和决策方面取得了重大进展，但它们缺乏 3D 感知，限制了它们在细粒度机器人操作任务中的有效性。为了解决这些限制，我们提出了一个深度信息注入（$\bold{DI}^{\bold{2}}$）框架，该框架利用 RGB 深度模态进行策略微调，同时仅依靠 RGB 图像来实现鲁棒性和高效部署。具体来说，我们引入深度完成模块（DCM）来提取与深度信息相关的空间先验知识，并从 RGB 输入生成虚拟深度信息以帮助策略部署。此外，我们提出了深度感知码本（DAC）来消除噪声并减少深度预测的累积误差。在推理阶段，该框架采用 RGB 输入和准确预测的深度数据来生成操纵动作。我们在模拟 LIBERO 环境和真实场景上进行了实验，实验结果证明我们的方法可以有效增强预训练的基于 RGB 的策略，并具有用于机器人操纵的 3D 感知能力。该网站发布于https://gewu-lab.github.io/DepthHelps-IROS2024。

通过能力增量探索人机团队基于能力的控制分布：形式化和含义

分类： 机器人技术, 人机交互, 系统与控制, 系统与控制

作者： Nils Mandischer, Marcel Usai, Frank Flemisch, Lars Mikelsons

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.05069v1

摘要： 现代团队概念中普遍存在人类和自主代理具有某些能力的隐含假设。然而，没有人以灵活且可量化的方式形式化这些能力。在本文中，我们提出了能力增量，它建立了一个可量化的来源来设计自主辅助系统，其中一个代理担任领导者，另一个代理担任支持者角色。我们根据既定的评估和记录程序，从残疾人的职业包容性中扣除人类能力的量化。这使我们能够量化团队当前能力与工作流程建立的要求之间的增量或差距。然后，该概念扩展到多维能力空间，从而可以形式化补偿行为并评估自主代理所需的行动。

通过光线追踪进行动态语义 3D 场景图的基于网格的对象跟踪

分类： 机器人技术

作者： Lennart Niecksch, Alexander Mock, Felix Igelbrink, Thomas Wiemann, Joachim Hertzberg

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04979v1

摘要： 在本文中，我们提出了一种使用距离传感器和 RGB 相机生成 3D 几何场景图的新方法。我们最初使用 YOLOv8s 模型检测实例关键点，通过求解 PnP 来计算已知对象的 6D 姿态估计。我们使用光线跟踪方法来跟踪由对象实例的网格模型组成的几何场景图。与经典的点对点匹配相比，这会产生更稳健的结果，特别是在对象实例之间存在遮挡的情况下。我们证明，使用这种混合策略可以实现强大的自定位、距离传感器数据的预分割以及使用相同环境表示的物体的准确姿态跟踪。所有检测到的对象都集成到语义场景图中。然后，该场景图充当语义映射框架的前端以允许空间推理。

Surgical-VQLA++：机器人手术中校准鲁棒视觉问题本地化回答的对抗性对比学习

分类： 计算机视觉和模式识别, 机器人技术

作者： Long Bai, Guankun Wang, Mobarakol Islam, Lalithkumar Seenivasan, An Wang, Hongliang Ren

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04958v1

摘要： 医学视觉问答（VQA）弥合了视觉信息和临床决策之间的差距，使医生能够从临床图像和视频中提取理解。特别是，手术 VQA 可以增强手术数据的解释，有助于准确的诊断、有效的教育和临床干预。然而，VQA 模型无法直观地指示与给定问题相对应的感兴趣区域，导致对手术场景的理解不完整。为了解决这个问题，我们提出了手术视觉问题本地化回答（VQLA），用于对有关手术图像的特定查询进行精确和上下文感知的响应。此外，为了满足手术场景中对安全性的强烈需求以及图像采集和传输中潜在的损坏，我们提出了一种称为校准共同注意门控视觉语言（C$^2$G-ViL）嵌入的新方法来集成和对齐有效地实现多模式信息。此外，我们利用基于对抗性样本的对比学习策略来提高我们的性能和稳健性。我们还扩展了 EndoVis-18-VQLA 和 EndoVis-17-VQLA 数据集，以扩大我们数据的范围和应用。对上述数据集的大量实验证明了我们的解决方案的卓越性能和鲁棒性。我们的解决方案可以有效对抗现实世界的图像损坏。因此，我们提出的方法可以作为协助手术教育、患者护理和提高手术效果的有效工具。

CTE-MLO：具有本地化感知点云采样功能的连续高效多 LiDAR 里程计

分类： 机器人技术

作者： Hongming Shen, Zhenyu Wu, Wei Wang, Qiyang Lyu, Huiqin Zhou, Tianchen Deng, Yeqing Zhu, Danwei Wang

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04901v1

摘要： 近年来，基于激光雷达的定位和测绘方法凭借其可靠、实时的定位能力取得了重大进展。考虑到单个LiDAR里程计在实际场景中经常面临硬件故障和退化，多LiDAR里程计（MLO）作为一种新兴技术，被研究以增强基于LiDAR的定位和建图系统的性能。然而，MLO 可能会受到由多个 LiDAR 融合的密集点云带来的高计算复杂性的影响，并且现有 LiDAR 里程计经常忽略连续时间测量特性。这促使我们开发一种连续时间和高效的 MLO，即 CTE-MLO，它可以通过连续时间的角度使用多 LiDAR 测量来实现准确、实时的状态估计。本文将高斯过程估计与卡尔曼滤波器自然地结合起来，使得点流中的每个激光雷达点能够在其时刻查询相应的连续时间轨迹。还设计了一种分散的多 LiDAR 同步方案，将来自单独 LiDAR 的点合并到单个点云中，而不需要主 LiDAR 分配。此外，为了在不牺牲鲁棒性的情况下提高MLO的实时性能，设计了考虑可定位性的点云采样策略。该方法的有效性通过各种场景得到证明，包括公共数据集和现实世界的自动驾驶实验。结果表明，所提出的 CTE-MLO 可以实时实现高精度连续状态估计，并且与其他最先进的方法相比具有明显的竞争力。

增材制造中的智能协作机器人：过去、现在和未来

分类： 机器人技术

作者： Sean Rescsanski, Rainer Hebert, Azadeh Haghighi, Jiong Tang, Farhad Imani

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04827v1

摘要： 通过协作机器人增材制造 (C-RAM) 平台的集成，增材制造 (AM) 技术取得了重大进步。通过在多个机械臂的末端执行器上部署增材制造工艺，不仅可以规避有限构建体积等传统限制，而且系统还可以实现更快的制造速度、协作传感功能和原位多材料沉积。尽管取得了进步，但挑战仍然存在，特别是在缺陷产生方面，包括空隙、裂纹和残余应力。造成这些问题的因素有很多，包括刀具路径规划（即切片策略）、协作打印的零件分解以及运动规划（即路径和轨迹规划）。本综述首先检查了 C-RAM 系统的系统控制的关键方面，包括切片和运动规划。然后，通过调整这些方面和增材制造方法的工艺参数来减轻缺陷的方法将在如何修改增材制造工艺的背景下进行描述：预处理、层间（即，在层暂停期间）和中间层（即，在材料沉积期间）。探索应用先进的传感技术，包括高分辨率相机、激光扫描仪和热成像，以促进微观、细观和宏观尺度缺陷的捕获。分析了数字孪生的作用，强调其模拟和预测制造结果的能力，从而能够进行先发制人的调整以防止缺陷。最后，概述了开发下一代 C-RAM 系统的前景和未来机遇。

VLM-MPC：用于自动驾驶的视觉语言基础模型（VLM）引导模型预测控制器（MPC）

分类： 机器人技术

作者： Keke Long, Haotian Shi, Jiaxi Liu, Xiaopeng Li

发布时间： 2024-08-09

链接： http://arxiv.org/abs/2408.04821v1

摘要： 受视觉语言模型 (VLM) 的新兴推理能力及其提高自动驾驶系统可理解性的潜力的启发，本文介绍了一种称为 VLM-MPC 的闭环自动驾驶控制器，它结合了用于高级决策的 VLM以及用于低级车辆控制的模型预测控制器（MPC）。所提出的VLM-MPC系统在结构上分为两个异步组件：上层VLM和下层MPC。上层VLM根据前置摄像头图像、自我车辆状态、交通环境条件和参考内存生成用于下层控制的驱动参数。下层 MPC 使用这些参数实时控制车辆，考虑发动机滞后并向整个系统提供状态反馈。基于 nuScenes 数据集的实验验证了所提出的 VLM-MPC 系统在各种场景（例如夜间、下雨、十字路口）的有效性。结果表明，VLM-MPC 系统在安全性和驾驶舒适性方面始终优于基准模型。通过比较不同天气条件和场景下的行为，我们展示了 VLM 理解环境并做出合理推断的能力。

探索 XAI 中个性驱动的个性化：增强用户对游戏的信任

分类： 人机交互, 机器人技术

作者： Zhaoxin Li, Sophie Yang, Shijie Wang

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04778v1

摘要： 根据个人需求定制 XAI 方法对于直观的人机交互至关重要。虽然背景和任务目标至关重要，但用户个性特征等因素也可能影响方法选择。我们的研究调查了使用个性特征来预测用户在决策树、文本和因子图中的偏好。我们训练了一个机器学习模型，用于对大五人格测试的反应来预测偏好。在导航游戏中部署这些预测偏好 (n=6)，我们发现用户更容易接受个性化 XAI 推荐，从而增强了对系统的信任。这强调了 XAI 界面定制的重要性，影响用户的参与度和信心。

体现不确定性的对象分割

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Xiaolin Fang, Leslie Pack Kaelbling, Tomás Lozano-Pérez

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04760v1

摘要： 我们引入了不确定性感知对象实例分割（UncOS），并证明了其对于具体交互式分割的有用性。为了处理机器人感知的不确定性，我们提出了一种生成对象分割假设分布的方法。通过对大型预训练模型进行多次查询，我们获得了一组区域因素分割假设以及置信度估计。此过程可以产生在未见过的对象分割问题上实现最先进性能的分割结果。输出还可以作为信念驱动过程的输入，用于选择机器人动作来扰乱场景以减少模糊性。我们在真实的机器人实验中证明了该方法的有效性。网站：https://sites.google.com/view/embodied-uncertain-seg

DiPGrasp：并行局部搜索以实现高效的可微抓取规划

分类： 机器人技术

作者： Wenqiang Xu, Jieyi Zhang, Tutian Tang, Zhenjun Yu, Yutong Li, Cewu Lu

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04738v1

摘要： 抓取规划是机器人操作的一项重要任务。尽管这是一个研究丰富的领域，但尚未报道可与不同自由度的机器人夹具配合使用的独立、快速且可微的抓取规划器。在这项工作中，我们推出了 DiPGrasp，一个满足所有这些目标的抓取规划器。 DiPGrasp 采用力闭合几何表面匹配抓取质量指标。它在度量上采用基于梯度的优化方案，该方案还考虑了并行采样和碰撞处理。这不仅大大加速了物体表面的抓取搜索过程，而且使其可微分。我们将 DiPGrasp 应用于三个应用，即抓取数据集构建、掩模条件规划和姿态细化。对于数据集生成，作为独立的规划器，DiPGrasp 与几种经典规划器相比在速度和质量上具有明显的优势。对于掩模条件规划，它可以立即将 3D 感知模型转变为 3D 抓取检测模型。作为姿势细化器，它可以优化神经网络的粗略抓取预测以及神经网络参数。最后，我们用 Barrett 手和 Schunk SVH 5 指手进行了真实世界的实验。视频和补充材料可以在我们的网站上查看：\url{https://dipgrasp.robotflow.ai}。

使用机器人进行多次迭代、重现和复制实验 (MIRRER) 进行评估和基准测试

分类： 机器人技术

作者： Adam Norton, Brian Flynn

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04736v1

摘要： 机器人研究领域缺乏评估先进能力的正式定义和框架，包括通用性（机器人在不同环境下执行任务的能力）和再现性（在相同实验条件下不同实验室中再现机器人能力的表现）。本文提出了一个初始概念框架 MIRRER，它将性能评估、基准测试和再现/重复实验的概念结合起来，以促进可比的机器人研究。还提出了该框架应用的几个未决问题。

用于多机器人电弧增材制造 (WAAM) 的开源软件架构

分类： 机器人技术, 系统与控制, 系统与控制

作者： Honglu He, Chen-lung Lu, Jinhan Ren, Joni Dhar, Glenn Saunders, John Wason, Johnson Samuel, Agung Julius, John T. Wen

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04677v1

摘要： 电弧增材制造 (WAAM) 是一种金属 3D 打印技术，可将熔融金属丝沉积在基材上以形成所需的几何形状。 WAAM 中通常使用关节式机械臂来产生复杂的几何形状。然而，它们主要依赖于专有的机器人和焊接控制软件，这些软件限制了工艺调整和定制、第三方传感器的结合、来自多个供应商的机器人和焊接控制器的实施以及可定制的用户编程。本文提出了一种通用的 WAAM 开源软件架构，可以解决这些限制。该架构的基础是 Robot Raconteur，这是一个开源控制和通信框架，充当集成来自不同供应商的机器人和传感器的中间件。基于此架构，我们开发了一种端到端机器人 WAAM 实现，它将 CAD 文件转换为打印的 WAAM 零件并评估结果的准确性。该架构的主要组件包括零件切片、机器人运动规划、零件计量、过程中传感和过程调整。当前的实施基于 Motoman 机器人和 Fronius 焊接控制器，但该方法也适用于其他工业机器人和焊接控制器。通过打印各种几何形状的零件以及采集用于运动调整的过程中传感器数据，证明了 WAAM 的测试能力。

机器人手术中的 SAM 2：手术视频分割鲁棒性和泛化性的实证评估

分类： 计算机视觉和模式识别, 机器人技术, 图像和视频处理

作者： Jieming Yu, An Wang, Wenzhen Dong, Mengya Xu, Mobarakol Islam, Jie Wang, Long Bai, Hongliang Ren

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04593v1

摘要： 最近的Segment Anything Model (SAM) 2在语义分割方面表现出了卓越的基础能力，其记忆机制和掩模解码器进一步解决了视频跟踪和对象遮挡方面的挑战，从而在图像和视频的交互式分割方面取得了优异的结果。在我们之前的实证研究的基础上，我们进一步探索了 SAM 2 在基于提示的机器人辅助手术中的零样本分割性能，以及它对现实世界腐败的鲁棒性。对于静态图像，我们采用两种形式的提示：1 点提示和边界框，而对于视频序列，1 点提示应用于初始帧。通过对 MICCAI EndoVis 2017 和 EndoVis 2018 基准的广泛实验，SAM 2 在使用边界框提示时，在比较评估中优于最先进的 (SOTA) 方法。点提示的结果还显示出 SAM 功能的显着增强，接近甚至超越现有的无提示 SOTA 方法。此外，SAM 2 还展示了针对各种图像损坏的更高的推理速度和更少的性能下降。尽管特定边缘或区域的结果仍稍显不尽如人意，但 SAM 2 对 1 点提示的强大适应性凸显了其在提示要求有限的下游手术任务中的潜力。

FORGE：力引导探索不确定性下的鲁棒接触丰富操纵

分类： 机器人技术

作者： Michael Noseworthy, Bingjie Tang, Bowen Wen, Ankur Handa, Nicholas Roy, Dieter Fox, Fabio Ramos, Yashraj Narang, Iretiayo Akinola

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04587v1

摘要： 我们提出了 FORGE，这是一种在存在重大不确定性的情况下实现接触丰富的操纵策略的模拟到真实转移的方法。 FORGE 在模拟策略学习过程中将力阈值机制与动态随机化方案相结合，从而能够将学习到的策略稳健地迁移到真实机器人。在部署时，FORGE 策略以最大允许力为条件，自适应地执行接触丰富的任务，同时遵守指定的力阈值，无论控制器增益如何。此外，一旦任务成功，FORGE 就会自动预测终止操作。我们证明，FORGE 可用于学习各种强大的接触丰富的策略，从而实现行星齿轮系统的多级组装，这需要成功完成三个组装任务：螺母螺纹、插入和齿轮啮合。项目网站可以访问 https://noseworm.github.io/forge/。

车辆规避机动的基于学习的模型预测轮廓控制

分类： 机器人技术, 系统与控制, 系统与控制

作者： Alberto Bertipaglia, Mohsen Alirezaei, Riender Happee, Barys Shyrokau

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04485v1

摘要： 本文提出了一种新颖的基于学习的模型预测轮廓控制（L-MPCC）算法，用于在操作极限下进行规避机动。该算法使用 Student-t Process (STP) 来最大限度地减少在线模型不匹配和不确定性。所提出的 STP 捕获了预测模型与测量的横向轮胎力和横摆率之间的不匹配。不匹配对应于提供给预测模型以提高其准确性的后验平均值。同时，后验协方差沿着预测范围传播到车辆横向速度和偏航率。 STP后验协方差直接取决于观测数据的方差，因此当在线测量值与训练集中记录的测量值不同时，其方差更显着，反之则方差更小。因此，这些协方差可以在 L-MPCC 的成本函数中利用，以最小化车辆状态的不确定性。在高保真仿真环境中，我们证明了所提出的 L-MPCC 可以成功避开障碍物，保持车辆稳定，同时以比没有 STP 的 MPCC 更高的速度驾驶双车道变换操作。此外，与采用高斯过程的 L-MPCC 相比，所提出的控制器可产生显着较低的峰值侧滑角，从而提高车辆的机动性。

SegXAL：驾驶场景场景中语义分割的可解释主动学习

分类： 计算机视觉和模式识别, 人工智能, 机器学习, 机器人技术

作者： Sriram Mandalika, Athira Nambiar

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04482v1

摘要： 大多数复杂的人工智能模型都利用大量带注释的数据和大量训练来实现高端性能。然而，存在一些阻碍人工智能模型在“野外”场景部署的挑战，即未标记数据的低效使用、缺乏人类专业知识的结合以及缺乏对结果的解释。为了缓解这些挑战，我们提出了一种新颖的可解释主动学习（XAL）模型，即基于 XAL 的语义分割模型“SegXAL”，它可以（i）有效地利用未标记的数据，（ii）促进“人在其中”循环”范式，以及（iii）以可解释的方式增强模型决策。我们特别研究了 SegXAL 模型在驾驶场景场景中语义分割的应用。 SegXAL 模型通过可解释的人工智能 (XAI) 和弱监督方式的不确定性度量，提出了需要 Oracle 标记帮助的图像区域。具体来说，我们提出了一种新颖的邻近感知可解释人工智能（PAE）模块和基于熵的不确定性（EBU）模块来获得可解释错误掩模，这使得机器教师/人类专家能够在结果背后提供直观的推理并征求通过主动学习策略向人工智能系统反馈。这种机制通过协作智能弥合了人与机器之间的语义鸿沟，人类和人工智能积极增强彼此的互补优势。 SegXAL 框架内还提出了一种基于 DICE 相似系数的新型高置信度样本选择技术。在基准 Cityscape 数据集中进行了广泛的定量和定性分析。结果表明，我们提出的 SegXAL 的性能优于其他最先进的模型。

机器人手术中可变形组织的 3D 重建技术综述

分类： 计算机视觉和模式识别, 机器人技术

作者： Mengya Xu, Ziqi Guo, An Wang, Long Bai, Hongliang Ren

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04426v1

摘要： 作为机器人微创手术中一项关键而复杂的任务，使用立体或单目内窥镜视频重建手术场景具有巨大的临床应用潜力。基于 NeRF 的技术最近因其隐式重建场景的能力而受到关注。另一方面，基于高斯溅射的 3D-GS 明确使用 3D 高斯表示场景，并将它们投影到 2D 平面上，作为 NeRF 中复杂体积渲染的替代。然而，这些方法在手术场景重建方面面临着挑战，例如推理速度慢、动态场景和手术工具遮挡等。这项工作探索并回顾了最先进的 (SOTA) 方法，讨论了它们的创新和实施原则。此外，我们复制模型并对两个数据集进行测试和评估。测试结果表明，随着这些技术的进步，实现实时、高质量的重建变得可行。

UNMuTe：统一导航和多模式对话式文本生成

分类： 机器人技术

作者： Niyati Rawal, Roberto Bigazzi, Lorenzo Baraldi, Rita Cucchiara

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04423v1

摘要： 智能自主代理在各种现实生活应用中变得越来越重要，包括机器人和自动驾驶汽车。这些智能体必须具备的一项关键技能是与周围实体（例如其他智能体或人类）进行交互的能力。在这项工作中，我们的目标是构建一个智能代理，它可以在环境中有效导航，同时能够以自然语言与神谕（或人类）交互，并在不确定其导航性能时询问方向。交互由产生问题的代理启动，然后由预言机根据到达目标的最短轨迹来回答。该过程可以在导航过程中多次执行，从而使代理能够与预言机进行对话。为此，我们提出了一种新颖的计算模型，名为 UNMuTe，它由两个主要组件组成：对话模型和导航器。具体来说，对话模型基于 GPT-2 解码器，可处理由文本和图像组成的多模态数据。首先，训练对话模型来生成问答对：使用当前图像生成问题，而利用实现目标的路径上的未来图像生成答案。随后，训练 VLN 模型以遵循对话预测导航操作或在需要帮助时触发对话模型。在我们的实验分析中，我们表明 UNMuTe 在涉及对话的主要导航任务上实现了最先进的性能，即合作视觉和对话导航（CVDN）和对话历史导航（NDH），证明我们的方法是有效的生成有用的问题和答案来指导导航。

机器人学中的深度生成模型：多模态演示学习调查

分类： 机器人技术, 机器学习

作者： Julen Urain, Ajay Mandlekar, Yilun Du, Mahi Shafiullah, Danfei Xu, Katerina Fragkiadaki, Georgia Chalvatzaki, Jan Peters

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04380v1

摘要： 随着深度生成模型的出现，“从演示中学习”这一提出从数据中学习机器人行为模型的领域越来越受欢迎。尽管这个问题多年来一直以模仿学习、行为克隆或逆强化学习等名义进行研究，但经典方法所依赖的模型不能很好地捕获复杂的数据分布，也不能很好地扩展到大量的演示。近年来，机器人学习社区对使用深度生成模型来捕获大型数据集的复杂性表现出了越来越大的兴趣。在这项调查中，我们的目标是对去年在机器人技术中使用深度生成模型的进展进行统一和全面的回顾。我们展示了社区已经探索的不同类型的模型，例如基于能量的模型、扩散模型、行动价值图或生成对抗网络。我们还介绍了使用深度生成模型的不同类型的应用，从抓取生成到轨迹生成或成本学习。生成模型最重要的要素之一是分布的泛化。在我们的调查中，我们回顾了社区为提高学习模型的泛化能力而做出的不同决定。最后，我们强调了研究挑战，并提出了学习机器人深度生成模型的一些未来方向。

多智能体近端策略优化中的部分奖励解耦分配信用

分类： 多代理系统, 人工智能, 机器学习, 机器人技术

作者： Aditya Kapoor, Benjamin Freed, Howie Choset, Jeff Schneider

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04295v1

摘要： 多智能体近端策略优化（MAPPO）最近在具有挑战性的多智能体强化学习任务上展示了最先进的性能。然而，MAPPO 仍然在解决信用分配问题，其中将信用归因于个体代理行为的绝对困难与团队规模的大小关系不大。在本文中，我们提出了一种多智能体强化学习算法，该算法适应学分分配的最新发展，以改进 MAPPO。我们的方法利用部分奖励解耦（PRD），它使用学习注意力机制来估计特定智能体的哪些队友与其学习更新相关。我们使用此估计将大型代理组动态分解为更小、更易于管理的子组。我们凭经验证明，我们的方法 PRD-MAPPO 将代理与不影响其预期未来奖励的队友分离，从而简化了信用分配。我们还表明，与 MAPPO 和其他最先进的方法相比，PRD-MAPPO 在多个多智能体任务（包括《星际争霸 II》）中产生了显着更高的数据效率和渐近性能。最后，我们提出了一个适用于 \textit{shared} 奖励设置的 PRD-MAPPO 版本，其中 PRD 以前不适用，并且经验表明这也导致了 MAPPO 的性能改进。

BPMP-Tracker：使用 Bernstein 多项式运动基元的多功能空中目标跟踪器

分类： 机器人技术, 系统与控制, 系统与控制

作者： Yunwoo Lee, Jungwon Park, Boseong Jeon, Seungwoo Jung, H. Jin Kim

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04266v1

摘要： 这封信介绍了用于空中跟踪的多功能轨迹规划管道。所提出的跟踪器能够处理各种追逐设置，例如复杂的非结构化环境、拥挤的动态障碍物和多目标跟踪。在整个流程中，我们专注于开发未来目标运动的预测器和追踪轨迹规划器。为了快速计算，我们采用样本检查选择策略：模块对一组候选运动进行采样，检查多个约束，然后选择最佳轨迹。此外，我们利用伯恩斯坦多项式的属性进行快速计算。预测模块预测目标的轨迹，该轨迹不与静态和动态障碍物重叠。然后，轨迹规划器输出轨迹，确保各种条件，例如遮挡和避免碰撞、摄像机图像内所有目标的可见性以及动态限制。我们在具有挑战性的场景下通过模拟和硬件实验对所提出的跟踪器进行了全面测试，包括双目标跟踪、具有数十个动态障碍物的环境以及复杂的室内和室外空间。

通过零样本策略组合进行时态逻辑规划

分类： 机器人技术

作者： Taylor Bergeron, Zachary Serlin, Kevin Leahy

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04215v1

摘要： 这项工作为代理开发了一种零样本机制，以满足给定现有任务原语的线性时序逻辑（LTL）规范。通常，自主机器人需要满足在运行时之前未知的空间和时间目标。先前的研究通过学习能够执行使用 LTL 指定的高级任务的策略来解决该问题，但它们将规范合并到学习过程中；因此，对规范的任何更改都需要重新训练策略。其他相关研究通过创建技能机器来解决这个问题，在规范发生变化的情况下，不需要全面的策略再训练，但需要对技能机器进行微调以保证满意度。我们提出了一种更灵活的方法——学习一组最小违规（MV）任务原语策略，这些策略可用于满足任意 LTL 规范，而无需重新训练或微调。任务原语可以使用强化学习 (RL) 方法离线学习，并在部署时使用布尔组合进行组合。这项工作的重点是创建和修剪环境的转换系统 (TS) 表示，以便在给定环境和一组 MV 任务原语策略的情况下解决 LTL 规范的确定性、明确且可行的解决方案。我们证明了我们修剪后的 TS 是确定性的，不包含无法实现的转换，并且是健全的。通过模拟，我们证明了我们的方法是可执行的，并且我们验证了我们的 MV 策略产生了预期的符号。

机器人学习中的库夫曼算子

分类： 机器人技术, 系统与控制, 系统与控制

作者： Lu Shi, Masih Haseli, Giorgos Mamakoukas, Daniel Bruder, Ian Abraham, Todd Murphey, Jorge Cortes, Konstantinos Karydis

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04200v1

摘要： 库普曼算子理论对动力学进行了严格的处理，并已成为一种强大的建模和基于学习的控制方法，能够在机器人技术的各个领域取得重大进步。由于库普曼理论能够将非线性动力学表示为线性算子，因此它提供了一个新的视角来理解和处理复杂机器人系统的建模和控制。此外，它支持增量更新并且计算成本低廉，这使得它对于实时应用程序和在线主动学习特别有吸引力。这篇综述全面介绍了库普曼算子理论在机器人技术不同领域的最新研究成果，包括空中机器人、腿式机器人、轮式机器人、水下机器人、软体机器人和机械手机器人。此外，它还提供实用教程来帮助新用户入门，以及更高级主题的论文，从而展望未来方向和开放研究问题。总而言之，这些为库普曼理论应用于机器人领域的潜在演变提供了见解。

采用离线强化学习方法的 F1tenth 自主赛车

分类： 机器人技术, 系统与控制, 系统与控制

作者： Prajwal Koirala, Cody Fleming

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04198v1

摘要： 自动赛车是评估自动驾驶系统和增强车辆移动智能的关键平台。这项工作研究了在动态 F1tenth 赛车环境中训练智能体的离线强化学习方法。该研究首先探讨了奥地利赛道环境中在线训练的挑战，在该环境中，智能体始终无法完成圈数。因此，这项研究转向离线策略，利用“专家”演示数据集来促进代理培训。开发了基于航路点的次优控制器来收集成功单圈事件的数据。然后使用这些数据来训练基于离线学习的算法，随后分析代理的跨跟踪性能，评估它们从可见场景到未见场景的零样本可迁移性以及适应环境动态变化的能力。除了自动赛车场景中的算法基准测试之外，本研究还介绍和描述了基于返回条件决策树的策略的机制，将其性能与采用完全连接的神经网络、变压器和扩散策略的方法进行比较，并强调了一些见解在驾驶交互中训练自主代理的方法选择。

微型城市平台中智能基础设施和互联汽车的设计与实现

分类： 机器人技术, 68F00 (Primary), 68F11 (Secondary)

作者： Daniel Vargas, Ethan Haque, Matthew Carroll, Daniel Perez, Tyler Roman, Phong Nguyen, Golnaz Habibi

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04195v1

摘要： 本文提出了一个 1/10 比例的微型城市平台，用作评估自动驾驶和联网车辆的测试平台。使用迷你城市平台，我们可以评估不同的驾驶场景，包括人类驾驶和自动驾驶。我们提供了一个独特的、视觉功能丰富的环境来评估计算机视觉方法。进行的实验利用安装在我们构建的机器人平台上的机载传感器，使它们能够在受控的现实城市环境中导航。设计的城市被汽车、停车标志、各种住宅和商业建筑以及模仿市区的复杂十字路口占据。此外，我们还在城市的一个十字路口设计了智能基础设施，有助于在多辆汽车和行人存在的情况下更安全、更高效地导航。我们使用迷你城市平台来分析三种不同的应用：城市测绘、具有挑战性的闭塞环境中的深度估计以及联网车辆的智能基础设施。我们的智能基础设施是首批开发和评估十字路口车辆到基础设施 (V2I) 通信的基础设施之一。与交叉路口相关的结果表明，感知（包括地图和定位）的不准确会如何影响安全。所提出的迷你城市平台可以被视为发展智能交通系统研究和教育的基准环境。

Everyday Finger：满足日常交互操作需求的机器人手指

分类： 机器人技术

作者： Rubén Castro Ornelas, Tomás Cantú, Isabel Sperandio, Alexander H. Slocum, Pulkit Agrawal

发布时间： 2024-08-08

链接： http://arxiv.org/abs/2408.04142v1

摘要： 我们提供了能够执行三十种不同日常任务的机械手指的机械和动力学要求。为了满足这些要求，我们提出了一种基于串联弹性驱动的手指设计，我们称之为日常手指。我们的重点是使手指尽可能紧凑，同时实现所需的性能。我们通过构建一个两指机械手来评估日常手指，该机械手在各种性能参数和任务上进行了测试，例如在架子上拾取和放置菜肴、拾取纸张等薄而扁平的物体以及草莓等精致物体。视频可在项目网站上观看：https://sites.google.com/view/everydayfinger。

用于自主机器人探索的上下文多臂强盗中的主动推理

分类： 机器人技术

作者： Shohei Wakayama, Alberto Candela, Paul Hayne, Nisar Ahmed

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04119v1

摘要： 在不确定的环境中，从多个备选方案中自主选择最佳数据收集选项具有挑战性。当有关选项的辅助信息可访问时，此类问题可以被描述为上下文多臂老虎机（CMAB）。神经启发的主动推理因其使用预期自由能目标函数平衡探索和利用的能力而引起了人们的兴趣。之前的研究表明，基于主动推理的策略使用合成数据对 CMAB 的有效性，本研究旨在利用模拟矿物学调查选址问题，将主动推理应用于现实场景。来自内华达州 Cuprite 的 AVIRIS-NG 的高光谱数据可作为预测结果概率的上下文信息，而地质学家的矿物标签则代表结果。蒙特卡洛模拟评估主动推理针对不断变化的专家偏好的稳健性。结果表明，主动推理比使用现实世界噪声和有偏差数据的标准老虎机方法需要更少的迭代，并且当结果偏好在线变化时，通过调整选择策略以与专家转变保持一致，表现更好。

六自由度机器人操纵器的力运动控制

分类： 机器人技术, 动力系统

作者： Sagar Ojha, Karl Leodler, Lou Barbieri, TseHuai Wu

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04106v1

摘要： 本文提出了一种六自由度空间机械臂运动和力控制的统一算法。运动力控制器执行轨迹跟踪，通过所需的位置、方向和速率操纵机械臂的末端执行器。当接触障碍物或目标物体时，控制器的力模块以新颖的施力方式限制机械手的运动，防止机械手、末端执行器和物体在接触或碰撞过程中损坏。本文提出的核心策略是设计末端执行器的线性加速度，确保末端执行器的轨迹跟踪和任何接触力的限制。控制器的设计通过数值模拟和数字孪生验证进行了验证。

抑郁症预测中的多模式性别公平：对美国和中国数据的见解

分类： 机器学习, 人工智能, 机器人技术

作者： Joseph Cameron, Jiaee Cheong, Micol Spitale, Hatice Gunes

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.04026v1

摘要： 社交代理和机器人越来越多地用于福利环境。然而，一个关键的挑战是这些代理和机器人通常依赖机器学习 (ML) 算法来检测和分析个人的心理健康状况。机器学习算法中的偏见和公平问题正成为越来越令人担忧的问题。与此同时，现有文献还表明，不同性别和文化的心理健康状况可能有不同的表现。我们假设特征（声音、文本和视觉）的表示及其模间关系在来自不同文化和性别的受试者中会有所不同，从而影响各种机器学习模型的性能和公平性。我们通过对来自美国和中国的两个不同数据集进行研究，首次对抑郁表现中的多模式性别公平性进行评估。我们进行彻底的统计和机器学习实验，并对几种不同的算法重复实验，以确保结果不依赖于算法。我们的研究结果表明，尽管两个数据集之间存在差异，但尚不能确定这是由于假设的抑郁症表现差异还是其他外部因素（例如数据收集方法的差异）造成的。我们的研究结果进一步激发了人们对更加一致和具有文化意识的数据收集过程的呼吁，以解决抑郁症检测中的机器学习偏差问题，并促进开发更公平的代理和机器人以促进福祉。

实现人类水平的竞技机器人乒乓球

分类： 机器人技术

作者： David B. D'Ambrosio, Saminda Abeyruwan, Laura Graesser, Atil Iscen, Heni Ben Amor, Alex Bewley, Barney J. Reed, Krista Reymann, Leila Takayama, Yuval Tassa, Krzysztof Choromanski, Erwin Coumans, Deepali Jain, Navdeep Jaitly, Natasha Jaques, Satoshi Kataoka, Yuheng Kuang, Nevena Lazic, Reza Mahjourian, Sherry Moore, Kenneth Oslund, Anish Shankar, Vikas Sindhwani, Vincent Vanhoucke, Grace Vesom, Peng Xu, Pannag R. Sanketi

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03906v1

摘要： 在现实世界的任务中实现人类水平的速度和性能是机器人研究界的北极星。这项工作朝着这一目标迈出了一步，并提出了第一个在竞技乒乓球比赛中达到业余人类水平表现的学习型机器人代理。乒乓球是一项对体力要求很高的运动，需要人类运动员经过多年的训练才能达到高水平的熟练程度。在本文中，我们贡献了（1）一个分层和模块化的策略架构，其中包括（i）低级控制器及其详细的技能描述符，这些描述符对代理的能力进行建模并有助于弥合模拟与真实的差距，以及（ii）高级别控制器。选择低级别技能的级别控制器，(2) 实现零样本模拟到真实的技术，包括定义基于现实世界的任务分配的迭代方法并定义自动课程，以及 (3)实时适应看不见的对手。政策绩效通过 29 场机器人与人类比赛进行评估，其中机器人获胜 45% (13/29)。所有人类都是看不见的玩家，他们的技能水平从初学者到锦标赛级别都有所不同。虽然机器人在与最高级玩家的比赛中输掉了所有比赛，但它在与初学者的比赛中赢得了 100% 的比赛，在与中级选手的比赛中赢得了 55% 的比赛，充分展现了业余人类水平的表现。比赛视频可在 https://sites.google.com/view/competitive-robot-table-tennis 观看

使用距离传感器检测平面中的偏差

分类： 机器人技术, 计算机视觉和模式识别

作者： Carter Sifferman, William Sun, Mohit Gupta, Michael Gleicher

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03838v1

摘要： 我们研究仅使用微型光学飞行时间传感器的瞬时测量来确定平面是否包含几何偏差（例如突起、物体、凹痕或悬崖）的方法。我们方法的关键是利用现成的距离传感器捕获的原始飞行时间数据中编码的全部信息。我们对问题进行了分析，确定了几何学和表面光度学之间的关键歧义。为了克服这种具有挑战性的模糊性，我们将高斯混合模型拟合到平面测量的小型数据集。该模型隐式地捕获了平面的预期几何形状和光度分布，并用于识别可能包含偏差的测量结果。我们在一系列场景中的各种表面和平面偏差上描述了我们的方法。我们发现，我们利用原始飞行时间数据的方法优于仅使用派生距离估计的基线。我们构建了一个示例应用程序，其中我们的方法使移动机器人能够在宽阔的视野范围内避开障碍物和悬崖。

迈向实时高斯泼溅：通过光度 SLAM 加速 3DGS

分类： 机器人技术, 计算机视觉和模式识别

作者： Yan Song Hu, Dayou Mao, Yuhao Chen, John Zelek

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03825v1

摘要： 3D 高斯分布 (3DGS) 在视觉同步定位和建图 (VSLAM) 中的初步应用演示了从单目视频流生成高质量体积重建。然而，尽管取得了这些有希望的进步，但与传统的 VSLAM 相比，当前的 3DGS 集成降低了跟踪性能并降低了运行速度。为了解决这些问题，我们建议将 3DGS 与单目光度 SLAM 系统 Direct Sparse Odometry 集成。我们所做的初步实验表明，与标准的运动结构方法相比，使用直接稀疏里程计点云输出可以显着缩短实现高质量渲染所需的训练时间。减少 3DGS 训练时间可以开发在移动硬件上实时运行的 3DGS 集成 SLAM 系统。这些有希望的初步发现表明，将传统 VSLAM 系统与 3DGS 相结合需要进一步探索。

穿越人类迷宫：利用生成模仿学习进行实时机器人寻路

分类： 机器人技术, 人工智能

作者： Martin Moder, Stephen Adhisaputra, Josef Pauli

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03807v1

摘要： 本文通过将目标条件生成模型与基于采样的模型预测控制（SMPC）相结合来解决拥挤环境中的导航问题。我们引入目标条件自回归模型来生成人群行为，捕获个体之间复杂的交互。该模型处理潜在的机器人轨迹样本并预测周围个体的反应，从而在复杂场景中实现主动机器人导航。大量实验表明，该算法可以实现实时导航，显着降低碰撞率和路径长度，并且性能优于所选的基线方法。该算法的实际有效性在实际的机器人平台上得到了验证，展示了其在动态设置中的能力。

HDPlanner：通过分层决策网络推进未知环境中的自主部署

分类： 机器人技术

作者： Jingsong Liang, Yuhong Cao, Yixiao Ma, Hanqi Zhao, Guillaume Sartoretti

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03768v1

摘要： 在本文中，我们介绍了 HDPlanner，这是一种基于深度强化学习（DRL）的框架，旨在解决移动机器人的两个核心且具有挑战性的任务：自主探索和导航，其中机器人必须自适应地优化其轨迹，以通过持续交互来实现任务目标在未知的环境中。具体来说，HDPlanner 依靠新颖的分层注意力网络来使机器人能够在多个空间尺度上推理其信念并序列协作决策，其中我们的网络将长期目标分解为短期信息丰富的任务分配和信息丰富的路径规划。我们进一步提出了一种基于对比学习的联合优化来增强 HDPlanner 的鲁棒性。我们凭经验证明，HDPlanner 在大量模拟（包括数百个测试地图和大规模、复杂的 Gazebo 环境）中显着优于最先进的传统和基于学习的基线。值得注意的是，HDPlanner 实现了实时规划，与探索基准相比，行驶距离最多减少 35.7%，比导航基准最多减少 16.5%。此外，我们在硬件上验证了我们的方法，它可以在室内和室外环境中生成高质量的自适应轨迹，突出其在现实世界中的适用性，无需额外的培训。

软机器人系统无需模型信息即可自动学习精确的敏捷运动

分类： 机器人技术

作者： Simon Bachhuber, Alexander Pawluchin, Arka Pal, Ivo Boblan, Thomas Seel

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03754v1

摘要： 许多应用领域，例如医学和制造领域，都可以从气动软体机器人 (SR) 中受益匪浅。然而，迄今为止，SR 的精确控制仍然是一个重大挑战，这主要是由于它们的非线性动力学和粘弹性材料特性。传统的控制设计方法通常依赖于复杂的系统建模或耗时的手动调整，这两者都需要大量的人类专业知识，从而限制了其实用性。在最近的工作中，数据驱动方法自动神经常微分方程控制 (ANODEC) 已成功用于完全自动且仅利用输入输出数据在计算机中设计各种非线性系统的控制器，并且不需要先验模型知识或大量的手动调整。在这项工作中，我们成功地应用 ANODEC 来自动学习在现实世界的 SR 中和有限的时间范围内执行敏捷、非重复的参考跟踪运动任务。据作者所知，ANODEC 首次在没有任何先验模型知识的情况下，仅通过 30 秒的输入输出数据就实现了对具有滞后效应的 SR 的高性能控制。我们表明，对于多个质量不同甚至超出训练分布的参考信号，ANODEC 设计的单个反馈控制器始终优于手动调整的 PID 基线。总的来说，这一贡献不仅进一步增强了 ANODEC 的有效性，而且标志着朝着更实用、易于使用的 SR 迈出了重要一步，SR 可以在最短的实验交互时间内自动学习执行敏捷运动。

MS-Mapping：不确定性感知的大规模多会话 LiDAR 测绘系统

分类： 机器人技术

作者： Xiangcheng Hu, Jin Wu, Jianhao Jiao, Binqian Jiang, Wei Zhang, Wenshuo Wang, Ping Tan

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03723v1

摘要： 大规模多会话 LiDAR 测绘对于多种应用至关重要，包括测量、自动驾驶、众包测绘和多智能体导航。然而，现有的方法常常在复杂环境中的数据冗余、鲁棒性和准确性方面遇到困难。为了应对这些挑战，我们推出了 MS-Mapping，这是一种新颖的多会话 LiDAR 测绘系统，该系统采用增量测绘方案，可在大规模环境中实现稳健且准确的地图组装。我们的方法引入了三个关键创新：1）分布感知关键帧选择方法，通过分析地图分布的相似性来捕获每个点云帧对地图的微妙贡献。该方法有效减少了数据冗余和位姿图大小，同时提高了图优化速度； 2）不确定性模型，在图优化时根据协方差矩阵自动进行最小二乘调整，提高建图精度、鲁棒性和灵活性，无需针对特定场景进行参数调优。这种不确定性模型使我们的系统能够监控姿势不确定性并避免不适定优化，从而提高对多样化和具有挑战性的环境的适应性。 3）为了保证评估的公平性，我们重新设计了基线比较和评估基准。地图精度的直接评估证明了所提出的 MS-Mapping 算法与最先进的方法相比的优越性。除了使用 Urban-Nav、FusionPortable 和 Newer College 等公共数据集之外，我们还在如此大的 \SI{855}{m}$\times$\SI{636}{m} 地面实况图上进行了广泛的实验，跨十多个序列收集超过 \SI{20}{km} 的室内和室外数据...

通过结合车辆动力学改进智能驾驶员模型：微观校准和宏观验证

分类： 机器人技术

作者： Dominik Salles, Steve Oswald, Hans-Christian Reuss

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03722v1

摘要： 微观交通模拟用于评估基础设施改造和不断发展的车辆技术（例如互联和自动驾驶）的影响。模拟车辆通过跟车、变道和路口模型进行控制，旨在模仿人类驾驶行为。然而，基于物理的跟车模型 (CFM) 无法完全复制测量的车辆轨迹。因此，我们提出了智能驾驶员模型（IDM）的模型扩展，其中一些已包含在扩展智能驾驶员模型（EIDM）中，以改进校准和验证结果。它们由基于车辆动力学和驾驶程序的方程组成。此外，参数的选择也起着决定性的作用。因此，我们引入了一个框架，使用在德国斯图加特信号交叉口捕获的无人机数据来校准 CFM。我们将 Krauss 模型与 IDM 和 EIDM 的校准误差进行比较。在此设置中，基于现实世界和模拟车辆之间的距离差异，EIDM 的平均误差比 IDM 低 17.78%。将车辆动力学方程添加到 EIDM 中，结果进一步提高了 18.97%。然后通过模拟三种不同场景下的交通来研究校准后的车辆-驾驶员组合：在原始交叉路口、闭环和走走停停的波浪中。数据显示，改进的单个车辆校准过程（可在 https://www.github.com/stepeos/pycarmodel_calibration 上公开获取）也提供了更准确的宏观结果。

弥合 ROS~2 与经典实时任务调度之间的差距

分类： 机器人技术

作者： Harun Teper, Oren Bell, Mario Günzel, Chris Gill, Jian-Jia Chen

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03696v1

摘要： 机器人操作系统2（ROS~~2）是一种广泛使用的中间件，为开发机器人系统提供软件库和工具。在这些系统中，任务由 ROS~~2 执行器调度。由于默认 ROS~~2 执行器的调度行为本质上与经典实时调度理论不同，因此需要专门的分析或替代执行器，需要对 ROS~~2 进行实质性更改。 2023 年，ROS2 中引入了事件执行器，该执行器具有事件队列，并允许在作业完成后立即做出调度决策。在本文中，我们表明，只需对事件执行器进行较小的修改，经典实时调度理论的大量研究成果就变得适用。因此，这可以对最坏情况的响应时间和端到端延迟进行分析，在许多情况下优于默认 ROS 2 执行器的界限。我们的解决方案很容易集成到现有的 ROS 2 系统中，因为它只需要对 ROS 2 中原生包含的事件执行器进行少量后端修改。评估结果表明，我们的 ROS2 事件执行器只需进行少量修改即可在与默认 ROS~2 执行器相比，丢弃作业、最坏情况响应时间、端到端延迟和性能方面。

DRAMA：使用 Mamba 实现自动驾驶的高效端到端运动规划器

分类： 机器人技术

作者： Chengran Yuan, Zhanqi Zhang, Jiawei Sun, Shuo Sun, Zefan Huang, Christina Dao Wen Lee, Dongen Li, Yuhang Han, Anthony Wong, Keng Peng Tee, Marcelo H. Ang Jr

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03601v1

摘要： 运动规划是一项具有挑战性的任务，需要在高度动态和复杂的环境中生成安全可行的轨迹，从而形成自动驾驶车辆的核心能力。在本文中，我们提出了 DRAMA，这是第一个基于 Mamba 的自动驾驶汽车端到端运动规划器。 DRAMA融合了特征空间中的摄像头、激光雷达鸟瞰图像以及自我状态信息，生成一系列未来的自我轨迹。与传统的基于 Transformer 的方法（序列长度的注意力复杂度为二次）不同，DRAMA 能够实现计算强度较低的注意力复杂度，展现出处理日益复杂的场景的潜力。利用我们的 Mamba 融合模块，DRAMA 高效且有效地融合了相机和 LiDAR 模式的功能。此外，我们还引入了 Mamba-Transformer 解码器，可以增强整体规划性能。该模块普遍适用于任何基于 Transformer 的模型，特别是对于具有长序列输入的任务。我们进一步引入了一种新颖的特征状态丢失，它可以在不增加训练和推理时间的情况下提高规划器的鲁棒性。大量的实验结果表明，与基线 Transfuser 相比，DRAMA 在 NAVSIM 数据集上实现了更高的精度，并且参数更少，计算成本更低。

VPOcc：利用消失点进行单目 3D 语义占用预测

分类： 计算机视觉和模式识别, 机器人技术

作者： Junsu Kim, Junhee Lee, Ukcheol Shin, Jean Oh, Kyungdon Joo

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03551v1

摘要： 由于使用单个 RGB 相机的紧凑性，单目 3D 语义占用预测在机器人视觉中变得越来越重要。然而，现有方法通常不能充分考虑相机透视几何形状，导致图像深度范围内的信息不平衡。为了解决这个问题，我们提出了一种名为 VPOcc 的消失点（VP）引导单目 3D 语义占用预测框架。我们的框架由三个利用 VP 的新颖模块组成。首先，在VPZoomer模块中，我们最初利用VP进行特征提取，通过生成基于VP的放大图像来实现跨场景的信息平衡特征提取。其次，我们通过使用 VP 引导的交叉注意（VPCA）模块对 VP 采样点来执行透视几何感知特征聚合。最后，我们通过平衡特征体积融合（BVFV）模块有效地融合原始和放大体素特征体积，创建信息平衡的特征体积。实验表明，我们的方法在 SemanticKITTI 和 SSCBench-KITTI360 上实现了 IoU 和 mIoU 的最先进性能。这些结果是通过利用VP有效解决图像中的信息不平衡而获得的。我们的代码将在 www.github.com/anonymous 上提供。

机器人深度强化学习：现实世界成功案例调查

分类： 机器人技术, 机器学习

作者： Chen Tang, Ben Abbatematteo, Jiaheng Hu, Rohan Chandra, Roberto Martín-Martín, Peter Stone

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03539v1

摘要： 强化学习 (RL)，特别是它与被称为深度 RL (DRL) 的深度神经网络的结合，在广泛的应用中显示出了巨大的前景，这表明它具有开发复杂机器人行为的潜力。然而，由于与物理世界交互的复杂性和成本，机器人问题给强化学习的应用带来了根本性的困难。本文对机器人技术的 DRL 进行了现代调查，特别侧重于评估在现实世界中使用 DRL 在实现几种关键机器人能力方面所取得的成功。我们的分析旨在确定这些令人兴奋的成功背后的关键因素，揭示尚未开发的领域，并提供 DRL 在机器人技术中的地位的总体特征。我们强调了未来工作的几个重要途径，强调需要稳定且样本高效的现实世界强化学习范式、发现和整合各种能力以解决复杂的长期、开放世界任务的整体方法，以及有原则的开发和评估程序。这项调查旨在为强化学习从业者和机器人专家提供见解，帮助他们利用强化学习的力量来创建具有普遍能力的现实世界机器人系统。

受中枢神经系统启发的自主机器人分层学习控制

分类： 机器人技术, 人工智能

作者： Pei Zhang, Zhaobo Hua, Jinliang Ding

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03525v1

摘要： 哺乳动物通过中枢神经系统不同层次活动的协调和相互作用，可以在各种复杂环境中产生自主行为。在本文中，我们通过模仿中枢神经系统的层次结构及其协调和交互行为，提出了一种新颖的层次学习控制框架。该框架将主动和被动控制系统相结合，提高控制系统的灵活性和可靠性，实现机器人更加多样化的自主行为。具体来说，该框架具有不同级别的独立神经网络控制器的骨干，并采用三级双下降通路结构，其灵感来自大脑皮层、小脑和脊髓的功能。我们通过仿真以及六足机器人在各种复杂环境下的实验，包括跨越障碍和部分损坏后的快速恢复，全面验证了所提出的方法。这项研究揭示了控制中枢神经系统自主行为的原理，并证明了分层控制方法的有效性，其显着特征是分层学习控制架构以及主动和被动控制系统的结合。

AirSLAM：高效、照明稳定的点线视觉 SLAM 系统

分类： 机器人技术

作者： Kuan Xu, Yuefan Hao, Shenghai Yuan, Chen Wang, Lihua Xie

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03520v1

摘要： 在本文中，我们提出了一种高效的视觉 SLAM 系统，旨在解决短期和长期的照明挑战。我们的系统采用混合方法，将用于特征检测和匹配的深度学习技术与传统的后端优化方法相结合。具体来说，我们提出了一个统一的卷积神经网络（CNN），可以同时提取关键点和结构线。然后以耦合方式关联、匹配、三角测量和优化这些特征。此外，我们引入了一个轻量级重定位管道，它重用构建的地图，其中关键点、线条和结构图用于将查询框架与地图进行匹配。为了增强所提出的系统对现实世界机器人的适用性，我们使用 C++ 和 NVIDIA TensorRT 部署并加速特征检测和匹配网络。对各种数据集进行的大量实验表明，我们的系统在光照挑战环境中优于其他最先进的视觉 SLAM 系统。效率评估表明，我们的系统在PC上可以以73Hz的速率运行，在嵌入式平台上可以以40Hz的速率运行。

利用大语言模型增强自动驾驶中的开放词汇 3D 场景理解

分类： 计算机视觉和模式识别, 机器学习, 机器人技术

作者： Amirhosein Chahe, Lifeng Zhou

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03516v1

摘要： 本文介绍了一种自动驾驶中开放词汇 3D 场景理解的新方法，该方法将语言嵌入式 3D 高斯与大型语言模型 (LLM) 相结合以增强推理。我们建议利用大语言模型来生成上下文相关的规范短语以进行分割和场景解释。我们的方法利用 LLM 的上下文和语义功能来生成一组规范短语，然后将其与 3D 高斯中嵌入的语言特征进行比较。这种大语言模型指导的方法显着提高了零镜头场景理解和感兴趣对象的检测，即使在最具挑战性或不熟悉的环境中也是如此。 WayveScenes101 数据集上的实验结果表明，我们的方法在开放词汇对象检测和分割的准确性和灵活性方面超越了最先进的方法。这项工作代表了朝着更智能、上下文感知的自动驾驶系统迈出的重大进步，有效地将 3D 场景表示与高级语义理解联系起来。

针对LLM集成移动机器人系统的即时注入攻击研究

分类： 机器人技术, 人工智能

作者： Wenxiao Zhang, Xiangrui Kong, Conan Dewitt, Thomas Braunl, Jin B. Hong

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03515v1

摘要： 将 GPT-4o 等大型语言模型 (LLM) 集成到机器人系统中代表了实体人工智能的重大进步。这些模型可以处理多模式提示，使它们能够生成更多上下文感知响应。然而，这种整合并非没有挑战。主要问题之一是在机器人导航任务中使用大语言模型的潜在安全风险。这些任务需要精确可靠的响应，以确保安全有效的运行。多模式提示在增强机器人理解能力的同时，也带来了可能被恶意利用的复杂性。例如，旨在误导模型的对抗性输入可能会导致不正确或危险的导航决策。本研究调查了即时注入对大语言模型集成系统中移动机器人性能的影响，并探索了减轻这些风险的安全提示策略。我们的研究结果表明，通过实施强大的防御机制，攻击检测和系统性能总体显着提高了约 30.8%，凸显了它们在增强面向任务的安全性和可靠性方面的关键作用。

使用 VECTOR 打开 3D 重建误差分析的黑匣子

分类： 计算机视觉和模式识别, 机器人技术

作者： Racquel Fygenson, Kazi Jawad, Isabel Li, Francois Ayoub, Robert G. Deen, Scott Davidoff, Dominik Moritz, Mauricio Hess-Flores

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03503v1

摘要： 从 2D 图像重建 3D 场景是一项技术挑战，影响从地球和行星科学、太空探索到增强现实和虚拟现实等领域。通常，重建算法首先识别图像中的共同特征，然后在估计地形形状后最小化重建误差。该捆绑调整（BA）步骤围绕单个简化标量值进行优化，该标量值混淆了重建错误的许多可能原因（例如，相机位置和方向的初始估计、照明条件、地形中特征检测的难易程度）。重建错误可能会导致不准确的科学推论或危及探索远程环境的航天器。为了应对这一挑战，我们推出了 VECTOR，这是一种视觉分析工具，可以改进立体重建 BA 的错误检查。 VECTOR 为分析师提供了以前无法查看的特征位置、相机姿态和计算的 3D 点。 VECTOR 是与 NASA 喷气推进实验室的 Perseverance 火星漫游者和 Ingenuity 火星直升机地形重建团队合作开发的。我们报告了如何使用该工具来调试和改进 Mars 2020 任务的地形重建。

使用多吸盘夹具实现快速可靠的拾取和放置的抓取故障约束

分类： 机器人技术

作者： Jee-eun Lee, Robert Sun, Andrew Bylard, Luis Sentis

发布时间： 2024-08-07

链接： http://arxiv.org/abs/2408.03498v1

摘要： 多吸盘夹具经常用于执行拾取和放置机器人任务，特别是在工业环境中，在有限的时间内抓取各种轻到重的物体是常见的要求。然而，大多数现有的作品集中于使用一个或两个吸盘来抓取形状不规则但较轻的物体。目前缺乏关于使用较大吸盘阵列稳健操纵重物的研究，这给建模和预测抓取失败带来了挑战。本文提出了一种对多吸盘夹具的抓取强度进行建模的通用方法，引入了可用于轨迹规划和优化的新约束，以实现快速可靠的拾取和放置操作。主要的建模挑战是准确预测抓取物体时每个吸盘的负载分布。为了解决这种载荷分布问题，我们通过一个简单的二次规划找到了最小弹簧势能配置。这产生了计算高效的分析解决方案，可以将其集成以制定时间最优轨迹规划中的抓取故障约束。最后，我们提出实验结果来验证所提出模型的效率和准确性。

用于个性化空间关系建模的交互式增强现实界面

分类： 机器人技术

作者： Massimiliano Nigro, Amy O'Connell, Thomas Groechel, Anna-Maria Velentza, Maja Matarić

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03453v1

摘要： 对于为老年用户设计的社交辅助机器人来说，理解和尊重个人空间偏好至关重要。这项工作介绍并评估了一种新颖的个性化上下文感知方法，用于在人机交互过程中对用户的空间关系偏好进行建模。使用交互式增强现实界面，我们收集了一组用户首选的机器人距离，并采用主动迁移学习方法来微调专门的深度学习模型。我们通过两项用户研究评估了这种方法：1）便利人群研究（N = 24），以验证主动迁移学习方法的有效性； 2) 一项涉及老年人（N = 15）的用户研究，以评估系统的可用性。我们将通过增强现实界面和物理机器人收集的数据进行比较，以检查虚拟机器人与物理机器人的空间关系偏好之间的关系。我们发现微调显着提高了模型性能：微调后测试误差平均下降了 26.97%。该系统受到了老年人参与者的好评，他们为未来的工作提供了宝贵的反馈和建议。

使用时间序列聚类和强化学习的航天器惯性参数估计

分类： 天体物理学仪器和方法, 机器学习, 机器人技术

作者： Konstantinos Platanitis, Miguel Arana-Catania, Leonardo Capicchiano, Saurabh Upadhyay, Leonard Felicetti

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03445v1

摘要： 本文提出了一种机器学习方法来估计航天器的惯性参数，以防这些参数在运行期间发生变化，例如，有效载荷的多次部署、附件和吊杆的展开、推进剂消耗以及在轨维修和主动碎片清除操作期间。机器学习方法使用时间序列聚类和强化学习生成的优化驱动序列，以方便区分不同的惯性参数集。针对多卫星部署系统的情况评估了所提出策略的性能，表明该算法对此类操作中的常见干扰具有弹性。

移动用户和自动驾驶车辆的通信感知一致边缘选择

分类： 网络和互联网架构, 人工智能, 机器人技术

作者： Nazish Tahir, Ramviyas Parasuraman, Haijian Sun

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03435v1

摘要： 通过车对车 (V2V) 通信将时间敏感、计算密集型任务（例如自动驾驶的高级学习算法）从车辆卸载到附近的边缘服务器、车对基础设施 (V2I) 系统或其他协作车辆，可增强服务效率。然而，在到达目的地的路径上，车辆的移动性需要在接入点 (AP) 之间频繁切换，以保持连续且不间断的无线连接，从而维持网络的服务质量 (QoS)。这些频繁的切换随后导致与各个AP关联的边缘服务器之间的任务迁移。本文提出了一种基于深度确定性策略梯度（DDPG）算法的深度强化学习框架，解决了任务迁移和接入点切换的联合问题。提出了一种 AP 通信和计算的联合分配方法，以最小化计算负载、服务延迟和中断，总体目标是最大化 QoS。我们在模拟实验中实现并评估了我们提出的框架，以实现边缘服务器之间平滑、无缝的任务切换，最终减少延迟。

通过自监督初始化学习实现更快的模型预测控制

分类： 机器人技术

作者： Zhaoxin Li, Letian Chen, Rohan Paleja, Subramanya Nageshrao, Matthew Gombolay

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03394v1

摘要： 机器人控制任务的优化涵盖各种方法，包括模型预测控制 (MPC)。然而，系统的复杂性，例如非凸和不可微的成本函数以及延长的规划范围通常会大大增加计算时间，限制 MPC 的实际适用性。先前在加速优化方面的工作在解决凸问题和泛化以支持域方面存在局限性。为了克服这一挑战，我们开发了一个旨在加快优化过程的新颖框架。在我们的框架中，我们通过强化学习将离线自监督学习和在线微调结合起来，以提高控制性能并减少优化时间。我们展示了我们的方法在新颖、具有挑战性的一级方程式赛道驾驶任务上的有效性，在具有挑战性的坚持赛道上，优化时间性能提高了 3.9%，跟踪精度提高了 3.6%。

LAC-Net：线性融合注意力引导卷积网络，用于遮挡下的精确机器人抓取

分类： 机器人技术, 计算机视觉和模式识别

作者： Jinyu Zhang, Yongchong Gu, Jianxiong Gao, Haitao Lin, Qiang Sun, Xinwei Sun, Xiangyang Xue, Yanwei Fu

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03238v1

摘要： 本文解决了通过视觉感知感知完整物体形状的挑战。虽然先前的研究已经证明在分割场景内对象的可见部分方面取得了令人鼓舞的结果，但非模态分割尤其有可能让机器人推断出对象的被遮挡部分。为此，本文提出了一种新的框架，探索杂乱场景中机器人抓取的非模态分割，从而大大增强机器人的抓取能力。最初，我们使用传统的分割算法来检测目标对象的可见部分，这为完成完整的对象掩模提供了形状先验。特别是，为了探索如何利用 RGB 图像的语义特征和深度图像的几何信息，我们提出了一种线性融合注意力引导卷积网络（LAC-Net）。 LAC-Net利用线性融合策略有效地融合这些跨模态数据，然后使用先前的可见掩模作为注意力图来引导网络聚焦于目标特征位置以进一步完成掩模恢复。与仅依赖可见片段相比，使用目标对象的非模态掩模在选择更准确和鲁棒的抓握点方面具有优势。不同数据集上的结果表明我们的方法实现了最先进的性能。此外，机器人实验验证了该方法在现实世界中的可行性和鲁棒性。我们的代码和演示可以在项目页面上找到：https://jrrryzh.github.io/LAC-Net。

在机器人手术中利用视觉特征先验个性化联合仪器分割

分类： 计算机视觉和模式识别, 人工智能, 机器人技术, 医学物理

作者： Jialang Xu, Jiacheng Wang, Lequan Yu, Danail Stoyanov, Yueming Jin, Evangelos B. Mazomenos

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03208v1

摘要： 用于手术器械分割 (SIS) 的个性化联合学习 (PFL) 是一种很有前途的方法。它使多个临床站点能够在私密的情况下协作训练一系列模型，每个模型都根据每个站点的单独分布进行定制。现有的 PFL 方法很少考虑多头自注意力的个性化，也没有考虑手术场景中固有的外观多样性和器械形状相似性。因此，我们提出了 PFedSIS，这是一种具有 SIS 视觉特征先验的新颖 PFL 方法，结合了全局个性化解缠（GPD）、外观调节个性化增强（APE）和形状相似性全局增强（SGE），以提高 SIS 在每个方面的性能。地点。 GPD 代表了多头自注意力个性化的头智能分配的首次尝试。为了保留每个站点独特的外观表示并逐步利用站点间的差异，APE引入了外观调节，并通过超网络为每个站点的个性化参数提供定制的分层聚合解决方案。通过SGE维护和共享仪器的相互形状信息，这增强了图像级别上的跨风格形状一致性，并在预测级别上计算每个站点的形状相似度贡献以更新全局参数。 PFedSIS 的性能优于最先进的方法，Dice 提高了 1.51%，IoU 提高了 2.11%，ASSD 提高了 -2.79，HD95 性能提高了 -15.55。相应的代码和模型将在https://github.com/wzjialang/PFedSIS发布。

使用自然人类驾驶先验生成对抗性安全关键场景

分类： 机器人技术, 人工智能

作者： Kunkun Hao, Yonggang Luo, Wen Cui, Yuqiao Bai, Jucheng Yang, Songyang Yan, Yuxi Pan, Zijiang Yang

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03200v2

摘要： 评估决策系统对于开发自动驾驶汽车至关重要，而现实且具有挑战性的安全关键测试场景则发挥着至关重要的作用。由于现实世界数据集的长尾分布、稀疏性和稀有性，获得这些场景并非易事。为了解决这个问题，在本文中，我们引入了一种使用自然人类驾驶先验和强化学习技术的自然对抗场景生成解决方案。通过这样做，我们可以获得既多样化又现实的大规模测试场景。具体来说，我们构建了一个模拟自然交通交互场景的模拟环境。根据这种环境，我们实施了一个两阶段的程序。第一阶段结合了传统的基于规则的模型，例如IDM~~（智能驾驶员模型）和MOBIL~~（最小化车道变化引起的总体制动）模型，以从现实数据集中粗略地、离散地捕获和校准关键控制参数。接下来，我们利用 GAIL~~（生成对抗模仿学习）来连续表示驾驶员行为。导出的 GAIL 可以进一步用于设计基于 PPO~~（近端策略优化）的 actor-critic 网络框架来微调奖励函数，然后优化我们的自然对抗场景生成解决方案。在 NGSIM 数据集中进行了大量实验，包括 3,000 辆车辆的轨迹。与基线模型相比，测量了基本的交通参数，例如碰撞率、加速度、转向和变道次数。我们的研究结果表明，所提出的模型可以生成涵盖自然性和对抗性的现实安全关键测试场景，这可以成为自动驾驶汽车开发的基石。

利用频谱注意力网络和近端策略优化进行集成意图预测和决策

分类： 机器人技术

作者： Xiao Zhou, Chengzhen Meng, Wenru Liu, Zengqi Peng, Ming Liu, Jun Ma

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03191v1

摘要： 对于高度动态环境中的自动驾驶，预计可以预测周围车辆（SV）的未来行为并做出安全有效的决策。然而，对预测和决策模块之间固有的耦合效应进行建模一直是一个长期存在的挑战，特别是当需要保持适当的计算效率时。为了解决这些问题，我们提出了一种新颖的集成意图预测和决策方法，该方法显式地建模耦合关系并实现高效计算。具体来说，频谱注意力网络旨在通过捕获每个频率分量随时间的趋势及其相互关系来预测 SV 的意图。由于预测的意图在执行过程中没有被解码为轨迹，因此实现了意图预测模块的快速计算。此外，采用近端策略优化（PPO）算法通过其目标函数内的裁剪机制实现的适度策略更新来解决框架中的非平稳问题。在此基础上，通过联合学习集成意图预测和决策模块。在代表性交通场景中进行了实验，结果表明，所提出的集成框架在驾驶任务的成功率、效率和安全性方面表现出优于多个深度强化学习（DRL）基线的性能。

飞行训练：20 mW 以内的纳米无人机上的设备自监督学习

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Elia Cereda, Alessandro Giusti, Daniele Palossi

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03168v1

摘要： 由微型机器学习 (TinyML)（例如纳米无人机）驱动的小型化网络物理系统 (CPS) 正在成为一项越来越有吸引力的技术。它们的小外形（即直径约 10 厘米）确保了广泛的适用性，从探索狭窄的灾难场景到安全的人机交互。简单的电子设备使这些 CPS 价格低廉，但严重限制了船上可用的计算、内存和传感资源。在实际应用中，域转移进一步加剧了这些限制。这一基本的机器学习问题意味着，当从训练域转移到不同的部署域时，模型感知性能会下降。为了应对和缓解这一普遍问题，我们提出了一种新颖的设备上微调方法，该方法仅依赖于纳米无人机上可用的有限超低功耗资源。然后，为了克服 CPS 上缺乏真实训练标签的问题，我们还采用了基于自我运动一致性的自我监督方法。尽管我们的工作建立在特定的基于现实世界视觉的人体姿势估计任务之上，但它广泛适用于许多嵌入式 TinyML 用例。我们的 512 个图像设备上训练程序完全部署在超低功耗 GWT GAP9 片上系统上，仅需要 1MB 内存，同时功耗低至 19mW，运行时间仅为 510ms（38mW）。最后，我们通过现场测试我们的闭环 CPS 来展示我们的设备上学习方法的优势，结果表明与非微调的最先进技术相比，水平位置误差最多可减少 26%基线。在最具挑战性的前所未见的环境中，我们的设备上学习程序决定了任务的成功或失败。

用于演示模仿的随机轨迹优化

分类： 机器人技术, 系统与控制, 系统与控制

作者： Chenlin Ming, Zitong Wang, Boxuan Zhang, Xiaoming Duan, Jianping He

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03131v2

摘要： 人类经常通过模仿专家并逐渐提高自己的熟练程度来学习新技能。在这项工作中，我们介绍了用于演示模仿的随机轨迹优化（STODI），这是一种机器人轨迹优化框架，可以模仿演示轨迹的形状，从而提高动态性能。与人类学习过程一致，演示模仿是第一步，而轨迹优化旨在增强机器人运动性能。通过生成随机噪声并构建适当的成本函数，STODI 有效地探索和利用生成的噪声轨迹，同时保留演示形状特征。我们采用三个指标来测量时域和频域中轨迹的相似性，以帮助演示模仿。理论分析揭示了这些指标之间的关系，强调了频域分析对特定任务的好处。 PyBullet 模拟器中的 7 自由度机械臂上的实验验证了 STODI 框架的功效，展示了与之前的方法相比改进的优化性能和稳定性。

具有不确定性的机器人机械臂的自适应滑模轨迹控制

分类： 系统与控制, 机器人技术, 系统与控制

作者： Mustafa M. Mustafa, Carl D. Crane, Ibrahim Hamarash

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03102v1

摘要： 在本文中，我们提出并演示了一种自适应滑模控制，用于承受不确定动力学、振动干扰和有效负载变化干扰的机器人操纵器的轨迹跟踪控制。在整个工作中，我们寻求一种对不确定性和干扰具有鲁棒性、准确且可实施的控制器。为了满足这些要求，我们使用基于非线性李雅普诺夫的方法来设计控制器并保证其稳定性。 MATLAB-SIMULINK 软件用于验证该方法并演示控制器的性能。仿真结果表明，所推导的控制器稳定、对扰动和不确定性具有鲁棒性、精确性和可实现性。

存在外部振动和不确定有效负载时机器人机械手的专用非线性控制

分类： 系统与控制, 机器人技术, 系统与控制

作者： Mustafa M. Mustafa, Carl D. Crane, Ibrahim Hamarash

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03098v1

摘要： 机器人操纵器通常需要在有振动的环境中工作，并且会受到负载不确定性的影响。为这些机器人提供具有可实现的扭矩输入的精确跟踪控制设计是一个复杂的主题。本文提出了两种解决该问题的方法。这些方法考虑了在外部振动和有效负载变化引起的非线性不确定扭矩存在的情况下的关节空间跟踪控制设计。两种方法都使用了不确定扭矩的特性。第一种方法基于有界性，而第二种方法则同时考虑可微性和有界性。从每种方法派生的控制器在精度、控制效果和扰动特性方面有所不同。利用基于李亚普诺夫的分析来保证每种情况下控制设计的稳定性。仿真结果验证了该方法并展示了控制器的性能。派生的控制器以牺牲上述特性为代价显示出稳定的结果。

BodySLAM：用于外科手术应用的通用单目视觉 SLAM 框架

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： G. Manni, C. Lauretti, F. Prata, R. Papalia, L. Zollo, P. Soda

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03078v1

摘要： 内窥镜手术依赖于二维视图，给外科医生的深度感知和器械操作带来了挑战。虽然同步定位和建图 (SLAM) 已成为解决这些限制的一种有前途的解决方案，但由于硬件限制（例如使用单目摄像头和缺少里程计传感器），在内窥镜手术中的实施提出了重大挑战。这项研究提出了一种强大的基于深度学习的 SLAM 方法，该方法结合了最先进的模型和新开发的模型。它由三个主要部分组成：单目姿态估计模块，引入了基于 CycleGAN 架构的新型无监督方法；单目深度估计模块，利用新颖的 Zoe 架构；3D 重建模块，使用以前模型的信息来创建连贯的手术图。使用三个公开可用的数据集（Hamlyn、EndoSLAM 和 SCARED）对该过程的性能进行了严格评估，并针对两种最先进的方法 EndoSFMLearner 和 EndoDepth 进行了基准测试。与内窥镜检查中最先进的深度估计算法相比，MDEM 中的 Zoe 集成表现出了卓越的性能，而 MPEM 中的新颖方法则表现出了有竞争力的性能和最短的推理时间。结果展示了我们的方法在腹腔镜检查、胃镜检查和结肠镜检查这三种不同的内窥镜手术场景中的稳健性。所提出的 SLAM 方法有可能通过为外科医生提供增强的深度感知和 3D 重建能力来提高内窥镜手术的准确性和效率。

社会行为是基于学习的多智能体寻路困境的关键

分类： 机器人技术

作者： Chengyang He, Tanishq Duhan, Parth Tulsyan, Patrick Kim, Guillaume Sartoretti

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03063v1

摘要： 多代理路径查找 (MAPF) 问题涉及在已知的静态环境中为代理团队寻找无碰撞路径，在仓库自动化、物流或最后一英里交付中具有重要应用。为了满足这些大规模应用的需求，当前基于学习的方法通常向所有代理部署相同的经过充分训练的去中心化网络，以提高可扩展性。然而，这种参数共享通常会导致代理之间的同质行为，这可能会阻止代理打破对称冲突（例如瓶颈）的联系，并可能导致活锁/死锁。在本文中，我们提出了 SYLPH，一种新型的基于学习的 MAPF 框架，旨在通过允许代理学习和动态选择不同的社会行为（类似于个体、动态角色）来减轻同质性的不利影响，而不影响参数提供的可扩展性分享。具体来说，SYLPH 智能体学习根据当前情况选择他们的社会价值取向（SVO），量化他们自己的自私/利他主义水平，以及以 SVO 为条件的 MAPF 政策来决定他们的运动行动。为此，每个代理首先通过预测与其他代理的未来冲突/交互来确定系统中最有影响力的其他代理。每个智能体针对该智能体选择自己的 SVO，并训练其去中心化 MAPF 策略来制定该 SVO，直到另一个智能体变得更有影响力。为了进一步允许智能体考虑彼此的社交偏好，每个智能体都可以访问其邻居的 SVO 值。由于这种分层决策和社会偏好交换，SYLPH 赋予智能体通过更多潜在空间和细致入微的上下文来推理 MAPF 任务的能力，从而导致不同的响应，有助于打破对称冲突的联系。 [...]

学习转向：树冠下机器人中稳健的行转向的扩散模仿

分类： 机器人技术

作者： Arun N. Sivakumar, Pranay Thangeda, Yixiao Fang, Mateus V. Gasparino, Jose Cuaran, Melkior Ornik, Girish Chowdhary

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03059v1

摘要： 冠层下农业机器人需要强大的导航功能才能实现完全自主，但由于 GPS 接收能力下降、视觉混叠、遮挡和复杂的车辆动力学，难以在作物行之间进行紧密的行转动。我们提出了一种模仿学习方法，使用扩散策略从人类操作员或特权控制器提供的演示中学习行转向行为。玉米田环境中的模拟实验显示了仅通过视觉观察和速度状态来学习这项任务的潜力。然而，在保持行内控制和处理不同的初始条件方面仍然存在挑战，这凸显了未来需要改进的领域。

整合演示中的可控运动技能

分类： 机器人技术, 人工智能

作者： Honghao Liao, Zhiheng Li, Ziyu Meng, Ran Song, Yibin Li, Wei Zhang

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03018v1

摘要： 腿式机器人的应用不断扩大，需要它们掌握多种运动技能。相应地，研究人员必须解决将多种不同运动技能集成到控制器中的挑战。虽然现有的基于强化学习 (RL) 的方法在腿式机器人的多技能集成方面取得了显着的成功，但这些方法通常需要复杂的奖励工程，或者仅限于集成受特定任务目标约束的一组预定义的运动技能，从而导致限制灵活性。在这项工作中，我们引入了一种灵活的多技能集成框架，名为可控技能集成（CSI）。 CSI 能够将具有不同风格的多种运动技能集成到单个策略中，而不需要复杂的奖励调整。此外，以分层控制的方式，训练好的低级策略可以与高级自然语言推理（NLI）模块相结合，以实现初步的语言导向的技能控制。我们的实验表明，CSI 可以更全面地灵活地整合多种运动技能，并促进不同技能之间的转换。此外，随着要集成的运动技能数量显着增加，CSI 表现出良好的可扩展性。

医用软连续体机器人偏转的闭环磁控制

分类： 机器人技术

作者： Zhiwei Wu, Siyi Wei, Zhanxin Geng, Jinhui Zhang, Duanduan Chen

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.03017v1

摘要： 磁性软连续体机器人（MSCR）因其超弹性纤维基质和增强的磁性可操作性而成为血管内介入治疗中的强大设备。系留磁性装置的有效闭环控制有助于实现自主血管机器人手术。在本文中，我们采用配备单个可旋转永磁体的磁驱动系统来实现 MSCR 的闭环偏转控制。为此，我们建立了暴露于非均匀磁场的 MSCR 的微分运动学模型。推导了雅可比行列式的存在唯一性与机器人之间几何位置的关系。雅可比行列式引起的精确控制方向被证明在仿真中至关重要。然后，相应的准静态控制（QSC）框架集成了线性扩展状态观测器来估计模型不确定性。最后，通过外部干扰下 PD 控制器的轨迹跟踪对比实验验证了所提出的 QSC 框架的有效性。所提出的控制框架有效地防止执行器达到关节极限，并在不超调的情况下实现快速、低误差跟踪性能。

通过模拟最大部署间隙在域转移下进行少样本挖掘

分类： 机器人技术, 人工智能, 系统与控制, 系统与控制

作者： Yifan Zhu, Pranay Thangeda, Erica L Tevere, Ashish Goel, Erik Kramer, Hari D Nayar, Melkior Ornik, Kris Hauser

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02949v1

摘要： 地外天体上的自主着陆器任务需要在应对域变化的同时对颗粒材料进行采样，即使采样策略在地球上进行了广泛调整。为了应对这一挑战，本文研究了少镜头舀取问题，并提出了一种基于视觉的自适应舀取策略，该策略使用经过新颖元训练策略训练的深层内核高斯过程方法，从非常有限的经验中在线学习-分布目标地形。我们的深度内核校准与最大部署差距（kCMD）策略通过从离线训练数据集和训练模型创建模拟最大部署差距来明确训练深度内核模型以适应大的领域变化，以克服训练期间的这些部署差距。该方法采用贝叶斯优化顺序决策框架，允许机器人在几次尝试后在分布不均的地形上执行高质量的铲斗动作，明显优于挖掘文献中提出的非自适应方法以及其他最先进的元学习方法。所提出的方法还展示了零发射传输能力，成功适应了 NASA OWLAT 平台，该平台可作为未来潜在行星任务的最先进的模拟器。这些结果证明了通过模拟部署间隙训练深度模型的潜力，可以在大容量模型中实现更通用的元学习。此外，他们强调了我们的方法在自主着陆器采样任务中的前景，使着陆器能够克服地球和地外天体之间的部署差距。

KOI：通过混合关键状态指导加速在线模仿学习

分类： 机器人技术, 人工智能

作者： Jingxian Lu, Wenke Xia, Dong Wang, Zhigang Wang, Bin Zhao, Di Hu, Xuelong Li

发布时间： 2024-08-06

链接： http://arxiv.org/abs/2408.02912v1

摘要： 在线模仿学习方法与广泛的在线探索空间和有限的专家轨迹之间的差距作斗争，由于任务感知奖励估计不准确，这阻碍了有效的探索。受认知神经科学发现的启发，即任务分解可以促进有效学习的认知处理，我们假设代理可以通过将目标任务分解为“做什么”的目标来估计精确的任务感知模仿奖励，以实现有效的在线探索“怎么做”的机制。在这项工作中，我们引入了混合关键状态引导的在线模仿（KOI）学习方法，该方法利用语义和运动关键状态的集成作为任务感知奖励估计的指导。最初，我们利用视觉语言模型将专家轨迹分割成语义关键状态，指示“做什么”的目标。在语义关键状态之间的间隔内，利用光流来捕获运动关键状态以了解“如何做”的过程。通过整合对语义和运动关键状态的彻底掌握，我们改进了轨迹匹配奖励计算，鼓励任务感知探索以实现高效的在线模仿学习。我们的实验结果证明，我们的方法在 Meta-World 和 LIBERO 环境中样本效率更高。我们还进行了现实世界的机器人操作实验来验证我们方法的有效性，证明我们的 KOI 方法的实际适用性。

使用限制性路由势场进行路径规划的多尺度单元分解

分类： 机器人技术, 系统与控制, 系统与控制

作者： Josue N. Rivera, Dengfeng Sun

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02786v1

摘要： 在城市货物配送等新兴领域，航空货运的出现需要开发优先考虑安全的路线解决方案。本文介绍了 Larp，一种新颖的路径规划框架，它利用限制性势场的概念来打造比现有方法导出的路线明显更安全的路线。该算法通过将势场分割为单元层次结构来实现这一目标，每个单元都有一个由障碍物接近度确定的指定限制区域。虽然 Larp 背后的主要推动力是提高货运无人机 (UAV) 空中路径的安全性，但其实用性已扩展到各种路径规划场景。与现有的和当代基于势场的方法的比较分析揭示了拉普在与限制保持安全距离方面的熟练程度以及在规避局部最小值方面的熟练程度。

将基于模型的足迹规划与无模型强化学习相结合，实现动态腿部运动

分类： 机器人技术, 系统与控制, 系统与控制

作者： Ho Jae Lee, Seungwoo Hong, Sangbae Kim

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02662v1

摘要： 在这项工作中，我们引入了一个控制框架，它将基于模型的足迹规划与强化学习 (RL) 相结合，利用从线性倒立摆 (LIP) 动力学导出的所需足迹模式。利用 LIP 模型，我们的方法可以预测机器人状态并根据速度命令确定所需的脚部位置。然后，我们训练 RL 策略来跟踪脚的位置，而不遵循从 LIP 模型导出的完整参考运动。来自物理模型的部分指导允许 RL 策略集成物理信息动力学的预测能力和 RL 控制器的适应性特征，而不会导致策略与模板模型过度拟合。我们的方法在麻省理工学院的人形机器人上得到了验证，证明我们的策略可以实现稳定而动态的行走和转弯运动。我们通过将运动任务扩展到看不见的、不平坦的地形，进一步验证了我们的策略的适应性和普遍性。在硬件部署过程中，我们在跑步机上实现了高达 1.5 m/s 的向前行走速度，并成功执行了 90 度和 180 度转弯等动态运动动作。

用于社交机器人导航的基于上下文感知的 Mamba 强化学习

分类： 机器人技术, 系统与控制, 系统与控制

作者： Syed Muhammad Mustafa, Omema Rizvi, Zain Ahmed Usmani, Abdul Basit Memon

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02661v1

摘要： 社交机器人导航（SRN）是一个相关问题，涉及以社会可接受的方式在行人丰富的环境中导航。它是让社交机器人在行人较多的环境中发挥作用的重要组成部分。此类机器人的用例可能会有所不同，从伴侣机器人到仓库机器人再到自动轮椅。近年来，深度强化学习越来越多地应用于社交机器人导航的研究中。我们的工作引入了 CAMRL（基于情境感知的曼巴强化学习）。 Mamba 是一种新的基于深度学习的状态空间模型（SSM），在测序任务中取得了与 Transformer 相当的结果。 CAMRL 使用 Mamba 来确定机器人的下一步动作，从而最大化神经网络预测的下一个状态的值，使机器人能够根据分配的奖励有效地导航。我们使用严格的测试数据集来评估 CAMRL 以及现有解决方案（CADRL、LSTM-RL、SARL），该数据集涉及基于 ORCA 和 SFM 的各种密度和环境行为，从而证明 CAMRL 实现了更高的成功率、最大限度地减少了碰撞并保持了与行人保持更安全的距离。这项工作引入了一种新的 SRN 规划器，展示了深度状态空间模型用于机器人导航的潜力。

通过迭代学习控制从简单的练习中掌握敏捷的跳跃技巧

分类： 机器人技术

作者： Chuong Nguyen, Lingfan Bao, Quan Nguyen

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02619v1

摘要： 由于飞行阶段较长以及接触动力学和硬件固有的不确定性，用腿式机器人实现精确的目标跳跃提出了重大挑战。在硬件上强行尝试这些敏捷动作可能会导致严重故障和潜在损坏。受这些具有挑战性的问题的启发，我们提出了一种迭代学习控制（ILC）方法，旨在学习和完善从简单到困难的跳跃技能，而不是直接学习这些具有挑战性的任务。我们验证了从简单中学习可以提高试验的安全性和目标跳跃准确性。与其他用于腿式运动的 ILC 方法相比，我们的方法可以解决无法获得控制输入的长飞行阶段的问题。此外，我们的方法允许机器人应用从简单的跳跃任务中学到的知识，直接在硬件中进行几次试验来完成更具挑战性的任务，而不是从头开始学习。我们通过在 A1 模型和硬件中针对各种跳跃任务进行大量实验来验证该方法。从一个小跳跃（例如向前跳跃 40 厘米）开始，我们的学习方法使机器人能够完成各种具有挑战性的目标，包括跳到 20 厘米高的盒子上，跳到更远的距离（高达 60 厘米），以及携带 2 公斤的未知有效负载进行跳跃。我们的框架可以让机器人在几次试验内达到所需的位置和方向目标，误差约为 1 厘米和 1 度。

人群系统动态控制结构的权衡

分类： 机器人技术

作者： Thomas G. Kelly, Mohammad D. Soorati, Klaus-Peter Zauner, Sarvapali D. Ramchurn, and Danesh Tarapore

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02605v1

摘要： 群体机器人学是对简单机器人的研究，这些机器人仅通过与其他机器人及其环境进行本地交互来表现出复杂的行为。群体机器人的控制主要是分布式的，而集中式控制广泛应用于机器人的其他领域。集中式和分散式控制策略都为多机器人系统的控制带来了一系列独特的优点和缺点。虽然去中心化系统更具可扩展性和弹性，但与集中式系统相比，它们的效率较低，并且会导致向人类操作员传输过多的数据，从而导致认知过载。我们研究了在人类群体系统中执行环境监测任务的每种方法的权衡，并提出了一种灵活的混合方法，该方法结合了分层和分散系统的元素。我们发现灵活的混合系统可以胜过集中式系统（在我们的环境监测任务中优于 19.2%），同时减少发送给操作员的消息数量（此处为 23.1%）。我们的结论是，为系统建立集中化并不总是最佳的性能，并且利用集中式和分散式系统的各个方面可以防止群阻碍其性能。

功能性肌肉网络在改善人机界面手势感知中的作用

分类： 机器人技术, 人工智能, 机器学习, 信号处理

作者： Costanza Armanini, Tuka Alhanai, Farah E. Shamout, S. Farokh Atashzar

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02547v1

摘要： 开发准确的手势感知模型对于各种机器人应用至关重要，它可以实现人与机器之间的有效通信，并直接影响神经机器人和交互式机器人。最近，人们对表面肌电图 (sEMG) 进行了探索，因为它与先进的机器学习方法和可穿戴系统相结合，具有丰富的信息背景和可访问性。文献提出了多种方法来提高性能，同时确保使用 sEMG 的神经机器人的鲁棒性，这通常会导致模型需要高处理能力、大数据集和可扩展性较差的解决方案。本文通过提出肌肉同步解码而不是个体肌肉激活来解决这一挑战。我们研究基于一致性的功能性肌肉网络作为我们感知模型的核心，提出肌肉之间的功能同步和基于图形的肌肉连接网络编码有关预期手势的上下文信息。这可以使用浅层机器学习方法进行解码，而不需要深层时间网络。我们的技术可以通过减少计算负担和提高效率来影响神经机器人的肌电控制。该方法以 Ninapro 数据库为基准，该数据库包含来自 40 名受试者执行 17 个手势的 12 个肌电图信号。它的准确率达到 85.1%，与现有方法相比，性能有所提高，同时需要的计算能力要少得多。结果支持这样的假设：基于一致性的功能性肌肉网络对与手势执行相关的关键信息进行编码，显着增强手势感知，并具有神经机器人系统和交互式机器的潜在应用。

事件知识图增强的粗粒度视觉语言导航任务规划

分类： 信息检索, 人机交互, 机器人技术

作者： Zhao Kaichen, Song Yaoxian, Zhao Haiquan, Liu Haoyu, Li Tiefeng, Li Zhixu

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02535v1

摘要： 视觉语言导航（VLN）是具身人工智能的重要研究之一。它的目的是使智能体能够了解周围环境并完成导航任务。 VLN指令可以分为粗粒度和细粒度命令。细粒度命令描述了整个任务以及逐步的子任务。相比之下，粗粒度命令给出了抽象的任务描述，更符合人类的习惯。大多数现有工作都集中在 VLN 任务中的前一种指令，而忽略了后者属于日常生活场景的抽象指令。为了克服抽象指令中的上述挑战，我们尝试通过事件知识增强来考虑 VLN 中的粗粒度指令。具体来说，我们首先提出了一个基于提示的框架，在多个主流基准数据集上整体提取 VLN 的事件知识图（名为 VLN-EventKG）。通过小型和大型语言模型协作，我们实现了粗粒度指令输入的 VLN 任务的知识增强导航规划（称为 EventNav）。此外，我们设计了一种新颖的动态历史回溯模块来实时纠正潜在的错误行动计划。各种公共基准测试的实验结果表明，我们的知识增强方法在使用我们提出的 VLN-EventKG 的粗粒度指令 VLN 方面具有优越性，成功率提高了超过 $5%$。我们的项目位于 https://sites.google.com/view/vln-eventkg

多指抓取的令人惊讶的有效表示

分类： 机器人技术

作者： Hengxu Yan, Hao-Shu Fang, Cewu Lu

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02455v1

摘要： 近年来，使用多指手抓取物体的问题受到了极大的关注。然而，在真实且杂乱的环境中处理大量不熟悉的物体仍然具有挑战性。在这项工作中，我们提出了一种可以有效映射到多指抓取空间的表示。基于这种表示，我们开发了一个简单的决策模型，仅使用数百到数千个训练样本即可为不同的多指抓取姿势生成准确的抓取质量分数。我们证明了我们的表示在真实机器人上表现良好，在仅 500 次真实世界抓取尝试训练后，成功率达到 78.64%，在 4500 次抓取尝试训练后，成功率达到 87%。此外，我们在使用多指手的动态人机切换场景中实现了 84.51% 的成功率。

TGS：在无地图户外环境中使用视觉语言模型进行轨迹生成和选择

分类： 机器人技术

作者： Daeun Song, Jing Liang, Xuesu Xiao, Dinesh Manocha

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02454v1

摘要： 我们提出了一种多模态轨迹生成和选择算法，用于在具有建筑物、草地和路缘等非结构化越野特征的挑战性场景中进行现实世界无地图户外导航。我们的目标是计算合适的轨迹，（1）满足特定环境的可通行性约束，（2）在人行横道、人行道等处导航时匹配类人路径。我们的公式使用条件变分自动编码器（CVAE）生成模型，该模型通过以下方式增强：可遍历性约束来生成用于全局导航的多个候选轨迹。我们使用 VLM 和视觉提示方法，利用其语义理解和逻辑推理的零样本能力，在给定任务上下文信息的情况下选择最佳轨迹。我们使用轮式机器人在各种户外场景中评估我们的方法，并将其性能与其他全局导航算法进行比较。在实践中，我们观察到在具有挑战性的户外导航场景（例如人行道、人行横道等）中，生成的轨迹的可通行性至少提高了 3.35%，类人导航提高了 20.61%。

RIs-Calib：基于连续时间估计的多 3D 雷达和 IMU 开源时空校准器

分类： 机器人技术

作者： Shuolong Chen, Xingxing Li, Shengyu Li, Yuxuan Zhou, Shiwen Wang

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02444v1

摘要： 辅助惯性导航系统（INS）通常由惯性测量单元（IMU）和外感受传感器组成，已被广泛认为是可行的导航解决方案。与视觉辅助惯导系统和激光雷达辅助惯导系统相比，雷达辅助惯导系统可以在恶劣天气条件下获得更好的性能，因为雷达利用低频测量信号，在大气气体和雨水中衰减影响较小。对于这种雷达辅助惯导系统来说，精确的时空变换是实现最优信息融合的基本前提。在这项工作中，我们提出了 RIs-Calib：一种基于连续时间估计的用于多个 3D 雷达和 IMU 的时空校准器，它可以实现精确的时空校准，并且不需要任何额外的人工基础设施或先验知识。我们的方法从严格而稳健的状态初始化过程开始，然后进行批量优化，其中所有参数都可以稳定地细化到全局最佳状态。我们在模拟和真实实验中验证和评估 RIs-Calib，结果表明 RIs-Calib 能够进行准确且一致的校准。我们在 (https://github.com/Unsigned-Long/RIs-Calib) 开源我们的实现，以使研究社区受益。

CMR-Agent：学习用于迭代图像到点云配准的跨模态代理

分类： 计算机视觉和模式识别, 机器人技术

作者： Gongxin Yao, Yixin Xuan, Xinyang Li, Yu Pan

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02394v1

摘要： 图像到点云配准旨在确定 RGB 图像相对于点云的相对相机位姿。它在预先构建的 LiDAR 地图中的相机定位中发挥着重要作用。尽管存在模态差距，但大多数基于学习的方法在特征空间中建立 2D-3D 点对应关系，没有任何用于迭代优化的反馈机制，导致准确性和可解释性较差。在本文中，我们建议将配准过程重新表述为迭代马尔可夫决策过程，允许根据每个中间状态对相机姿势进行增量调整。为了实现这一目标，我们采用强化学习来开发跨模式注册代理（CMR-Agent），并使用模仿学习来初始化其注册策略，以实现训练的稳定性和快速启动。根据跨模态观察，我们提出了一种 2D-3D 混合状态表示，充分利用 RGB 图像的细粒度特征，同时减少因相机视锥体空间截断而导致的无用中性状态。此外，整体框架经过精心设计，可以有效地重用一次性跨模态嵌入，避免重复且耗时的特征提取。对 KITTI-Odometry 和 NuScenes 数据集的大量实验表明，CMR-Agent 在配准方面实现了有竞争力的准确性和效率。一旦一次性嵌入完成，每次迭代只需要几毫秒。

自定心 3 自由度脚控制器，用于远程呈现和虚拟现实中的免提运动控制

分类： 机器人技术, 人机交互

作者： Raphael Memmesheimer, Christian Lenz, Max Schwarz, Michael Schreiber, Sven Behnke

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02319v1

摘要： 我们提出了一种新颖的坐式脚踏控制器，用于处理 3-DOF，旨在控制远程呈现机器人和虚拟现实环境的运动。在两个轴上倾斜脚会产生向前、向后和侧向运动。此外，单独的旋转接头允许绕垂直轴旋转。所有关节上的附加弹簧使控制器自动居中。 HTC Vive 跟踪器用于将跟踪器的方向转换为运动命令。所提出的自定心脚踏控制器已成功用于 ANA Avatar XPRIZE 竞赛，其中一位天真的操作员使机器人穿越了更长的距离，超越了障碍，同时解决了其间的各种交互和操作任务。我们公开提供大多数 3D 打印的脚控制器的模型以供复制。

感知很重要：通过不确定性感知语义分割增强嵌入式人工智能

分类： 机器人技术, 计算机视觉和模式识别

作者： Sai Prasanna, Daniel Honerkamp, Kshitij Sirohi, Tim Welschehold, Wolfram Burgard, Abhinav Valada

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02297v1

摘要： 嵌入式人工智能在未探索的环境中取得了重大进展。然而，诸如对象搜索之类的任务主要集中在有效的策略学习上。在这项工作中，我们发现了当前搜索方法中的几个差距：它们主要关注过时的感知模型，忽略时间聚合，以及在测试时从真实情况直接转移到噪声感知，而没有考虑由此产生的对感知状态的过度自信。我们通过校准感知概率和聚合的不确定性来解决已识别的问题，并找到决策，从而使模型适应顺序任务。由此产生的方法可以直接与现有搜索方法中的预训练模型集成，无需额外的培训成本。我们对不同语义感知模型和策略的聚合方法进行了广泛的评估，确认了聚合和发现的决策中校准不确定性的重要性。我们在 http://semantic-search.cs.uni-freiburg.de 提供代码和训练模型。

OPENGRASP-LITE 1.0 版：具有顺应联动机构的触觉人造手

分类： 机器人技术, 系统与控制, 系统与控制

作者： Sonja Groß, Michael Ratzel, Edgar Welte, Diego Hidalgo-Carvajal, Lingyun Chen, Edmundo Pozo Fortunić, Amartya Ganguly, Abdalla Swikir, Sami Haddadin

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02293v1

摘要： 最近的研究在基于联动的人工手的开发方面取得了显着进展。虽然之前的设计重点关注自适应抓取、灵活性和仿生人造皮肤，但只有少数系统提出了一种将触觉传感与基于顺应性联动的机制相结合的轻量级、易于访问的解决方案。本文介绍了OPENGRASP LITE，一款开源、高度集成、有触觉的轻量级人工手。它利用兼容的联动系统和基于 MEMS 气压计的触觉传感，提供具有六度驱动的多功能抓取功能。通过提供触觉传感器并实现软抓握，它可以作为进一步研究触觉假手的可访问平台。

使用 Stonefish 模拟器将数字孪生概念集成到可持续海上运输的零排放海上运输 (ZEST) 项目中

分类： 机器人技术

作者： Michele Grimaldi, Carlo Cernicchiaro, George Rossides, Angelos Ktoris, Elias Yfantis, Ioannis Kyriakides

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02277v1

摘要： 为响应国际海事组织（IMO）规定的严格减排目标和欧洲绿色新政Fit for 55立法方案，航运业已将重点转向脱碳。虽然超过 5,000 总吨 (GT) 的船舶受到了极大关注，但沿海和近海航运的排放量（约占全球航运运输的 13% 和欧盟 (EU) 的 15%）尚未得到充分考虑。本摘要介绍了零排放海上运输船 (ZEST) 项目，旨在通过开发用于短途海上航线的零排放多用途双体船来解决这一问题

在多指夹具上大规模部署基于视觉的触觉传感器

分类： 机器人技术

作者： Meng Wang, Wanlin Li, Hao Liang, Boren Li, Kaspar Althoefer, Yao Su, Hangxin Liu

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02206v1

摘要： 基于视觉的触觉传感器（VBTS）显示出巨大的前景，因为它们可以利用图像测量来提供高空间分辨率的类人性能。然而，当前的 VBTS 设计通常仅限于机器人抓手的指尖，事实证明有些不足，因为许多抓取和操作任务需要与物体的多个接触点。我们的最终目标是通过 VBTS 实现大规模、多表面触觉传感，我们的研究 (i) 开发了一种具有最小延迟的同步图像采集系统，(ii) 提出了一种模块化 VBTS 设计，可轻松集成到手指指骨中，并且（ iii) 设计了一种零样本校准方法，以提高多个 VBTS 同时校准中的数据效率。在配备 7 个 VBTS 的微型 3 指机器人抓手中验证系统时，我们通过覆盖抓手手指和手掌的接触面来展示改进的触觉感知性能。此外，我们还表明，我们的 VBTS 设计可以无缝集成到各种末端执行器形态中，从而显着减少校准的数据要求。

RoPotter：面向机器人陶器和具有结构先验的可变形物体操纵

分类： 机器人技术

作者： Uksang Yoo, Adam Hung, Jonathan Francis, Jean Oh, Jeffrey Ichnowski

发布时间： 2024-08-05

链接： http://arxiv.org/abs/2408.02184v1

摘要： 人类能够连续地将各种可变形物体操纵成复杂的形状。这是通过我们对物体的材料特性和力学的直观理解来实现的，即使在视觉感知被遮挡的情况下也可以推理物体的状态。这些功能使我们能够执行各种任务，从用面团烹饪到用陶器制作来表达自己。然而，开发机器人系统来稳健地执行类似任务仍然具有挑战性，因为当前的方法很难有效地模拟体积可变形物体并推理它们通常表现出的复杂行为。为了研究能够使体积物体变形的机器人系统和算法，我们引入了一种新颖的机器人任务，即在陶轮上连续变形粘土。我们提出了一种感知和陶艺技能学习的管道，称为 RoPotter，其中我们证明可以利用特定于陶艺制作任务的结构先验来简化陶艺技能学习过程。也就是说，我们可以将粘土的横截面投影到平面上来表示粘土的状态，从而降低维度。我们还展示了一种基于网格的封闭粘土状态恢复方法，以实现能够连续使粘土变形的机器人代理。我们的实验表明，通过使用基于粘土变形行为的结构先验简化表示，RoPotter 可以执行长视野陶器任务，与最先进的基线相比，最终形状误差降低 44.4%。

新型自主微塑料半潜式采集器的改进与实证测试

分类： 机器人技术, I.2.9

作者： Ziddane Isahaku

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02162v1

摘要： 自发明以来，塑料已在世界各地的现代社会中无处不在，近年来，塑料对环境的影响也几乎众所周知。人类生产的塑料几乎已到达世界的每个角落，在其长达几个世纪的生命周期中，塑料由于受到的物理压力而不断分解成越来越小的颗粒。这些压力最终不可避免地将这些塑料分解成微塑料——小到足以被全球水体中的生物体消耗的塑料碎片。这些微塑料很容易进行生物累积，从五大湖到人类的血液中随处可见。人们对这些塑料的影响知之甚少，但它们与水生生物不育、生长停止和许多其他疾病有关。目前，这些塑料的清除一直被忽视，政府没有采取任何行动将它们从海洋环境中清除，该项目旨在开始为这一问题制定解决方案的原型。在水道表面发现了很大比例的微塑料，因此提出使用自动推进网在地表水中拖网作为解决这一看似棘手问题的方法。通过在蝠鲼拖网（目前用于收集微生物的装置）上安装电机和引导系统，可以实现开放水域中微塑料收集过程的自动化，从而可以开始大规模清除环境中的塑料的工作。

系留有袋机器人系统的有效路径规划策略

分类： 机器人技术

作者： Jesús Capitán, José M. Díaz-Báñez, Miguel A. Pérez-Cutiño, Fabio Rodríguez, Inmaculada Ventura

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02141v1

摘要： 有袋动物机器人系统由三个组件组成：无人驾驶地面车辆（UGV）、无人机（UAV）以及连接两个机器人的系绳。有袋动物系统在工业中非常有益，因为它们可以延长无人机在飞行过程中的电池寿命。本文介绍了一种针对有袋动物系统中特定路径规划问题的新颖策略，其中每个组件都必须避免与建模为 3D 长方体的地面和空中障碍物发生碰撞。考虑到无人机位于 UGV 顶部的初始配置，目标是利用无人机到达空中目标。我们假设UGV首先移动到无人机可以起飞的位置，并通过垂直平面飞行到达空中目标。我们提出了一种将空间离散化以近似最佳解决方案的方法，从而最小化地面和空中路径的长度之和。首先，我们假设系绳拉紧，并使用一种新颖的算法，该算法利用系绳的凸度和障碍物的几何形状来有效地确定无人机可行起飞点的轨迹。然后，我们将此结果应用于涉及松动系绳的场景。模拟测试结果表明，我们的方法可以在几秒钟内解决复杂的情况，优于基于 RRT*（快速探索随机树）的基线规划算法。

ParkingE2E：基于摄像头的端到端停车网络，从图像到规划

分类： 计算机视觉和模式识别, 人工智能, 机器人技术

作者： Changze Li, Ziheng Ji, Zhe Chen, Tong Qin, Ming Yang

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.02061v1

摘要： 自动泊车是智能驾驶领域的一项关键任务。传统的停车算法通常使用基于规则的方案来实现。然而，由于算法设计复杂，这些方法在复杂的停车场景中效果较差。相比之下，基于神经网络的方法往往比基于规则的方法更直观、更通用。通过收集大量的专家停车轨迹数据并通过基于学习的方法模拟人类策略，可以有效地解决停车任务。在本文中，我们采用模仿学习，通过模仿人类驾驶轨迹来执行从 RGB 图像到路径规划的端到端规划。所提出的端到端方法利用目标查询编码器来融合图像和目标特征，并利用基于变换器的解码器来自回归预测未来的路点。我们在现实场景中进行了广泛的实验，结果表明，所提出的方法在四个不同的现实世界车库中实现了 87.8% 的平均停车成功率。实车实验进一步验证了本文提出的方法的可行性和有效性。

EqvAfford：点级可供性学习的 SE(3) 等方差

分类： 机器人技术, 计算机视觉和模式识别, 机器学习

作者： Yue Chen, Chenrui Tie, Ruihai Wu, Hao Dong

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01953v1

摘要： 人类以等变意识来感知世界并与世界互动，这有助于我们以不同的姿势操纵不同的物体。对于机器人操作来说，这种等方差也存在于许多场景中。例如，无论抽屉的姿势如何（平移、旋转和倾斜），操作策略都是一致的（抓住手柄并拉成一条线）。虽然传统模型通常没有机器人操作的等变性意识，这可能会导致训练数据较多，并且在新颖的物体姿势中表现不佳，但我们提出了 EqvAfford 框架，采用新颖的设计来保证点级可供性学习的等变性用于下游机器人操作，在不同姿势的物体的代表性任务上具有出色的性能和泛化能力。

透视n点问题的广义最大似然估计

分类： 计算机视觉和模式识别, 机器人技术

作者： Tian Zhan, Chunfeng Xu, Cheng Zhang, Ke Zhu

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01945v1

摘要： 透视 n 点（PnP）问题已在文献中得到广泛研究，并应用于各种基于视觉的姿态估计场景。然而，现有方法忽略了观测的各向异性不确定性，正如本文的几个现实世界数据集所证明的那样。这种疏忽可能会导致估计不理想且不准确，特别是在存在噪声观测的情况下。为此，我们提出了一种广义最大似然 PnP 求解器，名为 GMLPnP，它通过迭代 GLS 过程来同时估计位姿和不确定性，从而最小化行列式标准。此外，所提出的方法与相机模型分离。综合实验和真实实验的结果表明，我们的方法在常见的姿态估计场景中实现了更好的精度，与最佳方法相比，GMLPnP 在 TUM-RGBD 上将旋转/平移精度提高了 4.7%/2.0%，在 KITTI-360 数据集上提高了 18.6%/18.4%基线。在基于视觉的无人机定位任务中，它在非常嘈杂的观察下更加准确，翻译估计精度比最佳基线高出 34.4%。

水母机器人：利用自然体现智能作为软机器人

分类： 机器人技术

作者： Dai Owaki, Max Austin, Shuhei Ikeda, Kazuya Okuizumi, Kohei Nakajima

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01941v1

摘要： 在仿生机器人这一先进领域，赛博格的出现代表了工程与生物系统的成功融合。先前的研究表明电刺激如何启动并加速水母的运动，本研究提出了一种突破性的方法，探索如何利用动物的自然体现智能来解决关键挑战，例如自发探索、在各种环境中导航、全身运动的控制以及行为的实时预测。我们开发了一个全面的数据采集系统和一个独特的刺激水母的装置，可以详细研究它们的运动。通过仔细分析自发行为和目标刺激诱导的行为，我们发现了自然运动模式和诱导运动模式之间的细微差别。通过使用称为物理水库计算的机器学习方法，我们成功地证明，当刺激与动物的自然动力学一致时，可以通过直接测量水母的体形来准确预测未来的行为。我们的研究结果还揭示了水母机器人在运动控制和实时预测能力方面的重大进步。总之，这项研究为优化水母机器人的能力提供了一个全面的路线图，对海洋侦察和可持续生态干预具有潜在影响。

通过价值函数空间优化的可扩展信号时态逻辑引导强化学习

分类： 机器人技术

作者： Yiting He, Peiran Liu, Yiding Ji

发布时间： 2024-08-04

链接： http://arxiv.org/abs/2408.01923v1

摘要： 强化学习（RL）和形式化方法的集成已成为解决长期规划问题的一个有前途的框架。传统方法通常涉及状态和动作空间的抽象以及手动创建的标记函数或谓词。然而，随着任务变得越来越复杂，这些方法的效率会下降，从而导致标记函数或谓词的大小呈指数增长。为了解决这些问题，我们提出了一个可扩展的基于模型的 RL 框架，称为 VFSTL，它可以安排预先训练的技能来遵循看不见的 STL 规范，而无需使用手工制作的谓词。给定通过目标条件强化学习获得的一组值函数，我们制定一个优化问题，以最大化信号时态逻辑 (STL) 定义的规范的鲁棒性值，该规范是使用值函数作为谓词来计算的。为了进一步减轻计算负担，我们将环境状态空间抽象为值函数空间（VFS）。然后通过基于模型的强化学习来解决优化问题。仿真结果表明，以值函数为谓词的 STL 近似于真实的鲁棒性，并且 VFS 中的规划使用来自传感器的数据直接实现了看不见的规范。

实体代理之间的生成通信是否有利于零样本 ObjectNav？

分类： 机器人技术, 计算机视觉和模式识别

作者： Vishnu Sashank Dorbala, Vishnu Dutt Sharma, Pratap Tokekar, Dinesh Manocha

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01877v1

摘要： 在零射击对象导航中，实体地面代理预计能够导航到由自然语言标签指定的目标对象，而无需任何特定于环境的微调。鉴于地面特工的视野及其独立的探索行为有限，这是具有挑战性的。为了解决这些问题，我们考虑与地面代理一起使用具有有限全局视图的辅助开销代理，并提出两种用于明智探索的协调导航方案。我们建立了配备视觉语言模型 (VLM) 的实体代理之间的生成通信 (GC) 对改进零样本对象导航的影响，与地面代理相比，地面代理发现目标对象的能力提高了 10%模拟中的无辅助设置。我们进一步分析 GC 的独特特征，量化幻觉和合作的存在。特别是，我们确定了特定于我们的具体设置的“先发性幻觉”的独特特征，其中空中代理假设地面代理在尚未移动时已在对话中执行了操作。最后，我们使用 GC 进行现实世界的推理，并展示定性示例，其中通过即时微调来对抗先发制人的幻觉，从而提高现实世界的 ObjectNav 性能。

TrustNavGPT：对不确定性进行建模以提高基于音频引导的 LLM 机器人导航的可信度

分类： 机器人技术

作者： Xingpeng Sun, Yiran Zhang, Xindi Tang, Amrit Singh Bedi, Aniket Bera

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01867v1

摘要： 虽然大语言模型精通处理人类对话中的文本，但他们经常在口头指令的细微差别方面遇到困难，因此仍然容易产生对人类命令的信任幻觉。在这项工作中，我们提出了 TrustNavGPT，这是一种基于大语言模型的音频引导导航代理，它使用口语通信元素中的情感线索（例如语气和语调变化）来传达超越语言的含义，使其能够评估人类命令的可信度并做出有效、安全的决策。我们的方法提供了一种轻量级但有效的方法，可以扩展现有的大语言模型，以对嵌入语音命令中的音频声音特征进行建模，并对安全机器人导航的不确定性进行建模。

BEVPlace++：快速、稳健、轻量级的无人地面车辆 LiDAR 全球定位

分类： 机器人技术

作者： Lun Luo, Siyuan Cao, Xiaorui Li, Jintao Xu, Rui Ai, Zhu Yu, Xieyuanli Chen

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01841v1

摘要： 本文介绍了 BEVPlace++，一种新颖、快速、鲁棒的无人地面车辆 LiDAR 全球定位方法。它在 LiDAR 数据的鸟瞰图 (BEV) 图像式表示上使用轻量级卷积神经网络 (CNN)，通过位置识别和 3-DoF 姿态估计来实现准确的全局定位。我们的详细分析揭示了一个有趣的事实，即 CNN 在从 LiDAR BEV 图像中提取独特特征方面本质上是有效的。值得注意的是，使用 CNN 提取的特征可以有效匹配两个具有较大平移的 BEV 图像的关键点。基于这一见解，我们设计了一个旋转等变模块（REM），以获得独特的特征，同时增强对旋转变化的鲁棒性。然后通过级联 REM 和描述符生成器 NetVLAD 开发旋转等变和不变网络 (REIN)，以顺序生成旋转等变局部特征和旋转不变全局描述符。首先使用全局描述符来实现鲁棒的位置识别，然后使用局部特征来进行准确的姿态估计。多个公共数据集上的实验结果表明，BEVPlace++ 即使在仅带有地点标签的小型数据集（KITTI 的 3000 帧）上进行训练，也能很好地泛化到未见过的环境，在不同的日子和年份中表现一致，并适应各种类型的 LiDAR 扫描仪。 BEVPlace++ 在全局定位子任务（包括地点识别、闭环检测和全局定位）中实现了最先进的性能。此外，BEVPlace++ 是轻量级的，实时运行，不需要精确的姿态监督，使其部署非常方便。源代码可在 \href{https://github.com/zjuluolun/BEVPlace}{https://github.com/zjuluolun/BEVPlace} 公开获取。

存在偏差的建筑规划中的实时定位和测绘

分类： 机器人技术

作者： Muhammad Shaheer, Jose Andres Millan-Romera, Hriday Bavle, Marco Giberna, Jose Luis Sanchez-Lopez, Javier Civera, Holger Voos

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01737v1

摘要： 预先了解环境可以提高机器人的定位和绘图准确性。文献中的几种方法已经利用了这方面的架构计划。然而，几乎所有这些都忽略了实际竣工环境与规划建筑设计之间的偏差，从而在估计中引入了偏差。为了解决这个问题，我们提出了一种新颖的定位和映射方法，称为偏差通知情境图或 diS 图，即使存在偏差，它也可以集成建筑规划中的先验知识。它基于情境图（S-Graph），将环境的几何模型与 3D 场景图合并成多层联合优化因子图。我们的 diS-Graph 通过首先将建筑平面图建模为分层因子图（我们将其称为建筑图（A-Graph））来从建筑平面图中提取信息。当机器人探索真实环境时，它会根据机载传感器估计 S-Graph。然后，我们使用一种新颖的匹配算法将 A 图和 S 图注册到同一参考中，并将它们与显式偏差模型合并。最后，交替图优化策略允许同时进行全局定位和映射，以及 A 图和 S 图之间的偏差估计。我们在存在偏差的情况下在模拟和真实数据集中进行了多次实验。平均而言，我们的 diS-Graph 在模拟环境中优于基线约 43%，在真实环境中优于基线 7%，同时能够估计高达 35 厘米和 15 度的偏差。

机器人假肢调查：神经假肢、软执行器和控制策略

分类： 机器人技术, 系统与控制, 系统与控制

作者： Kumar J. Jyothish, Subhankar Mishra

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01729v1

摘要： 机器人领域是一项快速发展的技术壮举，它接受了各种科学流派的贡献。神经科学、生理学、化学、材料科学、计算机科学和机电一体化的广泛领域同时为机器人假肢应用的许多创新做出了贡献。这篇综述首先讨论了机器人假肢这一术语的范围，并讨论了神经假肢的不断发展的领域。然后讨论集中于机器人假肢的各种驱动和控制策略。本综述讨论了各种软机器人执行器，例如 EAP、SMA、FFA 等，以及此类执行器相对于传统硬机器人执行器的优点。对处于不同研究和开发状态的机器人假肢控制策略的选择进行了审查。本文总结了讨论，并分析了机器人假肢领域在驱动、控制和与假肢相关的其他功能方面的未来发展方向。本文旨在回顾机器人假肢领域的一些新兴研究和发展趋势，并以平易近人的方式总结这一广泛领域中所代表的许多切线。

适用于农业机器人的视觉惯性 SLAM：对闭环的优势和计算成本进行基准测试

分类： 机器人技术, 计算机视觉和模式识别

作者： Fabian Schmidt, Constantin Blessing, Markus Enzweiler, Abhinav Valada

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01716v1

摘要： 同步定位和建图 (SLAM) 对于移动机器人至关重要，它可以在动态、非结构化的室外环境中实现自主导航，而无需依赖外部定位系统。在农业应用中，由于光照或天气条件的变化，环境条件可能特别具有挑战性，视觉惯性 SLAM 已成为一种潜在的解决方案。本文对多种开源视觉惯性 SLAM 系统（包括 ORB-SLAM3、VINS-Fusion、OpenVINS、Kimera 和 SVO Pro）进行了基准测试，以评估它们在农业环境中的性能。我们关注闭环对定位精度和计算需求的影响，对这些系统在现实环境中的有效性，特别是它们在农业机器人嵌入式系统中的应用进行全面分析。我们的贡献还包括评估不同帧速率对定位精度和计算负载的影响。研究结果强调了闭环在提高定位精度、同时有效管理计算资源方面的重要性，为优化移动机器人实际户外应用的视觉惯性 SLAM 系统提供了宝贵的见解。

转子故障下精确着陆的多旋翼无人机原型设计

分类： 机器人技术

作者： Alvaro J. Gaona, Claudio D. Pose, Juan I. Giribet, Roberto Bunge

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01676v1

摘要： 这项工作展示了一种即使在转子故障的影响下也能够精确着陆的多旋翼飞行器原型。该手稿介绍了实现容错多旋翼飞行器的容错技术和机械设计，以及实现精确着陆所需的基于视觉的导航系统。将展示初步实验结果，一方面验证容错控制车辆，另一方面验证自主着陆算法。此外，还展示了一种能够精确自主着陆的容错无人机原型机，该原型机将在未来的实验中使用。

激发想象力：迈向通用对象重新排列

分类： 机器人技术, 人工智能

作者： Jianyang Wu, Jie Gu, Xiaokang Ma, Chu Tang, Jingmin Chen

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01655v1

摘要： 通用对象放置是智能多面手机器人的一项基本能力，即即使在新环境中也能够按照人类指令重新排列对象。为了实现这一目标，我们将重新安排分为三个部分，包括对象定位、目标想象和机器人控制，并提出了一个名为 SPORT 的框架。 SPORT 利用预先训练的大型视觉模型对对象进行广泛的语义推理，并学习基于扩散的 3D 姿态估计器以确保物理真实的结果。只有对象类型（要移动或引用）在这两个部分之间进行通信，这带来了两个好处。一是我们可以充分利用开放集对象定位和识别的强大能力，因为机器人场景不需要特定的微调。此外，基于扩散的估计器只需要“想象”移动和参考对象在放置后的姿势，而不需要它们的语义信息。这样训练负担就大大减轻了，不需要进行大量的训练。目标姿态估计的训练数据是在模拟中收集的，并用 GPT-4 进行注释。一组模拟和现实世界的实验证明了我们的方法实现通用对象重新排列的潜力，即按照精确的指令放置各种对象。

LF-3PM：基于 LiDAR 的框架，用于具有扰动引起的度量的感知感知规划

分类： 机器人技术

作者： Kaixin Chai, Long Xu, Qianhao Wang, Chao Xu, Peng Yin, Fei Gao

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01649v1

摘要： 正如人类在毫无特色的沙漠或浓雾中可能会迷失方向一样，并非所有环境都有利于自主机器人的定位精度和稳定性（LAS）。本文介绍了一种有效的框架，旨在通过战略轨迹生成（称为感知感知规划）来增强基于 LiDAR 的 LAS。与基于视觉的框架不同，由于独特的传感器属性，基于激光雷达的框架需要不同的考虑因素。我们的方法侧重于两个主要方面：首先，评估 LiDAR 观测对 LAS 的影响。我们引入了扰动引起的度量来提供对 LiDAR 观测结果的全面可靠的评估。其次，我们的目标是提高运动规划效率。通过创建静态观测损失图（SOLM）作为中介，我们在逻辑上将时间密集型评估和运动规划阶段分开，从而显着加快了规划过程。在实验部分，我们展示了所提出的指标在不同场景中的有效性以及不同指标引导的轨迹特征。最终，我们的框架在现实场景中进行了测试，使机器人能够主动选择最适合本地化的拓扑和方向。源代码可在 https://github.com/ZJU-FAST-Lab/LF-3PM 访问。

利用 GNSS 和消费车辆的车载视觉数据进行稳健的路网估计

分类： 计算机视觉和模式识别, 机器人技术, I.2.9; I.2.10; I.5.4

作者： Balázs Opra, Betty Le Dem, Jeffrey M. Walls, Dimitar Lukarski, Cyrill Stachniss

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01640v1

摘要： 地图对于车辆导航和自主机器人等多种应用至关重要。两者都需要空间模型来进行有效的路线规划和定位。本文解决了自动驾驶汽车道路图构建的挑战。尽管最近取得了进展，但创建路线图仍然是劳动密集型的，并且尚未实现完全自动化。本文的目标是自动准确地生成此类图表。现代汽车配备了用于当今先进驾驶员辅助系统（例如车道保持）的车载传感器。我们建议使用全球导航卫星系统（GNSS）轨迹和从消费车辆中的这些标准传感器获取的基本图像数据，以最小的努力来估计道路地图。我们通过使用卷积神经网络将问题框架为道路中心线语义分割任务来利用数据中的空间信息。我们还利用数据的时间序列性质，通过使用地图匹配来细化神经网络的输出。我们使用一组真实的消费车辆来实施和评估我们的方法，仅使用部署的车载传感器。我们的评估表明，我们的方法不仅在更简单的道路配置上与现有方法相匹配，而且在更复杂的道路几何形状和拓扑上也显着优于现有方法。该作品荣获2023年度丰田编织发明奖。

用于从专家演示中推断非线性连续约束函数的正无标记约束学习 (PUCL)

分类： 机器人技术, 人工智能, 机器学习

作者： Baiyu Peng, Aude Billard

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01622v1

摘要： 规划各种现实世界的机器人任务需要了解并写出所有约束。然而，存在这些约束未知或难以准确指定的情况。一种可能的解决方案是从专家演示中推断出未知的约束。本文提出了一种新颖的正无标签约束学习（PUCL）算法，可以从演示中推断出连续的任意约束函数，而不需要像现有工作那样先了解真实的约束参数化或环境模型。在我们的框架内，我们将演示中的所有数据视为正（可行）数据，并学习控制策略来生成潜在不可行的轨迹，这些轨迹作为未标记数据。在每次迭代中，我们首先更新策略，然后应用两步正向无标记学习过程，其中首先使用距离度量识别可靠的不可行数据，然后从可行的论证和可靠的不可行的数据。所提出的框架可以灵活地学习复杂形状的约束边界，并且不会像以前的方法那样错误地将演示分类为不可行。使用网络策略或动态系统策略在三个机器人任务中验证了所提出方法的有效性。它成功地推断和传递了连续的非线性约束，并且在约束准确性和策略安全性方面优于其他基线方法。

基于双立体视觉的毫米级软连续体机器人三维形态重建

分类： 机器人技术

作者： Tian-Ao Ren, Wenyan Liu, Tao Zhang, Lei Zhao, Hongliang Ren, Jiewen Lai

发布时间： 2024-08-03

链接： http://arxiv.org/abs/2408.01615v2

摘要： 连续体机器人可以小型化，直径仅为几毫米。其中，缺口管状连续体机器人（NTCR）在许多精密应用中显示出巨大的潜力。现有的机器人建模工作主要集中在运动学和动力学上，但在再现机器人形态方面仍然面临挑战——这是一个可以扩大连续体机器人研究领域的重要因素，特别是对于那些具有不对称连续体结构的机器人。本文提出了一种基于双立体视觉的毫米级 NTCR 三维形态重建方法。该方法采用两个相对位置的固定双目相机来捕获 NTCR 的点云，然后利用预定义的几何形状作为 KD 树方法的参考来重新定位捕获的点云，尽管原始点质量较低，但仍能获得形态正确的 NTCR云集合。该方法已被证明对于直径为 3.5 毫米的 NTCR 是可行的，捕获了 16 个凹口特征中的 14 个，测量结果通常以 1.5 毫米为中心，展示了揭示形态细节的能力。我们提出的方法为毫米级软机器人的 3D 形态重建以及进一步的自建模研究铺平了道路。

电缆驱动手术机器人的高效数据驱动关节级校准

分类： 机器人技术, 系统与控制, 系统与控制

作者： Haonan Peng, Andrew Lewis, Yun-Hsuan Su, Shan Lin, Dun-Tin Chiang, Wenfan Jiang, Helen Lai, Blake Hannaford

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01604v1

摘要： 了解准确的关节位置对于腹腔镜手术机器人的安全和精确控制至关重要，特别是对于手术子任务的自动化。这些机器人通常设计有电缆驱动臂和工具，因为电缆允许将更大的电机放置在机器人的底部，远离空间宝贵的操作区域。然而，通过使用电缆将关节连接到其电机，电缆中的任何拉伸都可能导致电机编码器的运动学估计错误，这可能导致手术工具的精确控制困难。在这项工作中，我们提出了一种有效的数据驱动校准此类机器人的定位关节，在本例中是 RAVEN-II 手术机器人研究平台。虽然校准只需要 8-21 分钟，但在 6 小时的重载操作中，校准接头的精度仍然很高，这表明在实际实践中具有良好的可行性。校准模型以原始机器人状态作为输入，并使用所需稀疏度内的锯齿形轨迹进行训练，训练后不需要额外的传感器。与固定偏移补偿相比，深度神经网络校准模型可以进一步减少76%的误差，在关节1、2和3中分别实现0.104 deg、0.120 deg和0.118 mm的精度。与端到端模型相比，实验表明，DNN 模型在输出误差以纠正原始不准确的关节位置时实现了更好的精度和更快的收敛速度。此外，在 1000 Hz 伺服控制环路中应用时，线性回归模型的推理速度比 DNN 模型快 160 倍，但精度略有下降。

部分可观测环境中的土壤样本搜索

分类： 机器人技术

作者： Han Yang, Andrew Dudash

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01589v1

摘要： 为了在未知的户外环境中工作，自主采样机需要能够在可见度和机械臂到达距离有限的情况下瞄准样本。我们设计了一种启发式引导搜索方法来加速搜索过程并更有效地定位土壤区域的近似中心。通过模拟实验，我们评估了所提出算法的有效性，并发现与原始基线相比，在速度、行驶距离和成功率方面具有优越的性能。

台式湿实验室设备的自主集成

分类： 机器人技术

作者： Zachary Logan, Kam Undieh, Mohammad Goli

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01576v1

摘要： 实验室自动化是一项昂贵且复杂的工作，对于小型实验室来说，选择有限且不灵活。我们开发了一个原型系统，用于维护台式离心机，使用计算机视觉方法进行颜色检测，并使用圆形霍夫变换来检测和定位离心机桶。初步结果表明，该原型能够自动使用常规台式实验室设备。

TURTLMap：利用低成本无人水下航行器对低纹理水下环境进行实时定位和密集测绘

分类： 机器人技术

作者： Jingyu Song, Onur Bagoren, Razan Andigani, Advaith Venkatramanan Sethuraman, Katherine Skinner

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01569v1

摘要： 在推进水下环境中的定位和测绘方面已经做了大量工作。尽管如此，最先进的方法仍受到低纹理环境的挑战，这在水下环境中很常见。这使得现有方法很难在多样化的现实场景中使用。在本文中，我们提出了 TURTLMap，这是一种通过实时定位和绘图方法专注于无纹理水下环境的新颖解决方案。我们证明这种方法成本低廉，能够准确跟踪机器人，同时实时构建低纹理环境的密集地图。我们使用在室内水箱中收集的真实数据以及运动捕捉系统和地面实况参考图来评估所提出的方法。定性和定量结果验证了所提出的系统即使在波浪条件下也能实现准确稳健的定位和精确的密集测绘。 TURTLMap 的项目页面是 https://umfieldrobotics.github.io/TURTLMap。

使用局部表面触觉成像进行基于机器人机器学习的胃癌息肉诊断

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 机器学习

作者： Siddhartha Kapuria, Jeff Bonyun, Yash Kulkarni, Naruhiko Ikoma, Sandeep Chinchali, Farshid Alambeigi

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01554v1

摘要： 在本文中，为了共同解决晚期胃癌（AGC）肿瘤内镜诊断的现有局限性，我们首次提出（i）利用和评估我们最近开发的基于视觉的触觉传感器（VTS），以及（ ii) 一种互补的机器学习 (ML) 算法，用于利用肿瘤的纹理特征对肿瘤进行分类。利用七自由度机器人操纵器和独特的定制设计和增材制造的逼真 AGC 肿瘤模型，我们展示了使用 VTS 进行自动数据收集的优势，解决了传统基于 ML 的方法中遇到的数据稀缺和偏差问题。即使在混合形态特征和部分传感器接触的情况下，我们的合成数据训练的 ML 模型也成功地进行了评估，并与利用各种统计指标的传统 ML 模型进行了比较。

多智能体协同操纵相互作用力的分解

分类： 机器人技术, 信号处理

作者： Kody B. Shaw, Dallin L. Cordon, Marc D. Killpack, John L. Salmon

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01543v1

摘要： 多智能体人机协同操作是一个人们知之甚少的过程，其中许多输入可能会影响智能体的行为。本文探讨了一种称为交互力的输入。交互力可能是协同操作过程中发生的沟通的主要组成部分。然而，文献中对相互作用力有许多不同的观点和定义。因此，提出了交互力的分解，它提供了一种确定代理相对于多代理协同操作组的状态的一致方法。该方法将当前的定义从一个自由度扩展到四个自由度，不依赖于预定义的对象路径，并且独立于作用在系统上的代理数量及其位置和输入扳手（力和扭矩）。此外，所有必要的措施都可以通过独立的机器人系统获得，从而为未来的协同操作机器人控制器提供更灵活和适应性更强的方法。

SceneMotion：从以代理为中心的嵌入到场景范围的预测

分类： 计算机视觉和模式识别, 机器人技术

作者： Royden Wagner, Ömer Sahin Tas, Marlon Steiner, Fabian Konstantinidis, Hendrik Königshof, Marvin Klemp, Carlos Fernandez, Christoph Stiller

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01537v1

摘要： 自动驾驶车辆依靠多模式运动预测来有效地与环境交互并规划安全的操作。我们引入了 SceneMotion，这是一种基于注意力的模型，用于预测多个交通代理的场景范围运动模式。我们的模型使用新颖的潜在上下文模块将本地以代理为中心的嵌入转换为场景范围的预测。该模块从多个以代理为中心的嵌入中学习场景范围的潜在空间，从而实现联合预测和交互建模。 Waymo 开放交互预测挑战赛中的竞争表现证明了我们方法的有效性。此外，我们在时间和空间上聚集未来的路径点来量化代理之间的交互。我们合并所有模式并独立分析每个模式，以确定哪些集群通过交互来解决或导致冲突。我们的实现位于：https://github.com/kit-mrt/future-motion

不确定性下的自适应规划与生成模型

分类： 机器人技术, 机器学习

作者： Pascal Jutras-Dubé, Ruqi Zhang, Aniket Bera

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01510v1

摘要： 使用生成模型进行规划已成为跨多个领域的有效决策范例，包括强化学习和自主导航。虽然每个时间步长的连续重新规划可能看起来很直观，因为它允许根据最新的环境观察做出决策，但它会带来巨大的计算挑战，这主要是由于生成模型底层深度学习架构的复杂性。我们的工作通过引入简单的自适应规划策略来解决这一挑战，该策略利用生成模型预测长期状态轨迹的能力，从而能够连续执行多个操作，而无需立即重新规划。我们建议使用从逆动力学模型的深度集成中得出的预测不确定性来动态调整规划会话之间的间隔。在 OpenAI Gym 框架内对运动任务进行的实验中，我们证明了我们的自适应规划策略可以将重新规划频率减少到仅步数的 10% 左右，而不会影响性能。我们的结果强调了生成建模作为高效且有效的决策工具的潜力。

EVIT：使用窗口非线性优化的半密集地图中基于事件的视觉惯性跟踪

分类： 计算机视觉和模式识别, 机器人技术

作者： Runze Yuan, Tao Liu, Zijia Dai, Yi-Fan Zuo, Laurent Kneip

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01370v1

摘要： 事件相机是一种有趣的视觉外感受传感器，它对亮度变化做出反应，而不是积分绝对图像强度。由于这种设计，传感器在具有挑战性的动态和照明条件的情况下表现出强大的性能。虽然基于事件的同步跟踪和地图绘制仍然是一个具有挑战性的问题，但最近的许多工作已经指出传感器适用于先前基于地图的跟踪。通过利用跨模式配准范例，可以在由更传统的传感器先验创建的精确地图之上，在大范围的照明和动态条件下跟踪相机的自我运动。本文跟进了最近引入的基于事件的几何半密集跟踪范例，并提出添加惯性信号以增强估计。更具体地说，添加的信号为姿势初始化以及窗口多帧跟踪期间的正则化提供了强有力的线索。因此，所提出的框架在具有挑战性的照明条件下实现了更高的性能，并降低了中间事件表示需要注册的速率，以便在高度动态的序列中保持稳定的跟踪。我们的评估侧重于一组不同的现实世界序列，并将我们提出的方法与以不同速率运行的纯粹基于事件的替代方法进行比较。

发挥分数：用于机器人操作的舞台引导动态多感官融合

分类： 机器人技术, 计算机视觉和模式识别

作者： Ruoxuan Feng, Di Hu, Wenke Ma, Xuelong Li

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01366v1

摘要： 人类拥有在与环境互动时灵活地切换不同感官的非凡天赋。想象一下，厨师熟练地掌握配料添加的时间，并根据颜色、声音和香气控制火候，无缝地完成复杂烹饪过程的每个阶段。这种能力建立在对任务阶段的彻底理解的基础上，因为实现每个阶段的子目标可能需要利用不同的感官。为了赋予机器人类似的能力，我们将按子目标划分的任务阶段纳入模仿学习过程中，以相应地指导动态多感官融合。我们提出了 MS-Bot，一种具有从粗到细的阶段理解的阶段引导动态多感官融合方法，它根据预测的当前阶段内的细粒度状态动态调整模态的优先级。我们训练配备视觉、听觉和触觉传感器的机器人系统来完成具有挑战性的机器人操作任务：浇注和带键槽的钉插入。实验结果表明，我们的方法能够实现更有效和可解释的动态融合，比现有方法更符合人类融合过程。

长期机器人任务理解的支柱

分类： 机器人技术, 人工智能, 计算机视觉和模式识别, 人机交互

作者： Xiaoshuai Chen, Wei Chen, Dongmyoung Lee, Yukun Ge, Nicolas Rojas, Petar Kormushev

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01334v1

摘要： 端到端的机器人学习，尤其是长期任务，通常会导致不可预测的结果和较差的泛化能力。为了应对这些挑战，我们提出了一种新型的基于 Therblig 的骨干框架（TBBF）来增强机器人任务的理解和可转移性。该框架使用 therbligs（基本动作元素）作为骨干，将高级机器人任务分解为基本的机器人配置，然后将其与当前的基础模型集成以提高任务理解。该方法包括两个阶段：离线训练和在线测试。在离线训练阶段，我们开发了 Meta-RGate SynerFusion (MGSF) 网络，用于跨各种任务进行准确的热分割。在在线测试阶段，在收集新任务的一次性演示后，我们的 MGSF 网络提取高级知识，然后使用动作注册（ActionREG）将其编码到图像中。此外，采用大语言模型（LLM）-视觉校正对齐策略（LAP-VC）来确保精确的动作执行，促进新颖的机器人场景中的轨迹转移。实验结果验证了这些方法，在分割中实现了 94.37% 的召回率，在简单和复杂场景的真实在线机器人测试中分别实现了 94.4% 和 80% 的成功率。补充材料位于：https://sites.google.com/view/therbligsbasedbackbone/home

将控制输入纳入连续移动机器人轨迹和连续机器人形状的估计中

分类： 机器人技术

作者： Sven Lilge, Timothy D. Barfoot

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01333v1

摘要： 使用高斯过程的连续时间批量状态估计是估计机器人随时间变化的轨迹的有效方法。过去，此类方法已考虑相对简单的物理驱动先验，使用恒定速度或加速度等假设。本文提出了一种将速度或加速度命令等外源控制输入合并到连续高斯过程状态估计框架中的方法。结果表明，这种方法可以推广到机器人技术的不同领域，使其适用于移动机器人的连续时间轨迹和连续机器人形状的估计。结果表明，合并控制输入可以带来更明智的先验，可能需要更少的测量和估计节点来获得准确的估计。这使得该方法在可用传感有限的情况下特别有用。

Jacta：学习灵巧和全身操作的多功能规划器

分类： 机器人技术

作者： Jan Brüdigam, Ali-Adeeb Abbas, Maks Sorokin, Kuan Fang, Brandon Hung, Maya Guru, Stefan Sosnowski, Jiuguang Wang, Sandra Hirche, Simon Le Cleac'h

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01258v1

摘要： 由于不连续的动力学以及高维状态和动作空间，机器人操纵具有挑战性。成功完成操作任务的数据驱动方法需要大量数据和专家演示（通常来自人类）。现有的操作规划器仅限于特定系统，并且通常依赖于专用算法来使用演示。因此，我们引入了一种针对灵巧和全身操作任务量身定制的灵活运动规划器。我们的规划器为强化学习算法创建易于使用的演示，从而消除了额外训练流程复杂性的需要。通过这种方法，我们可以有效地学习复杂操作任务的策略，而仅靠传统的强化学习只能取得很少的进展。此外，我们证明了学习到的策略可以转移到真正的机器人系统中，以解决复杂的灵巧操作任务。

NeRFot：基于图像的视觉伺服的机器人足迹估计

分类： 机器人技术

作者： Daoxin Zhong, Luke Robinson, Daniele De Martini

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01251v1

摘要： 本文研究了神经辐射场 (NeRF) 模型在扩展移动机器人操作区域方面的实用性，该机器人由基于图像的视觉伺服 (IBVS) 通过静态闭路电视摄像机进行控制。使用 NeRF 作为 3D 表示先验，机器人的足迹可以进行几何推断，并用于训练基于 CNN 的网络，以仅从机器人的外观中在线提取它。由此产生的占地面积比机器人范围的边界框更紧密，从而允许机器人的控制器指定更优化的轨迹并扩大其安全操作地板面积。

HeteroMorpheus：基于形态异质性建模的通用控制

分类： 机器人技术, 机器学习

作者： YiFan Hao, Yang Yang, Junru Song, Wei Peng, Weien Zhou, Tingsong Jiang, Wen Yao

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01230v1

摘要： 在机器人控制领域，为每个机器人设计单独的控制器会导致很高的计算成本。适用于不同机器人形态的通用控制策略有望缓解这一挑战。主要采用基于图神经网络（GNN）和 Transformer 的模型，因为它们可以有效捕获机器人四肢的关系动态。然而，这些模型通常采用同质图结构，忽略了不同肢体的功能多样性。为了弥补这一差距，我们引入了 HeteroMorpheus，一种基于异构图 Transformer 的新方法。该方法独特地解决了肢体异质性，促进更好地表示各种形态的机器人动力学。通过大量的实验，我们证明了 HeteroMorpheus 在策略泛化能力方面相对于最先进的方法的优越性，包括零样本泛化和向不熟悉的机器人形态的样本有效转移。

现实融合：具有体积视觉数据融合的鲁棒实时沉浸式移动机器人远程操作

分类： 机器人技术

作者： Ke Li, Reinhard Bacher, Susanne Schmidt, Wim Leemans, Frank Steinicke

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01225v1

摘要： 我们介绍 Reality Fusion，这是一种新颖的机器人远程操作系统，可对典型的机载深度传感器进行本地化、流式传输、投影并将其与复杂远程环境的逼真、高分辨率、高帧率和宽视场 (FoV) 渲染相结合，表示为3D 高斯图 (3DGS)。我们的框架能够在沉浸式 VR 中实现强大的自我中心和外中心机器人远程操作，3DGS 有效扩展具有有限 FoV 的深度传感器的空间信息，并平衡数据流成本和数据视觉质量之间的权衡。我们通过对 24 名参与者进行的用户研究评估了我们的框架，结果表明现实融合可以显着改善用户性能、态势感知和用户偏好。为了支持进一步的研究和开发，我们提供了一个开源实现，其中包括易于复制的定制远程呈现机器人、高性能虚拟现实 3DGS 渲染器和沉浸式机器人控制包。（源代码：https://github.com/uhhhci/RealityFusion）

从问题到解决方案：通过欠挤压粘合软质和刚性材料的仿生 3D 打印

分类： 机器人技术

作者： Arman Goshtasbi, Luca Grignaffini, Ali Sadeghi

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01210v1

摘要： 脊椎动物受益于结构支撑的刚性和适应的柔软性的结合。同样，刚性和柔性的结合可以增强软体机器人的多功能性。然而，在软质和刚性材料之间创建耐用的粘合界面所面临的挑战限制了混合机器人的发展。现有解决方案需要专用机械，例如多喷头 3D 打印机，但这些机械并不常见。为了应对这些挑战，我们开发了一种 3D 打印技术，可以与几乎所有商用 FDM 打印机一起使用。该技术利用了挤压不足的常见问题，在软质和刚性材料之间形成牢固的结合。挤压不足会产生类似于纤维结缔组织的多孔结构，通过层融合提供与刚性部件的坚固界面，同时孔隙率能够与软材料互锁。我们的实验表明，这种方法优于软体机器人中常用的传统粘合剂，在搭接剪切和剥离测试中实现了近 200% 的粘合强度。此外，我们还研究了不同的孔隙率水平如何影响粘合强度。我们在对软体和混合机器人至关重要的压力场景下测试了该技术，并获得了比当前粘附解决方案高三倍的压力。最后，我们使用这种技术制造了各种混合机器人，以展示这种方法和混合性可以为软机器人技术带来的广泛功能。有上下文菜单

Actra：机器人学习中视觉-语言-动作模型的优化 Transformer 架构

分类： 机器人技术

作者： Yueen Ma, Dafeng Chi, Shiguang Wu, Yuecheng Liu, Yuzheng Zhuang, Jianye Hao, Irwin King

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01147v1

摘要： 视觉-语言-动作模型因其在机器人学习中对轨迹进行建模的能力而受到广泛关注。然而，大多数现有模型依赖于具有普通因果注意力的 Transformer 模型，我们发现这种模型对于处理分段多模态序列来说不是最佳的。此外，自回归生成方法在生成多维动作方面存在不足。在本文中，我们介绍了 Actra，一种优化的 Transformer 架构，具有轨迹注意力和可学习动作查询的特点，专为机器人模仿学习中分段视觉-语言-动作轨迹的有效编码和解码而设计。此外，我们设计了一个多模式对比学习目标来明确调整不同的模式，补充主要的行为克隆目标。通过在各种环境中进行的广泛实验，与最先进的模型相比，Actra 在通用性、灵活性和精度方面表现出了显着的性能改进。

使用柔性电子皮肤的闭环水下软机器人箔形状控制

分类： 机器人技术

作者： Leo Micklem, Huazhi Dong, Francesco Giorgio-Serchi, Yunjie Yang, Gabriel D. Weymouth, Blair Thornton

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01130v1

摘要： 软机器人在现实世界的水下应用中的使用受到限制，甚至比在陆地应用中的应用还要严重，因为它无法实时精确测量和控制软材料的变形，而无需外部传感器的反馈。实时水下形状估计将允许对软推进器进行精确的闭环控制，从而实现高性能游泳和操纵。我们提出并演示了一种基于柔性电容电子皮肤和机器学习的闭环水下软机器人箔控制方法，该方法不需要来自外部传感器的反馈。水下电子皮肤应用到高度灵活的箔片上，通过软液压执行器可承受 2% 至 9% 的弯度变形。在正弦和三角驱动例程中成功跟踪了外倾角的精确设定点调节，峰峰值幅度为 5%，周期为 10 秒，归一化 RMS 误差为 0.11，峰峰值幅度为 2%周期为 5 秒，归一化 RMS 误差为 0.03。尾尖偏转可在 30 毫米（0.15 弦）范围内进行测量。这些结果为将电子皮肤技术用于水下软机器人闭环控制应用铺平了道路。

IG-SLAM：即时高斯 SLAM

分类： 计算机视觉和模式识别, 机器人技术

作者： Furkan Aykut Sarikamis, Abdullah Aydin Alatan

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01126v1

摘要： 3D 高斯分布最近显示出有希望的结果，作为 SLAM 系统中神经隐式表示的替代场景表示。然而，当前的方法要么缺乏密集的深度图来监督映射过程，要么缺乏考虑环境规模的详细训练设计。为了解决这些缺点，我们提出了 IG-SLAM，这是一种仅 RGB 的密集 SLAM 系统，它采用鲁棒的 Dense-SLAM 方法进行跟踪，并将其与高斯分布相结合。使用跟踪提供的准确姿势和密集深度构建环境的 3D 地图。此外，我们利用地图优化中的深度不确定性来改进 3D 重建。我们在地图优化中的衰减策略增强了收敛性，并允许系统在单个进程中以 10 fps 的速度运行。我们通过最先进的纯 RGB SLAM 系统展示了具有竞争力的性能，同时实现了更快的操作速度。我们展示了在 Replica、TUM-RGBD、ScanNet 和 EuRoC 数据集上的实验。该系统在大规模序列中实现了逼真的 3D 重建，特别是在 EuRoC 数据集中。

CommonUppRoad：自动驾驶车辆的正式建模、验证、学习和可视化框架

分类： 多代理系统, 机器人技术

作者： Rong Gu, Kaige Tan, Andreas Holck Høeg-Petersen, Lei Feng, Kim Guldstrand Larsen

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01093v1

摘要： 机器学习和形式化方法（FM）的结合为克服自动驾驶（AD）车辆的安全问题提供了可能的解决方案。然而，在这种组合变得实际适用和有用之前，还需要弥补一些差距。为了方便 FM 和 AD 领域的研究人员，本文提出了一个结合了两个众所周知的工具（即 CommonRoad 和 UPPAAL）的框架。一方面，CommonRoad可以通过UPPAAL中模型严格的语义得到增强，从而能够系统、全面地理解AD系统的行为，从而增强系统的安全性。另一方面，UPPAAL合成的控制器可以通过CommonRoad在现实世界的道路网络中可视化，这有助于自动驾驶车辆设计者在系统设计中大大采用形式化模型。在此框架中，我们提供 CommonRoad 和 UPPAAL 之间的自动模型转换。因此，用户只需要使用Python进行编程，框架就会在后端负责形式化模型、学习和验证。我们进行实验来证明我们的框架在各种 AD 场景中的适用性，讨论在我们的框架中解决运动规划的优势，并展示可扩展性限制和可能的解决方案。

NING Humanoid：动态敏捷平台的并行设计和开发

分类： 机器人技术

作者： Yan Ning, Song Liu, Taiwen Yang, Liang Zheng, Ling Shi

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01056v1

摘要： 最近人们对敏捷类人机器人实现跳跃和翻转等动态任务的兴趣激增，因此需要同时设计一个机器人平台，将卓越的硬件性能与有效的控制算法相结合。本文介绍了 NING Humanoid，这是一个敏捷而强大的平台，旨在实现类人的运动能力。 NING 人形机器人具有高扭矩执行器、基于质心动力学的弹性机械协同设计以及全身模型预测控制 (WB-MPC) 框架。它高 1.1 米，重 20 公斤，具有 18 个自由度 (DOF)。它展示了令人印象深刻的能力，例如在高控制带宽下行走、推力恢复和爬楼梯。我们的演示将包括硬件协同设计、控制框架以及仿真和实时实验。

基于运动的运动估计和未知形状空间碎片的 3D 重建的结构

分类： 机器人技术, 计算机视觉和模式识别

作者： Kentaro Uno, Takehiro Matsuoka, Akiyoshi Uchida, Kazuya Yoshida

发布时间： 2024-08-02

链接： http://arxiv.org/abs/2408.01035v1

摘要： 随着近几十年来航天器发射次数的增加，空间碎片问题日益变得至关重要。对于太空的可持续利用，不断清除空间碎片是人类面临的最严峻的问题。为了最大限度地提高在轨碎片捕获任务的可靠性，目标的精确运动估计至关重要。空间碎片失去了姿态和轨道控制能力，且因断裂而形状不明。本文提出了基于运动结构的算法，以有限的资源执行未知形状的空间碎片运动估计，其中仅需要二维图像作为输入。然后，该方法同时输出未知物体的重建形状以及目标与相机之间的相对位姿轨迹，用于估计目标的运动。该方法通过 2D 气浮试验台中微重力实验生成的真实图像数据集和 3D 运动学模拟进行了定量验证。

使用标准清晰度地图增强在线道路网络感知和推理

分类： 计算机视觉和模式识别, 机器人技术

作者： Hengyuan Zhang, David Paz, Yuliang Guo, Arun Das, Xinyu Huang, Karsten Haug, Henrik I. Christensen, Liu Ren

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.01471v1

摘要： 城市和高速公路驾驶应用的自动驾驶通常需要高清 (HD) 地图来生成导航计划。然而，在大规模生成和维护高清地图时，会出现各种挑战。虽然最近的在线地图方法已经开始出现，但它们的性能，特别是在较长范围内，受到动态环境中严重遮挡的限制。考虑到这些因素，我们的工作重点是利用轻量级和可扩展的先验（标准清晰度（SD）地图）来开发在线矢量化高清地图表示。我们首先研究将原型光栅化 SD 地图表示集成到各种在线地图架构中。此外，为了确定轻量级策略，我们使用 OpenStreetMaps 扩展了 OpenLane-V2 数据集，并评估了图形 SD 地图表示的好处。设计 SD 地图集成组件的一个重要发现是，SD 地图编码器与模型无关，并且可以快速适应利用鸟瞰 (BEV) 编码器的新架构。我们的结果表明，使用 SD 地图作为在线绘图任务的先验可以显着加快收敛速度，并将在线中心线感知任务的性能提高 30% (mAP)。此外，我们表明，SD 地图的引入可以通过利用 SD 地图减少感知和推理任务中的参数数量，同时提高整体性能。项目页面：https://henryzhangzhy.github.io/sdhdmap/。

用于运动群非参数估计的调和指数滤波器

分类： 机器人技术

作者： Miguel Saavedra-Ruiz, Steven A. Parkison, Ria Arora, James Richard Forbes, Liam Paull

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00907v1

摘要： 贝叶斯估计是机器人技术中的重要工具，因为它允许系统使用来自噪声传感器的不完整信息来更新机器人状态的信念。为了使状态估计问题易于处理，许多系统假设运动和测量噪声以及状态分布都是单峰和高斯的。然而，有许多场景和系统不符合这些假设。用于对多峰分布进行建模的现有非参数滤波器存在一些缺点，限制了它们表示不同分布集的能力。在本文中，我们介绍了一种新的非参数贝叶斯滤波方法，以使用调和指数分布来处理多峰分布。这种方法利用了调和指数分布的两个关键见解：a) 两个分布的乘积可以表示为其对数似然傅里叶系数的逐元素相加，b) 两个分布的卷积可以有效地计算为张量它们的傅立叶系数的乘积。这些观察结果使得能够开发出高达傅里叶变换带限的贝叶斯滤波器的高效且精确的解决方案。我们在一系列模拟和现实世界的定位任务中展示了我们的过滤器与已建立的非参数过滤方法相比的卓越性能。

采用面向最终效果的基于学习的方法进行实时灵巧遥控操作

分类： 机器人技术

作者： Haoyang Wang, He Bai, Xiaoli Zhang, Yunsik Jung, Michel Bowman, Lingfeng Tao

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00853v1

摘要： 灵巧的遥控操作对于推进人机系统至关重要，特别是在需要精确和安全操作的任务中。然而，由于人手和机器人手之间的物理差异、与物体的动态交互以及对远程环境的间接控制和感知，它面临着重大挑战。当前的方法主要集中于将人手映射到机器人对应物上以复制动作，这表现出了严重的疏忽：它经常忽略与物体的物理交互，并将交互负担转移给人类，以适应和做出费力的调整以响应间接和对远程环境的反直觉观察。这项工作开发了一种基于最终效果的学习的灵巧遥控（EFOLD）框架来解决遥控任务。 EFOLD 将遥控操作建模为马尔可夫博弈，引入多种最终效应特征来解释人类操作员在与物体交互期间的命令。深度强化学习策略使用这些功能来控制机器人并重现此类最终效果。 EFOLD 通过真实人类受试者和两种用于在远程操作任务中控制虚拟影子机器人手的最终效果提取方法进行了评估。 EFOLD实现了低命令跟随延迟（延迟<0.11s）和高精度跟踪（MSE<0.084 rad）的实时控制能力。

动态环境下机器人监控任务的职业感知规划方法

分类： 机器人技术

作者： Yaroslav Marchukov, Luis Montano

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00846v1

摘要： 本文提出了一种在存在移动障碍物的情况下执行机器人监控任务的方法。尽管场景地图是已知的，但机器人缺乏监测任务期间动态障碍物运动的信息。近年来，已经开发了许多本地规划器来应对高度动态的环境。然而，缺乏针对这些环境的全局规划可能会导致不可避免的碰撞或无法在人口稠密的地区成功完成任务，例如我们案例中的场景监控。这项工作涉及全球规划器 $MADA$（监控避免动态区域）的开发和评估，旨在增强机器人在此类挑战性条件下的部署。机器人使用所提出的两步方法来计划和执行任务。第一步是根据环境分布和估计的监测成本选择观测目标。第二步，机器人识别有移动障碍物的区域，并根据其占用情况获得避开密集占用的动态区域的路径。基于模拟和现实世界实验的定量和定性结果证实，所提出的方法允许机器人有效地监控大部分环境，同时避免密集占用的动态区域。

通过连续传感进行覆盖路径规划，最大限度地缩短搜索对象的预期时间

分类： 机器人技术

作者： Linh Nguyen

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00642v1

摘要： 在本文中，我们提出了一些具有理论和实践意义的结果。首先，我们提出配额草坪修剪问题，这是计算几何中经典草坪修剪问题的扩展，如下：给定覆盖范围配额，计算实现所述配额的最短草坪修剪路线。我们给出了配额草坪修剪问题的常数因子近似值。其次，我们研究了具有局部连续感知信息的几何覆盖路径规划中的预期检测时间最小化问题。我们提供了第一个近似算法，具有可证明的误差范围和伪多项式运行时间。我们的想法还扩展到另一种搜索机制，即基于可见性的搜索，这与看守路线问题有关。我们用一些简单但有效的启发式方法来补充我们的理论分析，以便在最短的预期时间内找到对象，并提供模拟结果。

CrystalTac：通过快速单片制造技术 3D 打印基于视觉的触觉传感器系列

分类： 机器人技术, 信号处理

作者： Wen Fan, Haoran Li, Dandan Zhang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00638v1

摘要： 最近，基于视觉的触觉传感器（VBTS）在机器人系统中越来越受欢迎。大多数 VBTS 的传感机制可以根据它们捕获的触觉特征的类型进行分类。每个类别都需要特定的结构设计来将物理接触转换为光学信息。 VBTS 的复杂架构在设计灵活性、成本效益和质量稳定性方面对传统制造技术提出了挑战。先前的研究表明，使用多材料 3D 打印技术的整体制造可以部分解决这些挑战。本研究介绍了 CrystalTac 系列，这是一系列采用独特传感机制设计并通过快速单片制造制造的 VBTS。 CrystalTac 型传感器的案例研究证明了它们在涉及触觉感知的任务中的有效性能，以及令人印象深刻的成本效益和设计灵活性。 CrystalTac 系列旨在突出单片制造在 VBTS 开发中的潜力，并激发触觉传感和操纵方面的进一步研究。

使用 5 DOF 触觉夹具进行手动分离和舀取操作

分类： 机器人技术

作者： Yuhao Zhou, Pokuang Zhou, Shaoxiong Wang, Yu She

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00610v1

摘要： 操纵任务通常需要高度的灵活性，通常需要具有多个自由度 (DoF) 的夹具。虽然配备多个手指的机械手可以执行精确而复杂的操作任务，但其广泛的自由度所带来的固有冗余往往会增加不必要的复杂性。在本文中，我们介绍了带有两个手指和五个自由度的配备触觉传感器的夹具的设计。我们提出了一种集成 GelSight 触觉传感器的新颖设计，增强了传感能力并在特定操作任务期间实现更精细的控制。为了评估夹具的性能，我们进行了涉及两项具有挑战性的任务的实验：1）对嵌入颗粒介质中的各种物体进行检索、单一化和分类，以及2）在有限的环境中执行信用卡的舀取操作以实现精确插入。我们的结果证明了所提出方法的效率，在分离和分类任务方面具有很高的成功率，特别是对于球形物体，成功率高达 94.3%，在铲起和插入信用卡方面的成功率高达 100%。

U2UData：集群无人机自主飞行的大规模协作感知数据集

分类： 机器人技术

作者： Tongtong Feng, Xin Wang, Feilin Han, Leping Zhang, Wenwu Zhu

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00606v1

摘要： 现代自主飞行感知系统对遮挡敏感且远程能力有限，这是提高低空经济任务性能的关键瓶颈。最近的研究表明，无人机对无人机（U2U）协作感知系统具有彻底改变自主飞行行业的巨大潜力。然而，缺乏大规模数据集阻碍了这一领域的进展。本文提出了 U2UData，这是第一个用于集群无人机自主飞行的大规模协作感知数据集。该数据集是由三架在 U2USim 中自主飞行的无人机收集的，覆盖了 9 公里$^2$ 的飞行区域。它包含 315K LiDAR 帧、945K RGB 和深度帧以及 3 个类别的 241 万个带注释的 3D 边界框。它还包括覆盖所有航线的亮度、温度、湿度、烟雾和气流值。 U2USim 是第一个真实世界测绘群体无人机仿真环境。它以云南省为原型，包括4种地形、7种天气条件和8种传感器类型。 U2UData引入了两个感知任务：协作3D对象检测和协作3D对象跟踪。本文提供了最近针对这些任务的协作感知算法的综合基准。

在高速移动平台上收集大规模机器人数据集

分类： 机器人技术

作者： Yuxin Lin, Jiaxuan Ma, Sizhe Gu, Jipeng Kong, Bowen Xu, Xiting Zhao, Dengji Zhao, Wenhan Cao, Sören Schwertfeger

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00545v1

摘要： 移动机器人数据集对于机器人研究至关重要，例如同步定位与建图 (SLAM) 的研究。因此，上海科技大学测绘机器人应运而生，它配备了多个高性能传感器和一个 16 节点集群来收集所有这些数据。该机器人基于 Clearpath Husky 移动底座，最大速度为每秒 1 米。这对于室内数据集来说很好，但要收集大规模室外数据集，需要更快的平台。本系统论文介绍了我们用于数据收集的高速移动平台。测绘机器人固定在具有最大视野的后转向平板车上。此外，两个编码器从两个车轮收集里程计数据，外部传感器板装有俯视 RGB 和事件相机。通过此设置，收集了地下停车场和校园外部超过 10 公里的数据集，并与本文一起发布。

适用于高清数据集的高质量、ROS 兼容视频编码和解码

分类： 机器人技术, 计算机视觉和模式识别

作者： Jian Li, Bowen Xu, Sören Schwertfeger

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00538v1

摘要： 机器人数据集对于科学基准测试和开发算法非常重要，例如同步定位和建图 (SLAM)。现代机器人数据集具有高分辨率和高帧率的视频数据。因此，存储和共享这些数据集变得非常昂贵，尤其是在数据集使用多个摄像机的情况下。因此，必须以压缩格式存储该视频数据。本文研究了现代视频编码器在机器人数据集上的使用。我们提供了一款可以在ROS 1和ROS 2框架内回放mp4视频的软件，支持模拟时间同步播放。此外，本文还评估了不同的编码器及其设置，以找到在结果大小、质量和编码时间方面的最佳配置。通过这项工作，我们表明可以在合理的存储限制内存储和共享最高质量的视频数据集。

具有安全屏蔽的机会约束信息论随机模型预测控制

分类： 机器人技术

作者： Ji yin, Panagiotis Tsiotras, Karl Berntorp

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00494v1

摘要： 本文介绍了一种新颖的非线性随机模型预测控制路径积分（MPPI）方法，该方法考虑了系统状态的机会约束。所提出的置信空间随机 MPPI (BSS-MPPI) 应用蒙特卡洛采样来评估潜在系统扰动导致的状态分布，并利用置信空间中的控制屏障函数 (CBF) 启发式启发法来满足指定的机会约束。与之前的几种随机预测控制方法相比，我们的方法适用于一般非线性动力学，而不需要计算成本昂贵的系统线性化步骤。此外，BSS-MPPI控制器可以在不限制目标函数形式和机会约束的情况下解决优化问题。通过使用 GPU 对采样过程进行多线程处理，我们可以实现对时间和安全关键任务（例如自动驾驶赛车）的快速实时规划。我们在现实赛车模拟研究中的结果表明，与之前的一些 MPPI 方法相比，约束违规显着减少，同时计算时间相当。

SF-TIM：结合地形想象和测量来增强四足机器人跳跃敏捷性的简单框架

分类： 机器人技术

作者： Ze Wang, Yang Li, Long Xu, Hao Shi, Zunwang Ma, Zhen Chu, Chao Li, Fei Gao, Kailun Yang, Kaiwei Wang

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00486v1

摘要： 在高平台和间隙上动态跳跃是腿式机器人与轮式机器人的区别。与在崎岖地形上行走相比，在陡峭表面上的动态运动需要融合本体感觉和外感觉来进行爆发性运动。在本文中，我们提出了 SF-TIM（结合地形想象和测量的简单框架），这是一种单策略方法，可以增强四足机器人的跳跃敏捷性，同时保留其基本的盲目行走能力。此外，我们还引入了地形引导奖励设计，专门用于辅助四足机器人跳高，提高其在这项任务中的表现。为了缩小四足机器人学习中的模拟与现实的差距，我们引入了稳定且高速的高程图生成框架，实现了运动能力的零样本模拟到现实的迁移。我们的算法已在小型/大型四足机器人上部署和验证，证明了其在实际应用中的有效性：机器人已成功穿越各种高平台和间隙，显示了我们提出的方法的鲁棒性。演示视频已在 https://flysoaryun.github.io/SF-TIM 上提供。

DriveArena：自动驾驶闭环生成仿真平台

分类： 机器人技术, 人工智能, 计算机视觉和模式识别

作者： Xuemeng Yang, Licheng Wen, Yukai Ma, Jianbiao Mei, Xin Li, Tiantian Wei, Wenjie Lei, Daocheng Fu, Pinlong Cai, Min Dou, Botian Shi, Liang He, Yong Liu, Yu Qiao

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00415v1

摘要： 本文介绍了 DriveArena，这是第一个专为驾驶代理在真实场景中导航而设计的高保真闭环模拟系统。 DriveArena 采用灵活的模块化架构，可实现其核心组件的无缝互换：Traffic Manager（能够在任何全球街道地图上生成真实交通流的交通模拟器）和 World Dreamer（具有无限自回归的高保真条件生成模型）。这种强大的协同作用使任何能够处理现实世界图像的驾驶代理能够在 DriveArena 的模拟环境中导航。智能体通过 World Dreamer 生成的图像和输出轨迹来感知周围环境。这些轨迹被输入到交通管理器中，实现与其他车辆的真实交互并生成新的场景布局。最后，最新的场景布局被转发回 World Dreamer，从而延续模拟周期。这一迭代过程促进了高度现实环境中的闭环探索，为跨不同且具有挑战性的场景开发和评估驾驶代理提供了有价值的平台。 DriveArena 标志着在驾驶模拟平台利用生成图像数据方面的重大飞跃，为闭环自动驾驶提供了见解。代码即将在 GitHub 上提供：https://github.com/PJLab-ADG/DriveArena

DiM-Gesture：使用自适应层标准化 Mamba-2 框架生成共同语音手势

分类： 图形, 人工智能, 机器人技术, 声音

作者： Fan Zhang, Naye Ji, Fuxing Gao, Bozuo Zhao, Jingmei Wu, Yanbing Jiang, Hui Du, Zhenqing Ye, Jiayang Zhu, WeiFan Zhong, Leyao Yan, Xiaomeng Ma

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00370v1

摘要： 语音驱动的手势生成是虚拟人类创作中的一个新兴领域，当前的方法主要利用基于 Transformer 的架构，该架构需要大量内存，且推理速度慢。为了应对这些限制，我们提出了 \textit{DiM-Gestures}，这是一种新颖的端到端生成模型，旨在采用基于 Mamba 的架构，仅从原始语音音频创建高度个性化的 3D 全身手势。该模型将基于 Mamba 的模糊特征提取器与非自回归自适应层归一化 (AdaLN) Mamba-2 扩散架构集成在一起。该提取器利用 Mamba 框架和 WavLM 预训练模型，自动导出隐式连续模糊特征，然后将其统一为单个潜在特征。该功能由 AdaLN Mamba-2 处理，它在所有标记上实现统一的条件机制，以稳健地模拟模糊特征与生成的手势序列之间的相互作用。这种创新方法保证了手势-语音同步的高保真度，同时保持了手势的自然性。我们的框架采用扩散模型进行训练和推理，对 ZEGGS 和 BEAT 数据集进行了广泛的主观和客观评估。这些评估证实了我们的模型相对于当代最先进的方法的增强性能，展示了 DiTs 架构 (Persona-Gestors) 的竞争结果，同时优化了内存使用并加快了推理速度。

IN-Sight：通过 Sight 进行交互式导航

分类： 机器人技术, 计算机视觉和模式识别, 机器学习, I.2.10

作者： Philipp Schoch, Fan Yang, Yuntao Ma, Stefan Leutenegger, Marco Hutter, Quentin Leboute

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00343v1

摘要： 当前的视觉导航系统通常将环境视为静态的，缺乏自适应地与障碍物交互的能力。当遇到不可避免的障碍物时，这种限制会导致导航失败。为此，我们推出了 IN-Sight，这是一种自我监督路径规划的新颖方法，可通过与障碍物交互来实现更有效的导航策略。 IN-Sight 利用 RGB-D 观测结果计算可遍历性分数并将其合并到语义地图中，从而促进在复杂、迷宫般的环境中进行远程路径规划。为了精确地绕过障碍物，IN-Sight 雇用了一名本地规划人员，该规划人员使用表示学习技术在可微分成本图上进行了强制训练。整个框架在最先进的逼真英特尔 SPEAR 模拟器中接受端到端训练。我们通过各种模拟场景和消融研究中的广泛基准测试来验证 IN-Sight 的有效性。此外，我们通过零次模拟到真实的传输展示了系统的现实世界适用性，将我们的规划器部署在腿式机器人平台 ANYmal 上，展示了其在真实环境中交互式导航的实际潜力。

用于人形控制的 MuJoCo MPC：HumanoidBench 上的评估

分类： 机器人技术, 人工智能, 机器学习

作者： Moritz Meser, Aditya Bhatt, Boris Belousov, Jan Peters

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00342v1

摘要： 我们使用 MuJoCo MPC 来应对最近推出的全身人形控制 HumanoidBench 基准测试。我们发现 HumanoidBench 的稀疏奖励函数在优化时会产生不良且不切实际的行为；因此，我们提出了一组正则化项来稳定机器人在任务中的行为。当前对任务子集的评估表明，我们提出的奖励函数可以实现最高的 HumanoidBench 分数，同时保持真实的姿势和平滑的控制信号。我们的代码是公开的，并将成为 MuJoCo MPC 的一部分，从而实现机器人行为的快速原型设计。

为慢跑时视力受损人士提供基于视觉的可穿戴转向辅助装置

分类： 计算机视觉和模式识别, 机器人技术

作者： Xiaotong Liu, Binglu Wang, Zhijun Li

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00332v1

摘要： 户外运动对视力受损的人来说是一个挑战。对高速移动的需求激发了我们开发基于视觉的可穿戴转向辅助装置。为了确保广泛的适用性，我们专注于具有代表性的运动环境，即田径跑道。我们的工作重点是提高感知的速度和准确性，增强规划对现实世界的适应性，并为视力受损的人提供迅速、安全的帮助。在感知方面，我们设计了一个轻量级多任务网络，能够同时检测轨道线和障碍物。此外，由于现有数据集在支持田径跑道中的多任务检测方面存在局限性，我们努力收集并注释了一个包含 1000 张图像的新数据集（MAT）。在规划中，我们综合了采样和样条曲线的方法，解决了曲线规划的难题。同时，我们利用轨道线和障碍物的位置作为约束，引导视力障碍人士安全沿当前轨道行驶。我们的系统部署在嵌入式设备 Jetson Orin NX 上。通过户外实验，展示了对不同运动场景的适应性，帮助用户以平均1.34 m/s的速度实现400米的自由运动，达到正常人慢跑的水平。我们的 MAT 数据集可从 https://github.com/snoopy-l/MAT 公开获取

基于强化学习的密集环境四旋翼自主飞行运动规划器

分类： 机器人技术

作者： Zhaohong Liu, Wenxuan Gao, Yinshuai Sun, Peng Dong

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00275v1

摘要： 四旋翼飞行器运动规划对于复杂环境（例如救援行动）中的自主飞行至关重要。传统方法通常采用轨迹生成优化和被动时间分配策略，这会限制四旋翼飞行器动态能力的利用并引入延迟和不准确性。为了应对这些挑战，我们提出了一种新颖的运动规划框架，该框架集成了可见性路径搜索和强化学习（RL）运动生成。我们的方法使用启发式搜索和可见性图构建无碰撞路径，然后通过 RL 策略进行细化以生成低级运动命令。我们在模拟室内环境中验证了我们的方法，在时间跨度方面展示了比传统方法更好的性能。

通过学习动态实现杂乱感知的无溢出液体运输

分类： 机器人技术

作者： Ava Abderezaei, Anuj Pasricha, Alex Klausenstock, Alessandro Roncone

发布时间： 2024-08-01

链接： http://arxiv.org/abs/2408.00215v1

摘要： 在这项工作中，我们提出了一种新颖的算法，可以对在杂乱环境中运行的开顶液体填充容器进行无溢出处理。通过允许液体填充容器以更高的角度倾斜并实现沿末端执行器方向的所有轴运动，我们的工作扩展了可到达的空间并增强了围绕障碍物的可操作性，从而扩大了可行场景的范围。我们的主要贡献包括：i) 通过使用 RRT* 和知情采样器生成无溢出路径，该采样器利用容器属性来避免引发溢出的状态（例如颠倒的容器），ii) 参数化生成的结果路径通过实施时间参数化算法，结合基于变压器的机器学习模型，能够将轨迹分类为无溢出轨迹，从而获得无溢出轨迹。我们使用各种形状和填充水平的容器在现实世界、障碍丰富的任务设置中验证我们的方法，并展示了比现有方法至少大 3 倍的扩展解决方案空间。